Computer >> Máy Tính >  >> Lập trình >> Lập trình

Khai thác dữ liệu đa quan hệ là gì?


Phương pháp khai thác dữ liệu đa quan hệ (MRDM) tìm kiếm các thiết kế chứa các bảng (quan hệ) từ cơ sở dữ liệu quan hệ. Mỗi bảng hoặc quan hệ đại diện cho một thực thể hoặc một mối quan hệ, được mô tả bởi một tập hợp các thuộc tính. Liên kết giữa các mối quan hệ cho thấy mối quan hệ giữa chúng.

Có một phương pháp để áp dụng các phương pháp khai thác dữ liệu truyền thống (giả sử rằng dữ liệu nằm trong một bảng duy nhất) là mệnh đề hóa, chuyển đổi dữ liệu đa tương quan thành một quan hệ dữ liệu phẳng duy nhất, sử dụng các phép nối và tổng hợp.

Điều này có thể dẫn đến việc tạo ra một "mối quan hệ phổ quát" rất lớn, không mong muốn (liên quan đến tất cả các thuộc tính). Hơn nữa, nó có thể dẫn đến mất thông tin, bao gồm cả thông tin ngữ nghĩa thiết yếu được đại diện bởi các liên kết trong thiết kế cơ sở dữ liệu.

Khai thác dữ liệu đa quan hệ nhằm khám phá kiến ​​thức trực tiếp từ dữ liệu tương đối. Có các chức năng khai thác dữ liệu đa quan hệ khác nhau, chẳng hạn như phân loại đa quốc gia, phân cụm và khai thác mẫu thường xuyên.

Ưu điểm của phân loại Đa quan hệ là xây dựng một mô hình phân loại sử dụng thông tin trong các quan hệ khác nhau. Phân cụm đa quan hệ nhằm mục đích nhóm các bộ giá trị thành các cụm bằng cách sử dụng các thuộc tính của chúng cũng như các bộ giá trị liên quan đến chúng trong các quan hệ khác nhau. Khai thác mẫu thường xuyên đa quan hệ nhằm mục đích tìm kiếm các mẫu liên quan đến các mục được kết nối với nhau trong các mối quan hệ khác nhau. Đầu tiên, nó có thể sử dụng phân loại mult-relational làm ví dụ để minh họa mục đích và quy trình khai thác dữ liệu đa quan hệ.

Trong cơ sở dữ liệu để phân loại đa quan hệ, có một quan hệ đích, Rt, có các bộ giá trị được gọi là bộ giá đích và có liên quan đến nhãn lớp. Các mối quan hệ khác là không có mục tiêu. Mỗi quan hệ có thể có một khóa chính (nhận dạng duy nhất các bộ giá trị trong quan hệ) và một số khóa ngoại (trong đó khóa chính trong một quan hệ có thể được kết nối với khóa ngoại trong quan hệ khác).

Nếu nó có thể coi một bài toán hai lớp, thì nó có thể chọn một lớp làm lớp tích cực và lớp kia làm lớp phủ định. Dịch vụ để xây dựng một bộ phân loại đa quan hệ chính xác là tìm các tính năng có liên quan trong các mối quan hệ khác nhau giúp phân loại các bộ giá trị mục tiêu tích cực và tiêu cực.

Dạng giả thuyết phổ biến nhất để phân loại đa quan hệ là tập hợp các mô-đun. Mỗi quy tắc là một danh sách (liên hợp logic) các vị từ, được liên kết với một nhãn lớp. Vị từ là một ràng buộc đối với một thuộc tính trong một quan hệ. Một vị từ thường được xác định dựa trên một đường dẫn nối nhất định. Bộ giá trị đích thỏa mãn quy tắc nếu và chỉ khi nó thỏa mãn mọi vị từ của quy tắc.