Sự lan truyền Tuple ID là một cách tiếp cận để triển khai phép nối ảo, giúp cải thiện hiệu quả của phân loại đa tương quan. Thay vì quan hệ kết hợp vật lý, chúng hầu như được kết hợp bằng cách kết nối ID của các bộ giá trị đích với các bộ giá trị trong quan hệ không phải đích.
Trong phương pháp này, các vị từ có thể được tính như thể một phép nối vật lý được triển khai. Việc lan truyền Tuple ID rất linh hoạt và hiệu quả, bởi vì các ID có thể được truyền giữa một số mối quan hệ một cách đơn giản, chỉ cần một lượng nhỏ truyền dữ liệu và nhiều không gian lưu trữ hơn. Bằng cách đó, các vị từ trong nhiều quan hệ có thể được tính bằng một phép tính dư thừa nhỏ.
Việc lan truyền Tuple ID phải được thực thi với các ràng buộc cụ thể. Có hai trường hợp mà việc truyền bá như vậy có thể phản tác dụng -
-
nhân giống thông qua quạt lớn
-
lan truyền qua các liên kết dài, yếu.
Trường hợp đầu tiên xuất hiện khi, sau khi truyền các ID đến một quan hệ R, người ta phát hiện ra rằng mỗi bộ trong R được nối với một số bộ giá trị đích và mỗi bộ giá trị đích được nối với một số bộ giá trị trong R. Mối liên hệ ngữ nghĩa giữa R và quan hệ đích. rất yếu vì kết nối không được chọn lọc.
Ví dụ, việc truyền bá giữa mọi người thông qua liên kết quốc gia nơi sinh không thể có hiệu quả. Trường hợp thứ hai xuất hiện khi việc truyền bá trải qua một thời gian dài (ví dụ:việc kết nối một sinh viên với thú cưng của đại lý ô tô không thể hiệu quả). Vì lợi ích của sự hiệu quả và chắc chắn, việc truyền bá thông qua kết nối như vậy không được khuyến khích.
CrossMine là một phương pháp cần truyền ID tuple để phân loại đa tương quan. Nó có thể kết hợp dữ liệu truyền ID tốt hơn, CrossMine cần các vị từ phức tạp như một thành phần của các quy tắc. Một vị từ phức tạp, p, bao gồm hai phần như sau -
đường dẫn hỗ trợ - Điều này biểu thị cách truyền ID. Ví dụ, đường dẫn “Vay. account_ID → Account.account_ID ”biểu thị các ID truyền từ Khoản vay sang Tài khoản sử dụng account_ID. Nếu không có sự truyền bá ID nào, thì prop-path là null.
Ràng buộc - Đây là một vị từ biểu thị ràng buộc về mối quan hệ mà các ID được truyền. Nó có thể là phân loại hoặc số.
CrossMine xây dựng một bộ phân loại bao gồm một tập hợp các quy tắc, mỗi quy tắc bao gồm một danh sách các vị từ phức tạp và một nhãn lớp. CrossMine là một thuật toán bao phủ tuần tự như FOIL. Nó có thể xây dựng các quy tắc tại một thời điểm. Sau khi quy tắc r được xây dựng, tất cả các bộ giá trị đích xác định thỏa mãn r sẽ bị xóa khỏi tập dữ liệu.
CrossMine thường xuyên tìm kiếm vị từ phức tạp tốt nhất và thêm nó vào quy tắc hiện đại, cho đến khi tiêu chí dừng được tập hợp. Một quan hệ đang hoạt động nếu nó xảy ra trong quy tắc hiện tại. Trước khi tìm kiếm vị từ tốt nhất sau, mỗi quan hệ hoạt động cần có bộ ID của các ID được truyền cho mọi bộ giá trị của nó.