Phân cụm đa tương quan là gì?

Phân cụm đa quan hệ là giai đoạn phân vùng các đối tượng dữ liệu thành một nhóm các cụm phụ thuộc vào độ giống nhau của chúng, sử dụng dữ liệu trong nhiều quan hệ. CrossClus đại diện cho Phân cụm quan hệ chéo với hướng dẫn người dùng. Đây là một thuật toán để phân cụm đa quan hệ phân tích cách sử dụng hướng dẫn người dùng trong phân nhóm và lan truyền ID tuple để ngăn chặn các phép nối vật lý.

Thách thức chính trong phân cụm đa quan hệ là có một số thuộc tính trong nhiều quan hệ và nhìn chung chỉ một phần nhỏ của chúng có liên quan đến một nhiệm vụ phân nhóm xác định.

Nó có thể phân cụm sinh viên, các thuộc tính bao gồm một số yếu tố thông tin, bao gồm các khóa học do sinh viên thực hiện, các ấn phẩm của sinh viên, cố vấn và nhóm nghiên cứu của sinh viên, v.v.

Người dùng thường quan tâm đến việc phân nhóm sinh viên bằng cách sử dụng một phần tử dữ liệu cụ thể (ví dụ:phân nhóm sinh viên theo lĩnh vực nghiên cứu của họ). Người dùng có thể nắm bắt tốt hơn các ứng dụng cần thiết và ngữ nghĩa dữ liệu của họ. Do đó, hướng dẫn của người dùng dưới dạng một truy vấn đơn giản, có thể được sử dụng để nâng cao hiệu quả và chất lượng của phân nhóm đa tương quan theo chiều cao.

CrossClus chấp nhận các truy vấn của người dùng bao gồm quan hệ đích và một hoặc nhiều thuộc tính thích hợp, xác định mục tiêu phân nhóm của người dùng. Trong quá trình phân cụm đa quan hệ, CrossClus yêu cầu tìm kiếm các thuộc tính thích hợp trên một số mối quan hệ.

CrossClus nên giải quyết hai thách thức lớn trong giai đoạn tìm kiếm. Đầu tiên, quan hệ đích, R _t , thường có thể tham gia với mỗi quan hệ không phải đích, R, thông qua một số đường dẫn liên kết và mỗi thuộc tính trong R có thể được sử dụng như một thuộc tính đa quan hệ.

Không thể tiếp cận để triển khai bất kỳ loại tìm kiếm toàn diện nào trong không gian tìm kiếm rộng lớn này. Thứ hai, giữa số lượng lớn các thuộc tính, một số thuộc tính có liên quan đến truy vấn của người dùng trong khi một số không liên quan (ví dụ:dữ liệu cá nhân của bạn cùng lớp của sinh viên).

CrossClus nên giới hạn giai đoạn tìm kiếm. Nó có thể được coi là lược đồ quan hệ như một đồ thị, với các liên kết là các nút và các liên kết là các cạnh. Nó áp dụng phương pháp heuristic, bắt đầu tìm kiếm từ thuộc tính do người dùng xác định, sau đó liên tục tìm kiếm các thuộc tính có lợi trong vùng lân cận của các thuộc tính hiện tại. Trong phương pháp này, nó dần dần phát triển phạm vi tìm kiếm thành các quan hệ được kết nối, nhưng sẽ không đi xa theo hướng ngẫu nhiên.

CrossClus xem cách phân bổ các bộ giá trị mục tiêu theo nhóm. Các thuộc tính thích hợp được chọn tùy thuộc vào mối quan hệ của chúng với các thuộc tính do người dùng xác định. Nếu hai bộ giá trị cụm thuộc tính rất riêng biệt, độ tương đồng của chúng thấp và chúng không thể được liên kết với nhau. Nếu chúng tập hợp các bộ giá trị theo cùng một cách, chúng phải được coi là có liên quan.