Phân tích cụm bán giám sát là gì?

Phân cụm bán giám sát là một phương pháp phân vùng dữ liệu không được gắn nhãn bằng cách tạo ra việc sử dụng kiến thức miền. Nó thường được thể hiện dưới dạng các ràng buộc theo cặp giữa các cá thể hoặc chỉ là một tập hợp bổ sung của các cá thể được gắn nhãn.

Chất lượng của phân cụm không được giám sát về cơ bản có thể được cải thiện bằng cách sử dụng một số cấu trúc yếu của giám sát, ví dụ, dưới dạng các ràng buộc theo cặp (tức là các cặp đối tượng được gắn nhãn là thuộc các cụm tương tự hoặc khác nhau). Quy trình phân nhóm phụ thuộc vào phản hồi của người dùng hoặc các ràng buộc hướng dẫn được gọi là phân nhóm bán giám sát.

Có một số phương pháp để phân cụm bán giám sát có thể được chia thành hai lớp như sau -

Phân nhóm bán giám sát dựa trên ràng buộc - Nó có thể được sử dụng dựa trên các nhãn hoặc ràng buộc do người dùng cung cấp để hỗ trợ thuật toán theo hướng phân vùng dữ liệu thích hợp hơn. Điều này bao gồm việc sửa đổi hàm mục tiêu tùy thuộc vào các ràng buộc hoặc khởi tạo và ràng buộc quá trình phân cụm tùy thuộc vào các đối tượng được gắn nhãn.

Phân nhóm bán giám sát dựa trên khoảng cách - Nó có thể được sử dụng để sử dụng thước đo khoảng cách thích ứng được đào tạo để đáp ứng các nhãn hoặc ràng buộc trong dữ liệu được giám sát. Nhiều thước đo khoảng cách thích ứng đã được sử dụng, bao gồm cả khoảng cách chỉnh sửa chuỗi được đào tạo bằng cách sử dụng Kỳ vọng-Tối đa hóa (EM) và khoảng cách Euclide được thay đổi bằng thuật toán khoảng cách ngắn nhất.

Một phương pháp phân cụm thú vị, được gọi là CLTree (Phân cụm dựa trên các quyết định). Nó tích hợp phân nhóm không giám sát với khái niệm phân loại có giám sát. Nó là một ví dụ của phân cụm bán giám sát dựa trên ràng buộc. Nó thay đổi một nhiệm vụ phân nhóm thành một nhiệm vụ phân loại bằng cách coi tập hợp các điểm được phân nhóm là thuộc một lớp, được gắn nhãn là “Y” và chèn một tập hợp các “điểm không tồn tại” được phân phối tương đối đồng đều với nhãn nhiều lớp, “ N. ”

Bài toán phân vùng dữ liệu thành vùng dữ liệu (dày đặc) và vùng trống (thưa thớt) sau đó có thể chuyển thành bài toán phân loại. Những điểm này có thể được coi là một tập hợp các điểm “Y”. Nó cho thấy việc bổ sung một tập hợp các điểm “N” được phân bố đồng đều, được xác định bởi các điểm “o”.

Do đó, bài toán phân cụm ban đầu được chuyển thành bài toán phân loại, đưa ra thiết kế phân biệt điểm “Y” và “N”. Một phương pháp cảm ứng cây quyết định có thể được sử dụng để phân vùng không gian hai chiều. Hai cụm được nhận dạng, chỉ từ điểm “Y”.

Nó có thể được sử dụng để chèn một số lượng lớn các điểm “N” vào dữ liệu ban đầu để tạo ra chi phí không cần thiết trong tính toán. Hơn nữa, không chắc rằng một số điểm được thêm vào sẽ thực sự được phân phối đồng đều trong một không gian có chiều rất cao vì điều này có thể cần một số điểm theo cấp số nhân.