Phân cụm khái niệm là gì?

Phân cụm khái niệm là một hình thức phân nhóm trong học máy, với một tập hợp các đối tượng không được gắn nhãn, tạo ra một thiết kế phân loại trên các đối tượng. Không giống như phân cụm thông thường, thường xác định các nhóm của các đối tượng giống nhau, phân cụm khái niệm tiến thêm một bước nữa bằng cách khám phá các định nghĩa đặc trưng cho mỗi nhóm, trong đó mỗi nhóm xác định một khái niệm hoặc lớp.

Do đó, phân cụm khái niệm là một quá trình gồm hai bước - phân nhóm được thực hiện trước tiên, sau đó là mô tả đặc tính. Do đó, chất lượng phân cụm không chỉ là một dịch vụ của các đối tượng đơn lẻ. Hầu hết các kỹ thuật phân nhóm khái niệm đều áp dụng phương pháp thống kê sử dụng các phép đo xác suất để quyết định các khái niệm hoặc cụm.

Mô tả xác suất thường được sử dụng để xác định từng khái niệm dẫn xuất .COBWEB là một phương pháp nổi tiếng và đơn giản để phân cụm khái niệm tăng dần. Các đối tượng Itsinput được xác định bởi các cặp giá trị-thuộc tính phân loại. COBWEB thực hiện phân cụm theo thứ bậc ở dạng cây phân loại.

Cây phân loại khác với cây quyết định. Mỗi nút trong cây phân loại xác định một khái niệm và bao gồm mô tả xác suất của khái niệm đó, tóm tắt các đối tượng được phân loại dưới nút. Mô tả xác suất chứa xác suất của khái niệm và xác suất có điều kiện của dạng $ P (A_ {i} =v_ {ij} | C_ {k}) $ là một cặp giá trị-thuộc tính (thứ i thuộc tính lấy thứ j của nó giá trị có thể) và C _k là lớp khái niệm.

COBWEB sử dụng một biện pháp đánh giá theo kinh nghiệm được gọi là tiện ích danh mục để hướng dẫn việc xây dựng cây. Tiện ích Danh mục (CU) được định nghĩa là

$$ \ frac {\ sum_ {k =1} ^ {n} P (C_ {k}) \ left [\ sum_ {i} \ sum_ {j} P (A_ {i} =v_ {ij} | C_ { k}) ^ {2} - \ sum_ {i} \ sum_ {j} P (A_ {i} =v_ {ij}) ^ {2} \ right]} {n} $$

trong đó n là số nút, khái niệm hoặc “danh mục” tạo thành phân vùng, {C ₁ , C ₂ , ..., C _n }, ở mức cho trước của cây. Nói cách khác, tiện ích danh mục là sự gia tăng số lượng giá trị thuộc tính dự kiến có thể được đoán hoàn hảo cho một phân vùng (trong đó con số kỳ vọng này tương ứng với thuật ngữ $ P (C_ {k}) \ sum_ {i} \ sum_ {j } P (A_ {i} =v_ {ij} | C_ {k}) ^ {2} $ quá số lần đoán đúng dự kiến mà không có kiến thức như vậy (tương ứng với thuật ngữ $ \ sum_ {i} \ sum_ {j} P (A_ {i} =v_ {ij}) ^ {2} $. Mặc dù nó không có chỗ để hiển thị kết xuất, nhưng tiện ích danh mục thưởng cho sự giống nhau giữa các lớp và sự khác biệt giữa các lớp, trong đó -

Tương tự trong kính - Là xác suất $ P (A_ {i} =v_ {ij} | C_ {k}) $. Giá trị này càng cao thì tỷ lệ các thành viên trong lớp chia sẻ cặp giá trị-thuộc tính này càng cao và các thành viên trong lớp có thể dự đoán được cặp này càng cao.

Sự khác biệt giữa các lớp - Là xác suất $ P (C_ {k} | A_ {i} =v_ {ij}) $. Giá trị này càng cao thì càng ít đối tượng trong các lớp tương phản chia sẻ cặp giá trị-thuộc tính này và cặp giá trị dự đoán của lớp càng nhiều.

COBWEB đi xuống cây dọc theo một con đường thích hợp, đếm làm mới trên đường đi, tìm kiếm "máy chủ lưu trữ tốt nhất" hoặc nút để xác định đối tượng. Điều này phụ thuộc vào việc định vị tạm thời đối tượng trong mỗi nút và đánh giá khả năng phân loại của phân vùng kết quả. Vị trí dẫn đến khả năng phân loại cao nhất phải là máy chủ lưu trữ tốt nhất cho đối tượng.