Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các loại phân cụm trong khai thác dữ liệu là gì?

Có nhiều kiểu phân cụm như sau -

Phân cấp so với Phân đoạn - Nhận thức giữa một số loại chuỗi là liệu tập hợp các cụm được lồng vào nhau hay không được thiết lập, hoặc theo thuật ngữ phổ biến, phân cấp hoặc phân chia. Phân cụm từng phần là sự phân phối nhóm đối tượng dữ liệu thành các tập hợp con (cụm) không chồng chéo bao gồm mọi đối tượng dữ liệu thực sự nằm trong một tập hợp con.

Nó có thể cho phép các cụm có các cụm con, do đó nó được yêu cầu phân cụm phân cấp, là một nhóm các cụm lồng nhau được gán như một cây. Mọi nút (cụm) trong cây (ngoại trừ các nút lá) là sự kết hợp của các nút con của nó (cụm con) và gốc của cây là cụm bao gồm tất cả các đối tượng.

Độc quyền so với chồng chéo và Fizzy - Phân cụm là tất cả độc quyền, vì chúng tạo từng đối tượng thành một cụm riêng lẻ. Có một số vị trí trong đó một điểm có thể nằm ở cao hơn một cụm và những tình huống này được giải quyết tốt hơn bằng cách phân nhóm không độc quyền.

Trong phương pháp này, phân cụm chồng chéo hoặc không loại trừ có thể tuân theo thực tế là một đối tượng có thể thuộc về cao hơn một nhóm (lớp). Ví dụ:một người tại trường đại học có thể vừa là ứng viên đã ghi danh vừa là nhân viên của trường đại học.

Trong phân cụm mờ, mỗi đối tượng áp dụng cho mỗi cụm có trọng số thành viên nằm trong khoảng từ 0 (không áp dụng theo phân loại) đến 1 (áp dụng theo phân loại). Nói cách khác, các cụm được coi là tập hợp mờ.

Toàn bộ so với một phần - Phân cụm hoàn chỉnh tạo ra từng đối tượng thành một cụm, trong khi phân cụm từng phần thì không. Lý do phân cụm một phần là một số đối tượng trong tập dữ liệu không thể thuộc về các nhóm rõ ràng. Đôi khi các đối tượng trong tập dữ liệu có thể xác định nhiễu, ngoại lệ hoặc "nền không thú vị". Ví dụ:một số câu chuyện trên báo có thể có chung một thiết kế, bao gồm cả sự nóng lên toàn cầu, trong khi các câu chuyện khác nhau mang tính phổ quát hơn hoặc độc nhất vô nhị.

Vì vậy, nó có thể phát hiện ra các chủ đề quan trọng trong các câu chuyện của tháng trước, nó được yêu cầu chỉ tìm kiếm các cụm tài liệu hầu như không được kết nối bởi một chủ đề chung. Trong một số trường hợp, toàn bộ nhóm các đối tượng được thu thập. Ví dụ:một ứng dụng cần phân cụm để tổ chức các tệp để duyệt được yêu cầu để đảm bảo rằng tất cả các tệp đều có thể được duyệt.