Quá trình kết hợp một tập hợp các đối tượng vật lý hoặc trừu tượng thành các lớp của các đối tượng giống nhau được gọi là phân cụm. Cụm là một tập hợp các đối tượng dữ liệu giống nhau trong cùng một cụm và khác biệt với các đối tượng trong các cụm khác. Một nhóm các đối tượng dữ liệu có thể được coi là một nhóm trong một số ứng dụng. Phân tích cụm là một hoạt động thiết yếu của con người.
Phân tích cụm được sử dụng để tạo thành các nhóm hoặc cụm của các bản ghi giống nhau tùy thuộc vào các biện pháp khác nhau được thực hiện trên các bản ghi này. Thiết kế quan trọng là xác định các cụm theo những cách có thể hữu ích cho mục tiêu của phân tích. Dữ liệu này đã được sử dụng trong một số lĩnh vực, chẳng hạn như thiên văn học, khảo cổ học, y học, hóa học, giáo dục, tâm lý học, ngôn ngữ học và xã hội học.
Có nhiều phần tử khác nhau của cụm như sau -
Phân phối dữ liệu - Một số kỹ thuật phân cụm xem xét một kiểu phân phối cụ thể cho dữ liệu. Hơn nữa, họ có thể coi rằng dữ liệu có thể được mô hình hóa như phát sinh từ sự kết hợp của các bản phân phối, trong đó mỗi cụm tương quan với một bản phân phối.
Hình dạng - Một số cụm có hình dạng hệ thống, chẳng hạn như hình chữ nhật hoặc hình cầu, nhưng như thường lệ, các cụm có thể có hình dạng tùy ý. Các kỹ thuật bao gồm DBSCAN và liên kết đơn có thể quản lý các cụm có hình dạng tùy ý, nhưng các lược đồ dựa trên nguyên mẫu và một số kỹ thuật phân cấp, bao gồm liên kết hoàn chỉnh và trung bình nhóm, thì không thể.
Kích thước khác nhau - Một số phương pháp phân cụm, bao gồm cả K-means, không hoạt động tốt khi các cụm có nhiều kích thước.
Mật độ khác nhau - Các cụm có mật độ khác nhau rộng rãi có thể tạo ra các vấn đề đối với các phương pháp bao gồm DBSCAN và K-means.
Các nhóm được tách biệt kém - Khi các cụm chạm hoặc chồng lên nhau, một số cách tiếp cận phân cụm kết hợp các cụm phải được giữ độc lập. Ngay cả các kỹ thuật phát hiện ra các cụm riêng biệt cũng tùy ý tạo ra các điểm đến cụm này hay cụm khác.
Mối quan hệ giữa các cụm - Trong hầu hết các kỹ thuật phân cụm, không có sự xem xét rõ ràng về các liên kết giữa các cụm, bao gồm cả vị trí tương đối của chúng. Bản đồ tự tổ chức là một phương pháp phân cụm xử lý trực tiếp các mối quan hệ giữa các cụm trong giai đoạn phân nhóm. Hơn nữa, việc gán một điểm cho một cụm ảnh hưởng đến định nghĩa của các cụm lân cận.
Cụm không gian con - Các cụm chỉ có thể tồn tại trong một tập hợp con các thứ nguyên (thuộc tính) và các cụm được quyết định bằng cách sử dụng một tập hợp thứ nguyên có thể khác với các cụm được quyết định bằng cách sử dụng một tập hợp khác.
Mặc dù vấn đề này có thể tăng lên với ít nhất là hai thứ nguyên, nhưng nó trở nên nghiêm trọng hơn khi số chiều được cải thiện, bởi vì một số tập hợp con có thể có của thứ nguyên là cấp số nhân trong tổng số thứ nguyên. Bởi vì nó không thể áp dụng để chỉ đơn giản xem các cụm trong tất cả các tập hợp con có thể có của thứ nguyên trừ khi các thứ nguyên đó tương đối thấp.