Phân tích cụm được sử dụng để tạo thành các nhóm hoặc cụm của các bản ghi giống nhau tùy thuộc vào các biện pháp khác nhau được thực hiện trên các bản ghi này. Nó có thể xác định các cụm theo những cách có thể có lợi cho mục tiêu của phân tích. Dữ liệu này đã được sử dụng trong một số lĩnh vực, chẳng hạn như thiên văn học, khảo cổ học, y học, hóa học, giáo dục, tâm lý học, ngôn ngữ học và xã hội học.
Có nhiều loại cụm như sau -
Được tách biệt rõ ràng - Cụm là một nhóm các đối tượng trong đó mọi phần tử gần với mọi phần tử khác trong cụm hơn là một số đối tượng không có trong cụm. Đôi khi một ngưỡng có thể xác định rằng tất cả các đối tượng trong một cụm phải đủ gần (hoặc tương tự) với nhau. Mô tả cụm này chỉ cần thiết khi dữ liệu bao gồm các cụm tự nhiên hoàn toàn xa nhau.
Dựa trên nguyên mẫu - Một cụm là một nhóm các đối tượng trong đó mỗi đối tượng gần với nguyên mẫu đại diện cho cụm hơn là nguyên mẫu của một số cụm. Đối với dữ liệu có các thuộc tính liên tục, nguyên mẫu của một cụm là một trọng tâm, chẳng hạn như giá trị trung bình (trung bình) của các điểm khác nhau trong cụm. Khi một trung tâm không quan trọng, kể cả khi bản ghi có các thuộc tính phân loại, thì nguyên mẫu là một trung điểm, chẳng hạn như điểm chung của một cụm.
Dựa trên đồ thị - Nếu dữ liệu là điển hình như một đồ thị, trong đó các nút là các đối tượng và các liên kết xác định các kết nối giữa các đối tượng thì một cụm có thể được biểu diễn như một phần tử được kết nối; tức là một tập hợp các đối tượng được liên kết với nhau, nhưng không có kết nối với các đối tượng ở xa hơn nhóm.
Các trường hợp quan trọng của cụm dựa trên đồ thị là các cụm dựa trên tiếp giáp, trong đó hai đối tượng chỉ được liên kết nếu chúng nằm trong một khoảng cách xác định của nhau. Điều này chỉ ra rằng mỗi đối tượng trong một cụm dựa trên sự tiếp giáp gần với nhiều đối tượng trong cụm hơn là một số điểm trong nhiều cụm.
Phương pháp dựa trên mật độ - Một số kỹ thuật phân vùng phân cụm các đối tượng tùy theo khoảng cách giữa các đối tượng. Những cách tiếp cận như vậy chỉ có thể khám phá các cụm hình cầu và gặp khó khăn trong việc phát hiện các cụm có hình dạng tùy ý. Có nhiều phương pháp phân cụm đã được tạo ra tùy thuộc vào khái niệm về mật độ.
DBSCAN là một phương pháp dựa trên mật độ thường xuyên để tăng các cụm theo một ngưỡng mật độ. OPTICS là một phương pháp dựa trên mật độ tính toán thứ tự phân nhóm mở rộng để phân tích cụm tương hỗ và tự động.
Phương pháp dựa trên lưới - Phương pháp dựa trên lưới lượng tử hóa vùng đối tượng thành nhiều ô hữu hạn tạo thành cấu trúc lưới. Một số dịch vụ phân cụm được thực hiện trên cấu trúc lưới (tức là trên không gian lượng tử hóa).
Ưu điểm của cách tiếp cận này là thời gian xử lý nhanh, thường không phụ thuộc vào nhiều đối tượng dữ liệu và chỉ dựa trên nhiều ô ở mỗi chiều trong không gian lượng tử hóa.