K-Means
K-mean clustering là thuật toán phân vùng. K-mean tái tạo từng dữ liệu trong tập dữ liệu thành chỉ một trong các cụm mới được hình thành. Dữ liệu hoặc điểm dữ liệu được chỉ định cho cụm liền kề bằng cách sử dụng thước đo khoảng cách hoặc độ tương tự.
Trong k-mean, một đối tượng được tạo ra ở tâm gần nhất. Nó có thể xác định các ràng buộc không thể liên kết và nó sửa đổi quy trình phân công trung tâm trong k-means để phân công trung tâm có thể áp dụng gần nhất.
Khi các đối tượng được tạo ra các tâm theo trình tự, ở mỗi bước, nó có thể cung cấp các nhiệm vụ cho đến nay mà không làm mất tổ chức một số ràng buộc không thể liên kết. Một đối tượng được tạo đến trung tâm gần nhất, do đó việc gán tuân theo một số ràng buộc không thể liên kết.
DBSCAN
DBSCAN đại diện cho việc phân nhóm không gian dựa trên mật độ của các ứng dụng có tiếng ồn. Nó là một thuật toán phân cụm dựa trên mật độ. Thuật toán cải thiện các vùng có mật độ thích hợp cao thành các cụm và phát hiện ra các cụm có cấu trúc tùy ý trong cơ sở dữ liệu không gian có nhiễu. Nó định nghĩa một cụm là một tập hợp tối đa các điểm được kết nối với mật độ.
Cụm dựa trên mật độ là một tập hợp các đối tượng được kết nối với mật độ là tối đa về khả năng tiếp cận theo mật độ. Mỗi đối tượng không có trong một số cụm được coi là nhiễu.
DBSCAN kiểm tra các cụm bằng cách kiểm tra vùng lân cận của mọi điểm trong cơ sở dữ liệu. Nếu ε-lân cận của một điểm p chứa nhiều hơn MinPts, một cụm mới với p là phần tử cốt lõi sẽ được tạo ra. DBSCAN tập hợp lặp đi lặp lại các đối tượng có thể tiếp cận theo mật độ chính xác từ yếu tố thiết yếu này, có thể bao gồm việc hợp nhất một vài cụm có thể tiếp cận theo mật độ. Quá trình loại bỏ khi không có điểm mới nào có thể được thêm vào bất kỳ cụm nào.
Hãy để chúng tôi xem so sánh giữa K-Means và DBSCAN.
K-Means | DBSCAN |
---|---|
K-mean thường phân cụm tất cả các đối tượng. | DBSCAN loại bỏ các đối tượng mà nó định nghĩa là nhiễu. |
K-means cần một khái niệm dựa trên nguyên mẫu của một cụm. | DBSCAN cần một khái niệm dựa trên mật độ. |
K-means gặp khó khăn với các cụm không phải hình cầu và các cụm có nhiều kích thước. | DBSCAN được sử dụng để xử lý các cụm có nhiều kích thước và cấu trúc và không bị ảnh hưởng mạnh mẽ bởi tiếng ồn hoặc các yếu tố ngoại lai. |
K-means có thể được sử dụng cho dữ liệu có trọng tâm rõ ràng, bao gồm cả giá trị trung bình hoặc giá trị trung bình. | DBSCAN cần rằng định nghĩa về mật độ của nó, phụ thuộc vào khái niệm mật độ truyền thống của người Euclid, phải có ý nghĩa đối với dữ liệu. |
K-means có thể được sử dụng để dữ liệu thưa thớt, nhiều chiều, bao gồm cả dữ liệu tệp. | DBSCAN thường triển khai kém đối với thông tin như vậy vì định nghĩa mật độ Euclid truyền thống không hoạt động tốt đối với dữ liệu chiều cao. |
Thuật toán K-mean cơ bản tương tự như cách tiếp cận phân cụm thống kê (mô hình hỗn hợp) coi tất cả các cụm đến từ các phân phối Gaussian hình cầu với một số phương tiện nhưng ma trận hiệp phương sai bằng nhau. | DIISCAN không tạo ra giả định nào về việc phân phối bản ghi. |