Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các vấn đề bổ sung của Thuật toán K-Means trong khai thác dữ liệu là gì?

Có nhiều vấn đề khác nhau của Thuật toán K-Means như sau -

Xử lý các cụm trống - Vấn đề đầu tiên với thuật toán K-mean cơ bản được đưa ra trước đó là các cụm rỗng có thể được lấy nếu không có điểm nào được phân bổ cho một cụm trong giai đoạn gán. Nếu điều này xảy ra, thì cần có một phương pháp để chọn một trung tâm thay thế, vì sai số bình phương sẽ lớn hơn mức cần thiết.

Một phương pháp là chọn điểm xa nhất so với một số centroid gần đây. Nếu điều này loại bỏ điểm hiện đang đóng góp một số lỗi tổng bình phương. Một phương pháp khác là chọn trung tâm thay thế từ cụm có SSE lớn nhất. Điều này nói chung sẽ chia cụm và giảm SSE hoàn chỉnh của nhóm. Nếu có nhiều cụm rỗng, thì quá trình này có thể được lặp lại nhiều lần.

Ngoại lệ - Khi phương pháp sai số bình phương được sử dụng, các giá trị ngoại lệ có thể có xu hướng quá mức đến các cụm được phát hiện. Cụ thể, khi các ngoại lệ xuất hiện, các trung tâm cụm kết quả (nguyên mẫu) không thể mang tính đại diện như chúng có thể, và do đó, SSE cũng sẽ cao hơn.

Việc tìm ra những điểm bất thường và loại bỏ chúng trước sẽ rất hữu ích. Điều cần thiết là phải đánh giá cao rằng có các ứng dụng phân cụm cụ thể mà các ứng dụng ngoại lệ không nên bị loại bỏ. Khi phân nhóm được sử dụng để nén dữ liệu, mỗi điểm nên được phân nhóm và trong một số trường hợp, bao gồm cả phân tích tài chính, các ngoại lệ có thể xảy ra, ví dụ:người dùng có lợi nhuận bất thường, có thể là những điểm thú vị.

Giảm SSE bằng Xử lý sau - Phương pháp để giảm SSE là tìm nhiều cụm hơn, tức là cần K. lớn hơn. Trong những trường hợp như vậy, có khả năng cải thiện SSE, nhưng không yêu cầu tăng số lượng cụm. Điều này có thể thực hiện được vì Kmeans thường hội tụ ở mức tối thiểu cục bộ.

Các phương pháp khác nhau được sử dụng để "sửa chữa" các cụm kết quả để tạo một nhóm có SSE thấp hơn. Phương pháp là nhắm mục tiêu vào các cụm riêng lẻ vì SSE hoàn chỉnh dễ dàng là tổng số SSE được đóng góp bởi mọi cụm. Nó có thể thay đổi tổng số SSE bằng cách triển khai một số hoạt động trên các cụm, bao gồm cả việc tách hoặc hợp nhất các cụm.

Một phương pháp là sử dụng thủ tục tách và hợp nhất cụm thay thế. Trong quy trình tách, các cụm được chia, trong khi trong quy trình hợp nhất, các cụm được kết hợp. Trong phương pháp này, có thể truy cập rút minima SSE cục bộ và tạo giải pháp phân cụm với số lượng cụm đã thu giữ. Sau đây là một số phương pháp được sử dụng trong giai đoạn tách và hợp nhất như sau -