Thuật toán K-mean phân đôi là một sự phát triển đơn giản của thuật toán K-mean cơ bản phụ thuộc vào một khái niệm đơn giản như lấy K cụm, chia tập hợp một số điểm thành hai cụm, chọn một trong các cụm này để tách, v.v. , cho đến khi K cụm được tạo ra.
Thuật toán k-mean tạo ra tham số đầu vào, k, và chia một tập hợp n đối tượng thành k cụm sao cho độ tương tự giữa các cụm là cao nhưng độ tương tự giữa các cụm là thấp. Độ tương tự của cụm được đánh giá liên quan đến giá trị trung bình của các đối tượng trong một cụm, có thể được xem như là trung tâm hoặc trọng tâm của cụm.
Các giá trị ban đầu cho các phương tiện được ủy quyền tùy ý. Chúng có thể được cấp phép một cách ngẫu nhiên hoặc có lẽ có thể cần các giá trị từ chính k mục đầu vào đầu tiên. Thành phần hội tụ có thể dựa trên sai số bình phương, nhưng chúng không cần thiết. Ví dụ, thuật toán được gán cho nhiều cụm. Các phương thức kết thúc khác đã bị khóa ở một số lần lặp cố định. Số lần lặp lại tối đa có thể được thực hiện để cung cấp dịch vụ mua sắm ngay cả khi không có sự hội tụ.
Thuật toán chia đôi K-Means như sau -
-
Khởi tạo danh sách các cụm để bao gồm cụm chẳng hạn như tất cả các điểm.
-
lặp lại
-
Xóa một cụm khỏi danh sách các cụm.
-
{Triển khai nhiều phân đoạn "thử nghiệm" của cụm đã chọn.}
-
đối với tôi:1 đến số lần thử nghiệm
-
Chia nhỏ cụm lựa chọn bằng cách sử dụng phương tiện K cơ bản.
-
kết thúc cho
-
Chọn hai cụm từ đường phân giác có tổng SSE nhỏ nhất.
-
Chèn hai cụm này vào tài liệu của các cụm.
-
cho đến khi tài liệu của các cụm bao gồm K cụm.
Có một số cách để chọn cụm để tách. Nó có thể chọn cụm cao nhất ở mỗi bước, chọn cụm có SSE lớn nhất hoặc sử dụng một phần tử dựa trên cả kích thước và SSE. Nhiều lựa chọn dẫn đến các cụm khác nhau.
Nó có thể làm rõ các cụm sắp tới bằng cách sử dụng các trung tâm của chúng làm các trung tâm ban đầu cho thuật toán K-mean cơ bản. Điều này là cần thiết bởi vì mặc dù thuật toán K-mean được bảo đảm để tìm một phân cụm xác định mức tối thiểu cục bộ liên quan đến SSE, trong việc phân chia K-có nghĩa là nó đang sử dụng thuật toán K-mean "cục bộ", tức là, để chia nhỏ các cụm đơn lẻ. Do đó, tập hợp các cụm cuối cùng không xác định một phân nhóm là mức tối thiểu Cục bộ liên quan đến tổng SSE.
Cuối cùng, bằng cách ghi lại chuỗi các cụm được tạo dưới dạng các cụm K-means phân đôi, nó cũng có thể cần phân chia các K-media để tạo ra một nhóm phân cấp.