Thuật toán phân cụm tổng hợp là gì?

Phân cụm tổng hợp là phương pháp phân cụm từ dưới lên trong đó các cụm có các cụm con, đến lượt các cụm con lại có các cụm con, v.v. Nó có thể bắt đầu bằng cách đặt từng đối tượng vào cụm của nó và sau đó trộn các cụm nguyên tử này thành các cụm cao hơn và cao hơn cho đến khi tất cả các đối tượng đều trong một cụm riêng lẻ hoặc cho đến khi nó cần điều kiện kết thúc xác định. Một số phương pháp phân cụm phân cấp được sử dụng cho kiểu này. Sự khác biệt duy nhất trong mô tả của chúng về sự giống nhau giữa các cụm.

Ví dụ, một phương pháp có tên là AGNES (Agglomerative Nesting), cần các kỹ thuật liên kết đơn và hoạt động như sau. Xem xét có một nhóm các đối tượng được đặt trong một hình chữ nhật. Ban đầu, mọi đối tượng được định vị thành một cụm của riêng nó. Do đó, các cụm được hợp nhất từng bước theo một số nguyên tắc, chẳng hạn như kết hợp các cụm với khoảng cách Euclide tối thiểu giữa các đối tượng gần nhất trong cụm.

Phương thức K-mean để phân cụm bắt đầu với một số lượng không đổi các cụm và phân bổ tất cả dữ liệu vào chính xác nhiều cụm đó. Một lớp tiếp cận khác hoạt động bằng cách tích tụ. Cách tiếp cận này bắt đầu với mọi điểm dữ liệu tạo thành cụm riêng của nó và dần dần kết hợp chúng thành các cụm cao hơn và cao hơn cho đến khi tất cả các điểm đã được tập hợp thành một cụm lớn.

Quá trình đầu tiên là tạo ra một ma trận tương tự. Ma trận độ tương tự là một bảng gồm một số khoảng cách theo cặp hoặc mức độ giống nhau giữa các cụm. Ban đầu, ma trận độ tương tự bao gồm khoảng cách theo cặp giữa các cặp bản ghi.

Có một số thước đo về độ giống nhau giữa các bản ghi, chẳng hạn như khoảng cách Euclid, góc giữa các vectơ và tỷ lệ kết nối với các trường phân loại không kết nối.

Có vẻ như với N cụm gốc cho N điểm dữ liệu, cần tính toán đo N2 để lập bảng khoảng cách. Nếu số đo tương tự là số liệu khoảng cách thực thì chỉ cần một nửa số đó vì một số số liệu khoảng cách thực tuân theo phương pháp Khoảng cách (X, Y) =Khoảng cách (Y, X).

Trong toán học, cùng một ma trận là tam giác thấp hơn. Quá trình tiếp theo là khám phá giá trị nhỏ nhất trong cùng một ma trận. Điều này nhận ra hai cụm giống nhau nhất. Nó có thể kết hợp hai cụm này thành một cụm mới và làm mới ma trận tương tự bằng cách khôi phục hai hàng đã mô tả cụm chính bằng một hàng mới xác định khoảng cách giữa cụm đã hợp nhất và các cụm còn lại.

Bây giờ có N - 1 cụm và N - 1 hàng trong cùng một ma trận. Nó có thể lặp lại bước hợp nhất N - 1 lần, vì vậy một số dữ liệu thuộc về một cụm lớn bằng nhau. Mỗi lần lặp lại nhận ra những cụm nào đã được kết hợp và khoảng cách giữa chúng. Thông tin này có thể xác định phương pháp phân nhóm nào cần sử dụng.