Cách tiếp cận phân cụm phân cấp hoạt động bằng cách hợp nhất các đối tượng dữ liệu thành một cây các cụm. Các thuật toán phân cụm phân cấp là từ trên xuống hoặc từ dưới lên. Tính năng của các kỹ thuật phân nhóm phân cấp chính xác bị thoái hóa do không có khả năng thực hiện điều chỉnh vì quyết định hợp nhất hoặc tách được hoàn thành.
Có nhiều phần tử khác nhau của phân cụm phân cấp như sau -
Thiếu chức năng mục tiêu toàn cầu
Các phương pháp phân nhóm phân cấp tổng hợp sử dụng một số phần tử để quyết định cục bộ, ở mỗi bước, cụm nào phải được hợp nhất (hoặc tách cho các phương pháp chia hết).
Phương pháp này mang lại các thuật toán phân cụm ngăn chặn khó khăn khi thực hiện giải một bài toán tối ưu hóa tổ hợp phức tạp.
Khả năng xử lý các kích thước cụm khác nhau
Yếu tố của phân cụm phân cấp kết tụ mà cách xem xét các kích thước liên kết của nhóm các cụm được kết hợp. Nó chỉ sử dụng để phân cụm các lược đồ lân cận có chứa các tổng, chẳng hạn như centroid, Ward's và điểm trung bình của nhóm.
Có hai phương pháp như có trọng số, coi tất cả các cụm như nhau và không có trọng số, tạo ra số điểm trong mỗi cụm được tính đến. Thuật ngữ có trọng số hoặc không có trọng số xác định các điểm dữ liệu, không phải các cụm. Nói cách khác, việc xem xét các cụm có kích thước không bằng nhau cung cấp nhiều trọng số cho các điểm trong các cụm khác nhau, trong khi việc tạo kích thước cụm có tính đến các điểm trong các cụm khác nhau có trọng số tương tự.
Quyết định hợp nhất là quyết định cuối cùng
Các thuật toán phân cụm phân cấp tổng hợp ảnh hưởng đến việc tạo ra các quyết định cục bộ tốt về việc kết hợp hai cụm vì chúng có thể cần dữ liệu về sự giống nhau theo từng cặp của tất cả các điểm. Vì quyết định hợp nhất hai cụm được đưa ra nên không thể hoàn tác vào lần sau. Phương pháp này tránh để yếu tố tối ưu hóa cục bộ trở thành tiêu chí tối ưu hóa toàn cầu.
Ví dụ:mặc dù tiêu chí "tối thiểu hóa sai số bình phương" từ K-means được sử dụng để xác định cụm nào sẽ hợp nhất trong phương pháp của Ward, các cụm ở mỗi cấp không xác định cực tiểu cục bộ liên quan đến tổng SSE. Thật vậy, các cụm không động, theo nghĩa là một điểm trong một cụm có thể gần tâm điểm của một cụm khác hơn so với tâm điểm của cụm gần đây.
Một số phương pháp cố gắng khắc phục hạn chế mà hợp nhất là cuối cùng. Một phương pháp cố gắng cung cấp phân nhóm phân cấp bằng cách sửa đổi các nhánh của cây xung quanh để nâng cao chức năng mục tiêu trên toàn thế giới. Một phương pháp khác cần một kỹ thuật phân cụm từng phần bao gồm Kmeans để tạo ra một số cụm nhỏ và sau đó thực hiện phân nhóm phân cấp bằng cách sử dụng các cụm nhỏ này làm điểm đầu.