Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các phương pháp phân cụm là gì?

Có nhiều phương pháp phân cụm như sau -

Phương pháp phân vùng - Cho một cơ sở dữ liệu gồm n đối tượng hoặc bộ dữ liệu, một phương pháp phân vùng tập hợp k phân vùng thông tin, trong đó mỗi phân vùng xác định một cụm và k

  • Mỗi nhóm phải bao gồm tối thiểu một đối tượng.

  • Mỗi đối tượng nên áp dụng cho chính xác một nhóm.

Cho k, số lượng phân vùng cần tạo, một phương pháp phân vùng thực hiện phân vùng ban đầu. Sau đó, nó sử dụng phương pháp tái định vị lặp đi lặp lại để cố gắng cải thiện việc phân vùng bằng cách chuyển đổi các đối tượng từ nhóm này sang nhóm khác.

Tiêu chí chung của việc phân vùng tốt là các đối tượng trong cùng một cụm "gần" hoặc liên kết với nhau, trong khi các đối tượng của các cụm khác nhau "xa nhau" hoặc rất khác nhau. Có một số loại tiêu chí khác để xác định chất lượng của phân vùng.

Phương pháp phân cấp - Một phương pháp phân cấp tạo ra sự phân rã có thứ bậc của tập các đối tượng dữ liệu đã cho. Một phương pháp phân cấp có thể được phân loại là cộng gộp hoặc chia hết, tùy thuộc vào cách tạo ra sự phân rã thứ bậc. Phương pháp tích tụ còn được gọi là phương pháp tiếp cận “từ dưới lên”.

Nó có thể bắt đầu bằng việc mỗi đối tượng tạo thành một nhóm độc lập. Nó liên tục kết hợp các đối tượng hoặc nhóm gần nhau, cho đến khi tất cả các nhóm được kết hợp thành một (cấp cao nhất của hệ thống phân cấp) hoặc cho đến khi điều kiện kết thúc được giữ nguyên. Cách tiếp cận chia rẽ còn được gọi là cách tiếp cận “từ trên xuống”. Nó có thể bắt đầu với tất cả các đối tượng trong cùng một cụm. Trong mỗi lần lặp lại liên tiếp, một cụm được chia thành các cụm nhỏ hơn, cho đến khi cuối cùng, mỗi đối tượng nằm trong một cụm hoặc cho đến khi điều kiện kết thúc được giữ nguyên.

Phương pháp dựa trên mật độ - Một số phương pháp phân vùng phân cụm các đối tượng dựa trên khoảng cách giữa các đối tượng. Các phương pháp như vậy chỉ có thể phát hiện ra các cụm hình cầu và gặp khó khăn trong việc tìm các cụm có hình dạng tùy ý. Các phương pháp phân nhóm khác đã được tạo ra dựa trên khái niệm về mật độ.

DBSCAN là một phương pháp dựa trên mật độ điển hình để tăng các cụm theo một ngưỡng mật độ. OPTICS là một phương pháp dựa trên mật độ đánh giá thứ tự phân nhóm tăng cường để phân tích cụm tương tác và tự động.

Phương pháp dựa trên lưới - Phương pháp dựa trên lưới lượng tử hóa không gian đối tượng thành một số lượng hữu hạn các ô tạo thành kiến ​​trúc lưới. Một số hoạt động phân cụm được thực hiện trên kiến ​​trúc lưới (tức là trên không gian lượng tử hóa).

Lợi ích của cách tiếp cận này là thời gian xử lý nhanh, thường không phụ thuộc vào số lượng đối tượng dữ liệu và chỉ phụ thuộc vào số lượng ô trong mỗi chiều trong không gian lượng tử hóa. STING là một ví dụ của phương pháp dựa trên lưới. CLIQUE và Wave-Cluster là hai thuật toán phân nhóm vừa dựa trên lưới vừa dựa trên mật độ.

Phương pháp dựa trên mô hình - Phương pháp dựa trên mô hình đưa ra giả thuyết về một mô hình cho mỗi cụm và khám phá sự phù hợp nhất của các bản ghi với mô hình đã cho. Một thuật toán dựa trên mô hình có thể xác định vị trí các cụm bằng cách tạo một hàm mật độ phản ánh sự phân bố không gian của các điểm dữ liệu. Nó cũng dẫn đến một phương pháp tự động quyết định số lượng cụm dựa trên thống kê tiêu chuẩn, có tính đến "nhiễu" hoặc ngoại lệ và do đó tạo ra các phương pháp phân nhóm mạnh mẽ.