Computer >> Máy Tính >  >> Lập trình >> Lập trình

Đặc điểm của thuật toán phân cụm là gì?

Có nhiều đặc điểm khác nhau của thuật toán phân cụm như sau -

Sự phụ thuộc vào đơn đặt hàng - Đối với một số thuật toán, tính năng và số lượng cụm được tạo ra có thể khác nhau, có lẽ đáng kể, dựa trên thứ tự xử lý dữ liệu. Mặc dù có vẻ mong muốn ngăn chặn các thuật toán như vậy, nhưng đôi khi sự phụ thuộc vào thứ tự là rất nhỏ hoặc thuật toán có thể có một số tính năng mong muốn.

Thuyết không xác định - Các thuật toán phân cụm, bao gồm K-means, không phụ thuộc vào thứ tự, nhưng chúng tạo ra một số kết quả cho mỗi lần chạy vì chúng dựa trên bước khởi tạo cần sự lựa chọn ngẫu nhiên. Vì tính năng của các cụm có thể thay đổi tùy theo từng lần chạy, nên một số lần chạy có thể rất cần thiết.

Khả năng mở rộng - Không có gì lạ khi một tập dữ liệu bao gồm hàng nghìn đối tượng và các thuật toán phân nhóm được sử dụng cho các tập dữ liệu đó phải có độ phức tạp về thời gian và không gian tuyến tính hoặc gần tuyến tính.

Ngay cả các thuật toán có độ phức tạp $ \ mathrm {O (m ^ 2)} $ cũng không dành cho các tập thông tin cao. Hơn nữa, kỹ thuật phân cụm cho tập dữ liệu không thể coi rằng tất cả dữ liệu sẽ nằm gọn trong bộ nhớ chính hoặc các phần tử dữ liệu có thể được tạo ngẫu nhiên. Các thuật toán như vậy không khả thi đối với các tập thông tin cao.

Lựa chọn thông số - Một số thuật toán phân cụm có một hoặc nhiều tham số được người dùng yêu cầu phân nhóm. Do đó, có thể phức tạp để chọn các giá trị thích hợp, thái độ nói chung là, "càng ít tham số, càng tốt." Việc chọn các giá trị tham số thậm chí còn trở nên phức tạp hơn nếu một thay đổi nhỏ trong các tham số làm thay đổi kết quả phân nhóm.

Cuối cùng, trừ khi một quy trình (có thể chứa thông tin đầu vào của người dùng) được hỗ trợ để quyết định các giá trị tham số, người dùng thuật toán được giảm xuống sử dụng thử và sai để tìm các giá trị tham số có liên quan.

Chuyển đổi các vấn đề phân cụm sang một miền khác - Một phương pháp được thực hiện bởi một số kỹ thuật phân cụm là ánh xạ các vấn đề phân cụm thành một vấn đề trong một miền nhiều miền. Phân nhóm dựa trên đồ thị ánh xạ các dịch vụ khám phá các cụm với nhiệm vụ phân vùng một biểu đồ lân cận thành các phần tử được kết nối.

Xử lý nhóm như một vấn đề tối ưu hóa - Phân cụm được coi là một vấn đề tối ưu hóa:chia các điểm thành các cụm theo phương pháp tối đa hóa tính tổng quát của tập hợp các cụm kết quả được tính toán bởi một hàm mục tiêu do người dùng xác định.

Ví dụ:thuật toán phân cụm K-mean cố gắng khám phá tập hợp các cụm giảm thiểu tổng khoảng cách bình phương của mỗi điểm tính từ trung tâm cụm gần nhất của nó. Có thể giải quyết những vấn đề như vậy bằng cách liệt kê một số tập hợp có thể có và chọn tập hợp có giá trị vượt trội của hàm mục tiêu, nhưng phương pháp tổng thể này không hợp lý về mặt tính toán.