Computer >> Máy Tính >  >> Lập trình >> Lập trình

Phân cụm dựa trên nguyên mẫu là gì?

Trong phân cụm dựa trên nguyên mẫu, một cụm là một nhóm các đối tượng trong đó một số đối tượng gần với nguyên mẫu đại diện cho cụm hơn là nguyên mẫu của một số cụm khác. Một thuật toán phân nhóm dựa trên nguyên mẫu đơn giản cần trọng tâm của các phần tử trong một cụm làm nguyên mẫu của cụm.

Có nhiều cách tiếp cận khác nhau về phân nhóm dựa trên nguyên mẫu như sau -

  • Các đối tượng được kích hoạt để thuộc về nhiều hơn một cụm. Hơn nữa, một đối tượng thuộc về mỗi cụm có trọng lượng nhất định. Phương pháp như vậy giải quyết thực tế là một số đối tượng gần giống với nhiều nguyên mẫu cụm.

  • Một cụm được mô hình hóa dưới dạng phân phối thống kê, tức là, các đối tượng được tạo ra bởi một giai đoạn ngẫu nhiên từ phân phối thống kê là các đặc trưng của nhiều tham số thống kê, bao gồm cả giá trị trung bình và phương sai. Quan điểm này khái quát khái niệm về một nguyên mẫu và cho phép nhu cầu của các phương pháp tiếp cận thống kê đã được thiết lập tốt.

  • Các cụm bị hạn chế để có các liên kết liên tục. Những mối quan hệ này là những ràng buộc xác định các mối quan hệ lân cận chẳng hạn như mức độ mà hai cụm là hàng xóm của nhau. Ràng buộc mối quan hệ giữa các cụm có thể xác định việc thực thi và trực quan hóa dữ liệu.

Phương tiện c mờ sử dụng các khái niệm từ lĩnh vực logic mờ và lý thuyết tập mờ để đề xuất thiết kế phân cụm, giống như phương tiện K, nhưng không cần gán một điểm cho chỉ một cụm.

Phân cụm mô hình hỗn hợp sử dụng phương pháp mà một nhóm các cụm có thể được mô hình hóa như một sự kết hợp của các bản phân phối, một cho mỗi cụm. Sơ đồ phân cụm phụ thuộc vào Bản đồ tự tổ chức (SOM) thực hiện phân nhóm trong một cấu trúc mà các cụm cần có liên kết được chỉ định trước với nhau bao gồm cả cấu trúc lưới hai chiều.

Phân cụm mờ - Nếu các đối tượng dữ liệu được phân phối trong các tập độc lập tốt, thì việc mô tả rõ ràng các đối tượng thành các cụm rời rạc có vẻ là một phương pháp lý tưởng. Nhưng trong một số trường hợp, các đối tượng trong tập dữ liệu không thể được chia thành các cụm độc lập tốt và sẽ có sự tùy tiện cụ thể trong việc gán một đối tượng cho một cụm cụ thể.

Hãy xem xét một đối tượng nằm gần ranh giới của hai cụm, nhưng ở gần một trong số chúng hơn. Trong một số trường hợp, có thể phù hợp hơn khi gán trọng số cho mọi đối tượng và từng cụm biểu thị mức độ mà đối tượng phía trước đối với cụm.

Các phương pháp xác suất cũng có thể hỗ trợ các trọng số như vậy. Mặc dù các phương pháp xác suất có lợi trong một số tình huống, nhưng đôi khi việc quyết định một mô hình thống kê thích hợp rất phức tạp. Trong các trường hợp chung, các phương pháp phân nhóm không theo xác suất được yêu cầu để cung cấp các khả năng tương tự.