Phân cụm dựa trên mô hình là gì?

Phân cụm dựa trên mô hình là một cách tiếp cận thống kê để phân cụm dữ liệu. Dữ liệu quan sát (đa biến) được coi là đã được tạo ra từ sự kết hợp hữu hạn của các mô hình thành phần. Mỗi mô hình thành phần là một phân phối xác suất, nói chung là một phân phối đa biến tham số.

Ví dụ, trong mô hình hỗn hợp Gaussian đa biến, mỗi thành phần là một phân phối Gaussian đa biến. Thành phần chịu trách nhiệm tạo ra một quan sát cụ thể xác định cụm mà quan sát thuộc về.

Phân nhóm dựa trên mô hình là một nỗ lực để nâng cao sự phù hợp giữa dữ liệu đã cho và một số mô hình toán học và dựa trên giả định rằng dữ liệu được tạo ra bởi sự kết hợp của phân phối xác suất cơ bản.

Có các kiểu phân cụm dựa trên mô hình như sau -

Cách tiếp cận thống kê - Tối đa hóa kỳ vọng là một thuật toán sàng lọc lặp lại phổ biến. Phần mở rộng cho k-means -

Nó có thể gán từng đối tượng vào một cụm theo trọng số (phân phối xác suất).
Các phương tiện mới được tính toán dựa trên các số đo trọng lượng.

Ý tưởng cơ bản như sau -

Nó có thể bắt đầu với ước tính ban đầu của vectơ tham số.
Nó có thể được sử dụng để lặp đi lặp lại các thiết kế dựa trên mật độ hỗn hợp do vectơ tham số tạo ra.
Nó được sử dụng để thay đổi vị trí các mẫu được sử dụng để cập nhật các ước tính tham số.
Nó có thể được sử dụng để tạo mẫu thuộc cùng một cụm nếu chúng được đặt theo điểm của chúng trong một thành phần cụ thể.

Thuật toán

Ban đầu, chỉ định k trung tâm cụm một cách ngẫu nhiên.
Nó có thể được tinh chỉnh lặp đi lặp lại các cụm dựa trên hai bước như sau -

Bước kỳ vọng - Nó có thể gán từng điểm dữ liệu X _i đến cụm C _i với xác suất sau

$$ \ mathrm {P (X_ {i} \ in \:C_ {k}) \:=\:P (C_k \ arrowvert \:X_i) \:=\:\ frac {P (C_k) P (X_i \ arrowvert \:C_k)} {P (X_i)}} $$

Bước tối đa hóa - Nó có thể được sử dụng để ước tính tham số mô hình

$$ \ mathrm {m_k \:=\:\ frac {1} {N} \ displaystyle \ sum \ limit_ {i =1} ^ N \ frac {X_ {i} P (X_i \:\ in \:C_k) } {X_ {j} P (X_i) \ in \:C_j}} $$

Phương pháp học máy - Học máy là một cách tiếp cận tạo ra các thuật toán phức tạp để xử lý dữ liệu khổng lồ và hỗ trợ kết quả cho người dùng của nó. Nó sử dụng các chương trình phức tạp có thể hiểu được thông qua kinh nghiệm và tạo ra các dự đoán.

Các thuật toán được cải thiện bởi chính nó bằng cách nhập thông tin đào tạo thường xuyên. Mục tiêu chính của học máy là tìm hiểu dữ liệu và xây dựng mô hình từ dữ liệu mà con người có thể hiểu và sử dụng.

Đây là một cách tiếp cận nổi tiếng của phương pháp học khái niệm gia tăng, tạo ra một phân cụm phân cấp dưới dạng một cây phân loại. Mỗi nút xác định một khái niệm và bao gồm một biểu diễn xác suất của khái niệm đó.

Hạn chế

Giả định rằng các thuộc tính độc lập với nhau thường quá mạnh vì có thể tồn tại mối tương quan.
Nó không thích hợp để phân nhóm dữ liệu cơ sở dữ liệu lớn, cây lệch và phân phối xác suất đắt tiền.

Phương pháp tiếp cận mạng thần kinh - Cách tiếp cận mạng nơ-ron đại diện cho mỗi cụm như một ví dụ, hoạt động như một nguyên mẫu của cụm. Các đối tượng mới được phân phối cho cụm có ví dụ giống nhất theo một số thước đo khoảng cách.