Phân cụm là cách tiếp cận khai thác dữ liệu quan trọng để khám phá kiến thức. Phân cụm là một phương pháp phân tích dữ liệu khám phá phân loại một số đối tượng dữ liệu thành các nhóm giống nhau, chẳng hạn như các cụm.
DENCLUE đại diện cho Phân cụm dựa trên mật độ. Đó là một cách tiếp cận phân cụm phụ thuộc vào một nhóm các hàm phân bố mật độ. Thuật toán DENCLUE sử dụng mô hình cụm phụ thuộc vào ước tính mật độ hạt nhân. Một cụm được biểu thị bằng mức tối đa cục bộ của hàm mật độ dự đoán.
DENCLUE không hoạt động trên các bản ghi có phân phối đồng đều. Trong không gian chiều cao, dữ liệu luôn trông giống như được phân phối đồng đều vì sự hạn chế về chiều. Do đó, DENCLUDE nói chung không hoạt động tốt trên các bản ghi chiều cao.
Phương pháp được xây dựng dựa trên những ý tưởng sau đây như sau -
-
Ảnh hưởng của mỗi điểm dữ liệu có thể được mô hình hóa chính thức bằng cách sử dụng một hàm toán học, được gọi là hàm ảnh hưởng, mô tả tác động của một điểm dữ liệu trong vùng lân cận của nó.
-
Mật độ hoàn chỉnh của vùng dữ liệu có thể được mô hình hóa phân tích dưới dạng tổng của hàm ảnh hưởng được sử dụng cho một số điểm dữ liệu.
-
Các cụm có thể được xác định bằng số bằng cách nhận biết các chất dẫn dụ mật độ, trong đó chất hấp dẫn mật độ là cực đại cục bộ của hàm mật độ hoàn chỉnh.
Gọi x và y là các đối tượng hoặc điểm trong f d , một không gian đầu vào d-chiều. Hàm ảnh hưởng của đối tượng dữ liệu y trên x là một hàm, $ \ mathrm {f_B ^ y \ dấu hai chấm f ^ {d} \ rightarrow R_0 ^ +} $, được định nghĩa theo hàm ảnh hưởng cơ bản f B :
$$ \ mathrm {f_B ^ y (X) =f_ {B} (X, Y)} $$
Điều này phản ánh tác động của y đối với x. Về nguyên tắc, hàm ảnh hưởng có thể là một hàm tùy ý có thể được xác định bằng khoảng cách giữa hai đối tượng trong một vùng lân cận. Hàm khoảng cách, d (x, y), phải phản xạ và đối xứng, bao gồm cả hàm khoảng cách Euclide.
Nó thường được sử dụng để tính toán hàm ảnh hưởng của sóng vuông,
$$ \ mathrm {f_ {square} (X, Y) =\ begin {Bmatrix} 0 \:\:\:\:\:\:\:\:\:\:\:\:\ mathrm {if \:d (x, y)> \ sigma} \\ 1 \:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\ mathrm {ngược lại } \ end {Bmatrix}} $$
hoặc một hàm ảnh hưởng Gaussian,
$$ \ mathrm {f_ {Gauss} (x, y) =e- \ frac {d (x, y) ^ 2} {2 {\ sigma} ^ 2}} $$
Lợi thế của DENCLUE
Có một số lợi thế của DENCLUE như sau -
-
Nó có một nền tảng số vững chắc và khái quát một số phương pháp phân nhóm, chẳng hạn như phương pháp phân vùng, phân cấp và dựa trên mật độ.
-
Nó có đặc tính phân cụm tốt cho các tập dữ liệu có lượng nhiễu lớn.
-
Nó cho phép mô tả bằng số nhỏ gọn về các cụm có hình dạng tùy ý trong tập thông tin chiều cao.
-
Nó sử dụng các ô lưới, nhưng chỉ lưu thông tin về các ô lưới thực sự chứa các điểm dữ liệu. Nó quản lý các ô này theo cấu trúc truy cập dựa trên cây và do đó nhanh hơn đáng kể so với một số thuật toán có ảnh hưởng, chẳng hạn như DBSCAN.
-
Phương pháp này yêu cầu lựa chọn cẩn thận thông số mật độ σ và ngưỡng nhiễu ξ, vì việc lựa chọn các thông số như vậy có thể ảnh hưởng đáng kể đến chất lượng của kết quả phân nhóm.