WaveCluster là một thuật toán phân cụm đa độ phân giải, lần đầu tiên tóm tắt các từ đó bằng cách áp đặt một kiến trúc lưới đa chiều vào không gian dữ liệu. Nó có thể sử dụng phép biến đổi wavelet để thay đổi không gian đặc trưng ban đầu, tìm kiếm mật độ trong không gian đã biến đổi.
Trong phương pháp này, mỗi ô lưới tóm tắt dữ liệu của một nhóm các điểm ánh xạ trong ô. Dữ liệu tóm tắt này thường phù hợp với bộ nhớ chính để sử dụng bởi biến đổi wavelet đa độ phân giải và phân tích cụm tiếp theo.
Biến đổi wavelet là một phương pháp xử lý tín hiệu phân tách tín hiệu thành nhiều băng tần con. Mô hình wavelet có thể được sử dụng cho các ký hiệu d-chiều bằng cách sử dụng một phép biến đổi wavelet một chiều d lần. Khi áp dụng biểu mẫu sóng, dữ liệu được thay đổi để bảo toàn khoảng cách tương đối giữa các đối tượng ở một số cấp độ phân giải. Điều này cho phép các cụm tự nhiên trong dữ liệu trở nên dễ phát hiện hơn. Có thể nhận ra các cụm bằng cách tìm kiếm các khu vực dày đặc trong miền mới.
Ưu điểm của chuyển đổi wavelet như sau -
Nó cung cấp tính năng phân nhóm không được giám sát:Nó cần các bộ lọc hình mũ nhấn mạnh vào vị trí các điểm phân cụm, đồng thời loại bỏ dữ liệu yếu hơn bên ngoài các ranh giới cụm.
-
Nó cung cấp tính năng phân nhóm không được giám sát - Nó cần các bộ lọc hình chiếc mũ để nhấn mạnh các khu vực nơi các điểm tập hợp lại, đồng thời loại bỏ dữ liệu yếu hơn bên ngoài ranh giới cụm.
Do đó, các vùng dày đặc trong không gian đặc trưng ban đầu đóng vai trò là chất hấp dẫn đối với các điểm lân cận và là chất ức chế đối với các điểm ở xa hơn. Điều này xác định rằng các nhóm trong dữ liệu tự động nổi bật và “xóa” các vùng xung quanh chúng.
-
Các tính năng đa phân giải của phép biến đổi wavelet có thể hỗ trợ phát hiện các cụm ở một số cấp độ chính xác.
-
Phân cụm dựa trên Wavelet rất nhanh chóng, với độ phức tạp tính toán là O (n), trong đó n là số đối tượng trong cơ sở dữ liệu. Việc triển khai thuật toán có thể được tạo song song.
-
WaveCluster là một thuật toán dựa trên lưới và dựa trên mật độ - Nó phù hợp với một số yêu cầu của một thuật toán phân cụm tốt - Nó quản lý hiệu quả các tập dữ liệu lớn, tìm các cụm có hình dạng tùy ý, quản lý thành công các giá trị ngoại lai, không nhạy cảm với thứ tự đầu vào và không cần định nghĩa các tham số đầu vào bao gồm số lượng cụm hoặc bán kính vùng lân cận.
Trong các nghiên cứu sơ bộ, WaveCluster được phát hiện là vượt trội hơn BIRCH, CLARANS và DBSCAN về cả hiệu quả và chất lượng phân cụm. Nghiên cứu đã phát hiện ra WaveCluster có khả năng quản lý dữ liệu với tối đa 20 thứ nguyên.