CLIQUE là thuật toán đầu tiên được dự đoán để phân nhóm vùng phụ tăng trưởng theo thứ nguyên trong khu vực có chiều cao. Trong phân nhóm theo chiều tăng trưởng theo thứ nguyên, quá trình phân nhóm bắt đầu từ các không gian con đơn chiều và tăng dần lên các không gian con có chiều cao hơn.
Bởi vì CLIQUE phân vùng từng thứ nguyên, chẳng hạn như kiến trúc lưới và quyết định xem một ô có dày đặc hay không dựa trên nhiều điểm mà nó bao gồm. Nó có thể được coi là sự tích hợp của các phương pháp phân nhóm dựa trên mật độ và dựa trên lưới.
Ý tưởng của thuật toán phân cụm CLIQUE như sau -
-
Với một nhóm lớn các điểm dữ liệu đa chiều, vùng dữ liệu thường không được các điểm dữ liệu tham gia một cách thống nhất. Phân nhóm của CLIQUE nhận ra các khu vực thưa thớt và "đông đúc" trong không gian (hoặc các đơn vị), từ đó tìm ra các mẫu phân phối hoàn chỉnh của tập dữ liệu.
-
Một đơn vị là vững chắc nếu phần tổng số điểm dữ liệu được bao gồm trong nó vượt quá một tham số mô hình đầu vào. Trong CLIQUE, một cụm được biểu thị dưới dạng nhóm tối đa các đơn vị dày đặc được liên kết.
CLIQUE thực hiện phân cụm nhiều chiều trong hai quy trình như sau - Trong quy trình đầu tiên, CLIQUE phân vùng dữ liệu d-chiều thành các đơn vị hình chữ nhật không chồng chéo, nhận biết các đơn vị dày đặc giữa chúng. Điều này được hoàn thành (trong 1-D) cho mỗi thứ nguyên.
Việc xác định không gian tìm kiếm sinh viên phụ thuộc vào thuộc tính Apriori được sử dụng trong khai thác quy tắc kết hợp. Nói chung, tài sản sử dụng kiến thức trước về các mục trong khu vực tìm kiếm để có thể cắt bớt các phần của khu vực.
Thuộc tính cho CLIQUE, như sau:Nếu một đơn vị k chiều là dày đặc, thì các hình chiếu của nó trong vùng (k − 1) chiều cũng vậy. Nghĩa là, với một đơn vị dày đặc sinh viên k chiều, nếu nó có thể kiểm tra đơn vị hình chiếu thứ (k-1) của nó và phát hiện ra một số đơn vị không dày đặc, thì nó có thể hiểu rằng đơn vị thứ k cũng không thể là đặc.
Do đó, nó có thể tạo ra các đơn vị đậm đặc tiềm năng hoặc sinh viên trong khu vực k chiều từ các đơn vị dày đặc tìm thấy trong khu vực (k - 1) chiều. Nói chung, vùng kết quả được tìm kiếm nhỏ hơn nhiều so với vùng ban đầu. Các đơn vị dày đặc được kiểm tra để quyết định các cụm.
Trong quá trình thứ hai, CLIQUE tạo một mô tả tối thiểu cho mỗi cụm như sau. Đối với mỗi cụm, nó quyết định diện tích tối đa bao phủ cụm các đơn vị dày đặc được liên kết. Nó quyết định độ che phủ tối thiểu (mô tả logic) cho mỗi cụm.
CLIQUE nhất thiết phải khám phá các không gian con có kích thước lớn nhất bao gồm các cụm mật độ cao tồn tại trong các không gian con đó. Nó không nhạy cảm với chuỗi các đối tượng đầu vào và không giả vờ một số phân phối dữ liệu chính tắc. Nó chia tỷ lệ tuyến tính với kích thước đầu vào và có khả năng mở rộng tốt nhất vì nhiều thứ nguyên trong dữ liệu được nâng cao.