Computer >> Máy Tính >  >> Lập trình >> Lập trình

PROCLUS là gì?

PROCLUS là viết tắt của Projected Clustering. Đây là một kỹ thuật phân cụm không gian con giảm kích thước thông thường. Nghĩa là, thay vì bắt đầu từ các không gian chiều riêng lẻ, nó bắt đầu bằng cách tìm giá trị gần đúng ban đầu của các cụm trong khu vực thuộc tính chiều cao.

Mỗi thứ nguyên được tạo một trọng số cho mỗi cụm và các trọng số được làm mới được sử dụng trong lần lặp tiếp theo để tạo lại các cụm. Điều này dẫn đến việc khám phá các khu vực dày đặc trong tất cả các không gian con của một số chiều thuận tiện và ngăn chặn việc tạo ra một số lượng lớn các cụm chồng chéo trong các không gian dự kiến ​​có chiều thấp hơn.

PROCLUS khám phá nhóm trung gian tốt nhất bằng giai đoạn leo đồi tương tự như giai đoạn được sử dụng trong CLARANS, nhưng được tổng quát hóa để quản lý với phân nhóm dự kiến. Nó sử dụng thước đo khoảng cách được gọi là khoảng cách theo đoạn Manhattan, là khoảng cách Manhattan trên một nhóm các kích thước thích hợp.

Thuật toán PROCLUS bao gồm ba quá trình như sau:khởi tạo, lặp lại và tinh chỉnh cụm. Trong quá trình khởi tạo, nó cần một thuật toán tham lam để chọn một tập hợp các medoid ban đầu cách xa nhau để cung cấp rằng mỗi cụm được xác định bởi tối thiểu một đối tượng trong tập hợp đã chọn.

Nó có thể chọn một mẫu ngẫu nhiên các điểm dữ liệu tỷ lệ với nhiều cụm mà nó được yêu cầu tạo, sau đó sử dụng thuật toán tham lam để nhận một tập con cuối cùng thậm chí còn nhỏ hơn cho quy trình tiếp theo.

Quá trình lặp lại chọn một tập hợp ngẫu nhiên của k medoid từ tập hợp đã giảm này (trong số các medoid) và khôi phục các medoid "xấu" bằng cách chọn ngẫu nhiên các medoid mới nếu nhóm được tăng lên.

Đối với mỗi medoid, một nhóm kích thước được chọn có khoảng cách trung bình nhỏ so với kỳ vọng toán học. Tổng số kích thước liên quan đến các dải phân cách phải là k × l, trong đó l là tham số đầu vào chọn kích thước trung bình của các tiểu vùng.

Quá trình sàng lọc tính toán các kích thước mới cho mỗi medoid phụ thuộc vào các cụm được phát hiện, chỉ định lại các điểm cho các medoid và xóa các giá trị ngoại lệ. PROCLUS cho thấy rằng phương pháp này hiệu quả và có thể mở rộng trong việc khám phá các cụm chiều cao.

Không giống như CLIQUE, xuất ra nhiều cụm chồng chéo, PROCLUS tìm thấy các phân vùng không trùng lặp của các điểm. Các cụm được phát hiện có thể cung cấp hiểu rõ hơn về dữ liệu chiều cao và hỗ trợ các phân tích phụ khác.

CLIQUE nhất thiết phải khám phá các không gian con có kích thước lớn nhất sao cho các cụm mật độ cao tiếp tục trong các không gian con đó. Nó không đáp ứng với thứ tự của các đối tượng đầu vào và không giả vờ một số phân phối dữ liệu chính tắc. Nó chia tỷ lệ tuyến tính với kích thước đầu vào và có khả năng mở rộng tốt nhất khi nhiều thứ nguyên trong dữ liệu được cải thiện.