Các yêu cầu của phân cụm trong khai thác dữ liệu là gì?

Có các yêu cầu sau về phân cụm trong khai thác dữ liệu như sau -

Khả năng mở rộng - Một số thuật toán phân cụm hoạt động tốt trên các tập dữ liệu nhỏ bao gồm ít hơn vài trăm đối tượng dữ liệu. Một cơ sở dữ liệu khổng lồ có thể bao gồm hàng triệu đối tượng. Việc phân cụm trên một mẫu của một tập dữ liệu khổng lồ nhất định có thể dẫn đến kết quả từng phần. Các thuật toán phân nhóm có khả năng mở rộng cao là bắt buộc.

Khả năng đối phó với các loại thuộc tính khác nhau - Một số thuật toán được thiết kế để phân cụm thông tin dựa trên khoảng (số). Tuy nhiên, các ứng dụng có thể yêu cầu phân nhóm một số loại dữ liệu, bao gồm dữ liệu nhị phân, phân loại (danh nghĩa) và thứ tự hoặc sự kết hợp của các loại dữ liệu này.

Khám phá các cụm có hình dạng tùy ý - Một số thuật toán phân cụm xác định các cụm phụ thuộc vào các thước đo khoảng cách Euclidean hoặc Manhattan. Các thuật toán phụ thuộc vào các phép đo khoảng cách như vậy có xu hướng phát hiện ra các cụm hình cầu có cùng kích thước và mật độ. Tuy nhiên, một cụm có thể có bất kỳ hình dạng nào. Điều cần thiết là phát triển các thuật toán có thể nhận ra các cụm hình dạng tùy ý.

Yêu cầu tối thiểu về kiến thức miền để xác định tham số đầu vào - Một số thuật toán phân cụm cần người dùng nhập các thông số cụ thể trong phân tích cụm (bao gồm cả số lượng cụm mong muốn). Kết quả phân cụm có thể hoàn toàn nhạy cảm với các tham số đầu vào. Các tham số rất khó quyết định, đặc biệt là đối với các tập dữ liệu bao gồm các đối tượng chiều cao. Điều này không chỉ tác động đến người dùng mà còn tạo ra chất lượng phân nhóm khó kiểm soát.

Khả năng xử lý dữ liệu nhiễu - Hầu hết các cơ sở dữ liệu trong thế giới thực đều bao gồm các thông tin ngoại lai hoặc thông tin bị thiếu, không xác định hoặc sai. Một số thuật toán phân cụm quan tâm đến dữ liệu như vậy và có thể dẫn đến các nhóm có chất lượng kém.

Phân nhóm tăng dần và không nhạy cảm với thứ tự của các bản ghi đầu vào - Một số thuật toán phân cụm không thể bao gồm thông tin mới được chèn (tức là cập nhật cơ sở dữ liệu) vào cấu trúc phân nhóm hiện tại và thay vào đó, phải quyết định phân nhóm mới từ đầu.

Một số thuật toán phân cụm nhạy cảm với thứ tự của các bản ghi đầu vào. Cho một tập hợp các đối tượng dữ liệu, bao gồm cả thuật toán có thể trả về các chuỗi khác nhau đáng kể tùy thuộc vào thứ tự trình bày của các đối tượng đầu vào. Điều cần thiết là phát triển các thuật toán phân cụm gia tăng và các thuật toán không nhạy cảm với thứ tự đầu vào.

Kích thước cao - Một cơ sở dữ liệu hoặc một kho dữ liệu có thể bao gồm nhiều thứ nguyên hoặc nhiều thuộc tính. Một số thuật toán phân cụm rất tốt trong việc quản lý dữ liệu chiều thấp, chỉ chứa hai đến ba chiều. Đôi mắt của con người có khả năng xác định tốt nhất chất lượng của việc phân cụm lên đến ba chiều. Nó được sử dụng để tìm các cụm đối tượng dữ liệu trong không gian chiều cao rất phức tạp, đặc biệt là xử lý rằng dữ liệu đó có thể không đủ và sai lệch cao.