Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các ứng dụng của phân cụm là gì?

Có nhiều ứng dụng khác nhau của phân cụm như sau -

  • Khả năng mở rộng - Một số thuật toán phân cụm hoạt động tốt trong các tập dữ liệu nhỏ bao gồm dưới 200 đối tượng dữ liệu; tuy nhiên, một cơ sở dữ liệu khổng lồ có thể bao gồm hàng triệu đối tượng. Việc phân cụm trên một mẫu của một tập dữ liệu khổng lồ nhất định có thể dẫn đến kết quả sai lệch. Cần có các thuật toán phân cụm có khả năng mở rộng cao.

  • Khả năng đối phó với các loại thuộc tính khác nhau - Một số thuật toán được thiết kế để phân cụm các bản ghi dựa trên khoảng thời gian (số). Tuy nhiên, các ứng dụng có thể yêu cầu phân nhóm một số loại dữ liệu, bao gồm dữ liệu nhị phân, phân loại (danh nghĩa) và thứ tự hoặc sự kết hợp của các loại dữ liệu này.

  • Khám phá các cụm có hình dạng tùy ý - Một số thuật toán phân cụm xác định các cụm phụ thuộc vào các thước đo khoảng cách Euclidean hoặc Manhattan. Các thuật toán dựa trên các phép đo khoảng cách như vậy có xu hướng phát hiện ra các cụm hình cầu có cùng kích thước và mật độ. Tuy nhiên, một cụm có thể có bất kỳ hình dạng nào. Điều cần thiết là phát triển các thuật toán có thể xác định các cụm có hình dạng tùy ý.

  • Yêu cầu tối thiểu về kiến ​​thức miền để xác định tham số đầu vào - Một số thuật toán phân cụm cần người dùng nhập các thông số cụ thể trong phân tích cụm (bao gồm cả số lượng cụm mong muốn). Kết quả phân cụm khá nhạy cảm với các tham số đầu vào. Rất khó để quyết định các thông số, đặc biệt đối với các tập dữ liệu bao gồm các đối tượng chiều cao. Điều này không chỉ tạo gánh nặng cho người dùng mà còn tạo ra chất lượng phân nhóm khó kiểm soát.

  • Khả năng đối phó với dữ liệu nhiễu - Một số cơ sở dữ liệu trong thế giới thực bao gồm các bản ghi ngoại lệ hoặc thiếu, không xác định hoặc sai sót. Một số thuật toán phân nhóm nhạy cảm với dữ liệu như vậy và có thể dẫn đến các cụm có chất lượng kém.

  • Không nhạy cảm với thứ tự của bản ghi đầu vào - Một số thuật toán phân cụm đáp ứng với thứ tự của dữ liệu đầu vào, ví dụ:tập dữ liệu tương tự, khi được trình bày với nhiều lệnh cho một thuật toán như vậy và nó có thể tạo ra các cụm khác nhau đáng kể. Điều cần thiết là phát triển các thuật toán không đáp ứng với thứ tự đầu vào.

  • Kích thước cao - Một cơ sở dữ liệu hoặc một kho dữ liệu có thể bao gồm một số thứ nguyên hoặc thuộc tính. Một số thuật toán phân cụm tốt nhất trong việc quản lý dữ liệu có chiều thấp, chỉ chứa hai đến ba chiều. Đôi mắt của con người có khả năng xác định tốt nhất chất lượng của phân cụm lên đến ba chiều. Nó đang tranh chấp để phân cụm các đối tượng dữ liệu trong không gian chiều cao, đặc biệt là khi xem xét rằng dữ liệu trong không gian chiều cao có thể rất thiếu và bị xuyên tạc rất cao.

  • Phân nhóm dựa trên ràng buộc - Các ứng dụng trong thế giới thực có thể được yêu cầu để thực hiện phân cụm theo một số loại ràng buộc. Hãy cân nhắc rằng công việc của bạn là chọn các khu vực cho một số trạm rút tiền tự động (ATM) mới nhất định trong một thành phố.