Phân cụm tài liệu là kỹ thuật quan trọng để tổ chức các tệp theo cách không giám sát. Khi tài liệu được biểu diễn dưới dạng vectơ thuật ngữ, các phương pháp phân nhóm có thể được áp dụng. Không gian tài liệu liên tục có kích thước lớn, từ hàng trăm đến hàng nghìn.
Do vấn đề về kích thước, nên trước tiên, việc chiếu các tài liệu vào một không gian con có chiều thấp hơn, trong đó cấu trúc ngữ nghĩa của không gian tài liệu trở nên rõ ràng. Trong các lĩnh vực ngữ nghĩa chiều thấp, các thuật toán phân cụm truyền thống có thể được sử dụng.
Có một số phương pháp phân tích phân cụm tài liệu như sau -
Phân nhóm quang phổ - Phương pháp phân cụm quang phổ trước tiên thực hiện nhúng phổ (giảm kích thước) trên dữ liệu gốc, sau đó áp dụng thuật toán phân cụm truyền thống (ví dụ:k-mean) trên không gian tài liệu đã giảm.
Nó có thể hoạt động trên phân cụm quang phổ cho thấy khả năng xử lý dữ liệu phi tuyến tính cao (không gian dữ liệu có độ cong cao tại mọi khu vực cục bộ). Các liên kết mạnh mẽ của nó với hình học vi phân giúp nó có khả năng tìm ra kiến trúc đa dạng của không gian tệp.
Hạn chế của các thuật toán phân cụm quang phổ này có thể sử dụng phép nhúng phi tuyến (giảm kích thước), chỉ được biểu diễn trên dữ liệu "đào tạo". Họ phải sử dụng một số điểm dữ liệu để hiểu việc nhúng. Khi tập dữ liệu lớn, việc hiểu một cách nhúng như vậy sẽ rất tốn kém về mặt tính toán. Điều này hạn chế phần mềm phân cụm quang phổ trên các tập dữ liệu cao.
Mô hình hỗn hợp - Phương pháp phân cụm mô hình hỗn hợp mô hình hóa dữ liệu văn bản bằng mô hình hỗn hợp, thường liên quan đến các mô hình thành phần đa thức. Phân cụm bao gồm hai bước như sau -
Nó có thể ước tính các thông số mô hình dựa trên dữ liệu văn bản và bất kỳ kiến thức bổ sung nào trước đó.
Nó có thể được suy ra các cụm dựa trên các tham số mô hình ước tính. Tùy thuộc vào cách mô hình hỗn hợp được xác định, các phương pháp này có thể phân cụm các từ và tài liệu cùng một lúc.
Phân tích ngữ nghĩa tiềm ẩn xác suất (PLSA) và phân bổ dirichlet tiềm ẩn (LDA) là hai trường hợp của các phương pháp tiếp cận như vậy. Lợi ích của phương pháp phân cụm là các cụm có thể được thiết kế để hỗ trợ phân tích so sánh các tệp.
Các phương pháp Lập chỉ mục ngữ nghĩa tiềm ẩn (LSI) và Lập chỉ mục lưu giữ vị trí (LPI) là các phương pháp giảm kích thước tuyến tính. Nó được sử dụng để đạt được các vectơ chuyển đổi (hàm nhúng) trong LSI và LPI. Các chức năng nhúng như vậy được thể hiện ở khắp mọi nơi; do đó, nó có thể sử dụng phần tử của dữ liệu để hiểu chức năng nhúng và nhúng một số dữ liệu vào không gian chiều thấp.
Mục đích của LSI là tìm ra không gian con gần đúng nhất với không gian tài liệu gốc theo nghĩa giảm thiểu lỗi xây dựng lại toàn cục. Nói cách khác, LSI tìm cách khám phá các tính năng tiêu biểu nhất thay vì các tính năng phân biệt nhất để trình bày tài liệu. Do đó, LSI có thể không tối ưu trong việc phân biệt các tài liệu có ngữ nghĩa khác nhau, đây là mục tiêu cuối cùng của việc phân nhóm.