Phân loại tài liệu tự động là một dịch vụ khai thác văn bản thiết yếu vì sự tồn tại của một số lượng lớn các tệp trực tuyến, điều quan trọng là có thể tự động sắp xếp các bản ghi đó thành các lớp để hỗ trợ truy xuất tài liệu và phân tích thành công.
Phân loại tài liệu đã được sử dụng trong việc gắn thẻ chủ đề tự động (tức là gán nhãn cho tài liệu), xây dựng thư mục chủ đề, xác định phong cách viết tài liệu và xác định mục tiêu của các siêu liên kết liên quan đến một bộ tài liệu.
Quy trình chung như sau - Đầu tiên, một nhóm các tệp được phân loại trước được lấy làm tập huấn luyện. Tập huấn luyện được phân tích để thay đổi sơ đồ phân loại. Một sơ đồ phân loại như vậy cần phải được tinh chỉnh với một quá trình thử nghiệm. Lược đồ phân loại có nguồn gốc có thể được sử dụng để phân loại một số tệp trực tuyến.
Giai đoạn này xảy ra giống với việc phân loại các bản ghi quan hệ. Dữ liệu quan hệ được cấu trúc tốt, chẳng hạn như mỗi bộ dữ liệu được mô tả bởi một nhóm các cặp giá trị-thuộc tính.
Ví dụ:trong tuple {nắng, ấm, khô, không gió, chơi quần vợt}, giá trị "nắng" tương đương với triển vọng thời tiết thuộc tính, "ấm" tương đương với nhiệt độ thuộc tính, v.v.
Phân tích phân loại xác định nhóm các cặp thuộc tính-giá trị nào có sức mạnh phân biệt cao nhất trong việc quyết định xem một người có tham gia chơi quần vợt hay không. Nói cách khác, cơ sở dữ liệu tài liệu không được cấu trúc theo các cặp thuộc tính-giá trị.
Nó là một tập hợp các từ khóa được liên kết với một tập hợp các tài liệu không được tổ chức thành một tập hợp các thuộc tính hoặc thứ nguyên cố định. Nếu chúng tôi xem từng từ khóa, thuật ngữ hoặc đối tượng địa lý riêng biệt trong tài liệu dưới dạng một thứ nguyên, thì có thể có hàng nghìn thứ nguyên trong một bộ tài liệu. Do đó, phương pháp phân loại theo hướng dữ liệu quan hệ thường được sử dụng, bao gồm cả phân tích cây quyết định, không thể hiệu quả cho việc phân loại cơ sở dữ liệu tài liệu.
Theo mô hình không gian vectơ, hai tệp giống nhau nếu chúng chia sẻ cùng một tệp vectơ. Mô hình này thúc đẩy việc xây dựng trình phân loại k-hàng xóm gần nhất, dựa trên trực giác rằng các tài liệu tương tự được mong đợi sẽ được gán cùng nhãn lớp.
Nó có thể chỉ mục tất cả các tài liệu đào tạo, mỗi tài liệu được liên kết với nhãn lớp tương ứng của nó. Khi một tài liệu thử nghiệm được gửi đi, chúng tôi có thể coi nó như một truy vấn tới hệ thống IR và truy xuất từ tập huấn luyện k tài liệu giống nhất với truy vấn, trong đó k là hằng số có thể điều chỉnh được.
Nhãn lớp của các tệp thử nghiệm có thể được quyết định phụ thuộc vào sự phân bố nhãn lớp của k láng giềng gần nhất của nó. Việc phân phối nhãn lớp như vậy cũng có thể được tinh chỉnh, chẳng hạn như dựa trên số lượng có trọng số thay vì số lượng thô hoặc dành một phần tài liệu được gắn nhãn để xác thực.