Truy xuất văn bản là quá trình chuyển đổi văn bản không có cấu trúc sang một định dạng có cấu trúc để xác định các mẫu có ý nghĩa và những hiểu biết mới. Bằng cách sử dụng các kỹ thuật phân tích tiên tiến, bao gồm Naïve Bayes, Máy vectơ hỗ trợ (SVM) và các thuật toán học sâu khác, các tổ chức có thể khám phá và tìm ra các mối quan hệ ẩn bên trong dữ liệu phi cấu trúc của họ. Có hai phương pháp truy xuất văn bản như sau -
Lựa chọn tài liệu - Trong các phương pháp lựa chọn tài liệu, truy vấn được coi là xác định ràng buộc đối với việc lựa chọn các tài liệu có liên quan. Cách tiếp cận chung của danh mục này là mô hình truy xuất Boolean, trong đó tài liệu được xác định bởi một tập hợp các từ khóa và người dùng cung cấp biểu thức Boolean cho các từ khóa, chẳng hạn như xe hơi và cửa hàng sửa chữa, trà hoặc cà phê hoặc hệ thống cơ sở dữ liệu nhưng không phải Oracle .
Hệ thống truy xuất có thể nhận một truy vấn Boolean như vậy và trả về các bản ghi thỏa mãn biểu thức Boolean. Do sự phức tạp trong việc quy định dữ liệu của người dùng được yêu cầu chính xác với truy vấn Boolean, các kỹ thuật truy xuất Boolean thường chỉ hoạt động tốt khi người dùng hiểu nhiều về tập tài liệu và có thể tạo truy vấn tốt nhất theo cách này.
Xếp hạng tài liệu - Các phương pháp xếp hạng tài liệu sử dụng truy vấn để xếp hạng tất cả các bản ghi theo thứ tự khả năng áp dụng. Đối với người dùng thông thường và các truy vấn thăm dò, các kỹ thuật này phù hợp hơn các phương pháp lựa chọn tài liệu. Hầu hết các hệ thống truy xuất dữ liệu hiện tại đều cung cấp danh sách các tệp được xếp hạng để phản hồi lại truy vấn từ khóa của người dùng.
Có một số phương pháp xếp hạng dựa trên một loạt các nền tảng số, chẳng hạn như đại số, logic, xác suất và thống kê. Trực giác chung đằng sau tất cả các kỹ thuật này là nó có thể kết nối các từ khóa trong truy vấn với các từ khóa trong bản ghi và cho điểm từng bản ghi tùy thuộc vào mức độ phù hợp của nó với truy vấn.
Mục tiêu là để ước tính mức độ liên quan của các bản ghi với điểm được tính tùy thuộc vào thông tin bao gồm tần suất của các từ trong tài liệu và toàn bộ tập hợp. Vốn dĩ rất khó để đưa ra một thước đo chính xác về mức độ liên quan giữa một tập hợp các từ khóa. Ví dụ, rất khó xác định khoảng cách giữa khai thác dữ liệu và phân tích dữ liệu.
Cách tiếp cận phổ biến nhất của phương pháp này là mô hình không gian vectơ. Ý tưởng cơ bản của mô hình không gian vectơ như sau:Nó có thể đại diện cho một tài liệu và một truy vấn dưới dạng vectơ trong không gian chiều cao tương ứng với tất cả các từ khóa và sử dụng một thước đo độ tương tự thích hợp để đánh giá độ tương tự giữa bộ truy vấn và vectơ bản ghi. Các giá trị tương tự sau đó có thể được sử dụng để xếp hạng các tài liệu.