Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các kỹ thuật lập chỉ mục văn bản là gì?

Có một số kỹ thuật lập chỉ mục truy xuất văn bản phổ biến như các chỉ số đảo ngược và tệp chữ ký.

Chỉ mục được đảo ngược - Chỉ mục đảo ngược là cấu trúc chỉ mục duy trì hai bảng được lập chỉ mục băm hoặc B + -bảng được lập chỉ mục:document_table và term_table, trong đó document_table bao gồm một tập hợp các bản ghi tài liệu, mỗi bản bao gồm hai trường:doc_id và posts_list, trong đó posts_list là danh sách các phương thức (hoặc con trỏ đến các phương pháp) xuất hiện trong tài liệu, được sắp xếp theo một số thước đo mức độ liên quan.

term_table bao gồm một tập hợp các bản ghi thuật ngữ, mỗi bản ghi bao gồm hai trường:term_id và posts_list, trong đó posts_list chỉ định danh sách các định danh bản ghi mà thuật ngữ đó xuất hiện.

Nó có thể tìm thấy tất cả các tài liệu được liên kết với một tập hợp các điều khoản nhất định. Nó được sử dụng để tìm tất cả các thuật ngữ liên quan đến một bộ tài liệu nhất định. Ví dụ:nó có thể tìm thấy tất cả các tài liệu được liên kết với một tập hợp các thuật ngữ, trước tiên chúng ta có thể tìm thấy danh sách các số nhận dạng tài liệu trong bảng thuật ngữ cho từng thuật ngữ, sau đó cắt chúng để thu thập các bản ghi có liên quan.

Các chỉ số đảo ngược được sử dụng rộng rãi trên thị trường. Chúng rất đơn giản để thực hiện. Danh sách Theposting có thể khá dài, tạo ra yêu cầu lưu trữ khá lớn. Chúng đơn giản để triển khai nhưng không đạt yêu cầu trong việc quản lý từ đồng nghĩa (trong đó hai từ rất khác nhau có thể có nghĩa giống nhau) và từ đa nghĩa (trong đó một từ đơn lẻ có thể có nhiều nghĩa).

Tệp chữ ký là tệp lưu dữ liệu chữ ký cho mỗi bản ghi trong cơ sở dữ liệu. Mỗi chữ ký có kích thước không đổi là b bit xác định các điều khoản. Một thiết kế mã hóa đơn giản như sau. Mỗi bit của một chữ ký bản ghi được bắt đầu bằng 0.

Một bit được đặt thành 1 nếu thuật ngữ mà nó xác định xuất hiện trong các bản ghi. Chữ ký S 1 khớp với một chữ ký khác S 2 nếu mỗi bit được đặt trong chữ ký S 2 cũng được đặt trong S 1 . Bởi vì nhìn chung có nhiều thuật ngữ hơn các bit có sẵn, một số thuật ngữ có thể được ánh xạ thành một bit tương tự.

Các ánh xạ nhiều-một như vậy tạo ra sự tốn kém cho việc tìm kiếm bởi vì một bản ghi kết nối chữ ký của một truy vấn không nhất thiết phải bao gồm tập hợp các từ khóa của truy vấn. Các bản ghi phải được truy xuất, phân tích cú pháp, tạo gốc và kiểm tra.Các cải tiến có thể được tạo ra bằng cách triển khai đầu tiên phân tích tần số, tạo gốc và lọc các từ dừng, sau đó sử dụng các phương pháp băm và kỹ thuật mã hóa chồng chéo để mã hóa danh sách các phương pháp thành biểu diễn bit.