Computer >> Máy Tính >  >> Lập trình >> Lập trình

Truy xuất thông tin là gì?

Truy xuất thông tin (IR) là một lĩnh vực đã và đang phát triển song song với các hệ thống cơ sở dữ liệu trong nhiều năm. Không giống như lĩnh vực hệ thống cơ sở dữ liệu, có truy vấn nhắm mục tiêu và xử lý giao dịch của dữ liệu có cấu trúc, truy xuất thông tin liên quan đến việc tổ chức và truy xuất dữ liệu từ nhiều tài liệu dựa trên văn bản.

Vì mỗi hệ thống cơ sở dữ liệu và truy xuất thông tin xử lý các loại dữ liệu khác nhau, một số vấn đề của hệ thống cơ sở dữ liệu thường không xuất hiện trong các hệ thống truy xuất thông tin, chẳng hạn như kiểm soát đồng thời, khôi phục, quản lý giao dịch và cập nhật. Có một số vấn đề về truy xuất thông tin phổ biến thường không được tính đến trong các hệ thống cơ sở dữ liệu truyền thống, chẳng hạn như tài liệu không có cấu trúc, tìm kiếm gần đúng dựa trên từ khóa và khái niệm về mức độ liên quan.

Do sự phong phú của dữ liệu văn bản, việc truy xuất thông tin đã phát hiện ra một số ứng dụng. Có một số hệ thống truy xuất thông tin, bao gồm hệ thống danh mục thư viện trực tuyến, hệ thống quản lý hồ sơ trực tuyến và các công cụ tìm kiếm Web hiện đang phát triển hơn.

Vấn đề truy xuất dữ liệu chung là xác định vị trí các tài liệu có liên quan trong một tập hợp tài liệu tùy thuộc vào truy vấn của người dùng, thường là một số từ khóa xác định thông tin cần thiết, mặc dù nó cũng có thể là một ví dụ về các bản ghi có liên quan.

Điều này phù hợp nhất khi người dùng có một số nhu cầu dữ liệu đặc biệt (tức là ngắn hạn), bao gồm cả việc tìm kiếm dữ liệu để mua một chiếc ô tô đã qua sử dụng. Khi người dùng có nhu cầu dữ liệu lâu dài (ví dụ:sở thích của nhà nghiên cứu), hệ thống truy xuất cũng có thể chủ động “đẩy” bất kỳ phần tử dữ liệu mới đến nào cho người dùng nếu phần tử đó được đánh giá là có liên quan đến dữ liệu của người dùng cần.

Có hai thước đo cơ bản để đánh giá chất lượng truy xuất văn bản như sau -

Độ chính xác - Đây là phần trăm dữ liệu được truy xuất thực sự có liên quan đến truy vấn (tức là các câu trả lời "đúng"). Nó được đại diện chính thức là

$$ precision =\ frac {| \ left \ {Có liên quan \ right \} \ cap \ left \ {Đã truy xuất \ right \} |} {| \ left \ {Đã lấy ra \ phải \} |} $$

Nhớ lại - Đây là phần trăm các bản ghi có liên quan đến truy vấn và đã thực sự được truy xuất. Nó được đại diện chính thức là

$$ summon =\ frac {| \ left \ {Có liên quan \ right \} \ cap \ left \ {Đã truy xuất \ right \} |} {| \ left \ {Có liên quan \ phải \} |} $$

Hệ thống truy xuất thông tin thường được yêu cầu để đánh đổi việc thu hồi để lấy độ chính xác hoặc ngược lại. Có một điểm đánh đổi thường được sử dụng là điểm F, được biểu thị bằng giá trị trung bình hài hòa của thu hồi và độ chính xác -

$$ F \ underline {} score =\ frac {summon \ times precision} {(summon + precision) ^ {2}} $$

Điều hòa có nghĩa là sự cố của một hệ thống hy sinh một số đo cho một số đo khác. Độ chính xác, thu hồi và điểm F là các thước đo cơ bản của một bộ sưu tập hồ sơ đã truy xuất. Ba thước đo này nói chung không hữu ích để so sánh hai danh sách tệp được xếp hạng vì chúng không nhạy cảm với xếp hạng nội bộ của tài liệu trong một tập hợp được truy xuất.