Khai phá văn bản còn được gọi là phân tích văn bản. Nó là thủ tục chuyển đổi văn bản không có cấu trúc thành dữ liệu có cấu trúc để phân tích đơn giản. Khai thác văn bản áp dụng xử lý ngôn ngữ tự nhiên (NLP), cho phép máy móc biết ngôn ngữ của con người và xử lý tự động.
Khai thác văn bản là một quy trình tự động sử dụng xử lý ngôn ngữ tự nhiên để trích xuất thông tin chi tiết có giá trị từ văn bản không có cấu trúc. Nó có thể chuyển đổi dữ liệu thành thông tin mà các thiết bị có thể hiểu được, khai thác văn bản tự động hóa quy trình xác định văn bản theo tình cảm, chủ đề và ý định.
Có các kỹ thuật khai thác văn bản như sau -
Trích xuất thông tin - Trích yếu thông tin là bước đầu tiên của quá trình phân tích văn bản phi cấu trúc. Đây là dịch vụ tự động trích xuất dữ liệu có cấu trúc từ các tài liệu có thể đọc được trên thiết bị bán cấu trúc và phi cấu trúc.
Tóm tắt - Quá trình này có mục tiêu chính xác hóa văn bản từ một số lượng lớn các tài liệu văn bản. Tự động tóm tắt là quy trình thu nhỏ tài liệu văn bản bằng chương trình máy tính để tạo bản tóm tắt giữ lại những điểm quan trọng nhất của tài liệu ban đầu. Tóm tắt dữ liệu tự động là một yếu tố của máy học và khai thác dữ liệu.
Theo dõi chủ đề - Khái niệm của cấu trúc theo dõi chủ đề là hỗ trợ hồ sơ người dùng dựa trên các tìm kiếm trước đó và đoán các tài liệu khác rất hiệu quả dựa trên hồ sơ người dùng.
Khai thác văn bản là một khu vực tự động trích xuất dữ liệu hữu ích và chưa biết trước đây từ dữ liệu văn bản không có cấu trúc. Nó có kết nối mạnh mẽ với xử lý ngôn ngữ tự nhiên. Theo dõi chủ đề là một trong những công nghệ đã được tạo ra và có thể được sử dụng trong quá trình khai thác văn bản.
Phân loại - Đây là quá trình khám phá chủ đề chính của tệp bằng cách chèn siêu dữ liệu và phân tích tài liệu. Phương pháp này tìm số lượng từ và từ số lượng đó quyết định chủ đề của tệp. Trong quy trình này, các tài liệu văn bản được phân loại thành nhãn lớp xác định trước.
Phân loại - Phân loại văn bản là công việc gán các danh mục được xác định trước cho các văn bản tự do. Nó có thể hỗ trợ các quan điểm khái niệm của tập tài liệu và có phần mềm quan trọng trong thế giới thực.
Phân nhóm - Phân cụm có thể được coi là vấn đề học tập không giám sát cần thiết nhất; vì vậy, cũng như các vấn đề khác thuộc loại này, nó đề cập đến việc khám phá cấu trúc trong một tập hợp dữ liệu không được gắn nhãn.
Liên kết khái niệm - Khai thác văn bản sử dụng kỹ thuật liên kết khái niệm để tìm tài liệu liên quan. Cơ chế này duyệt tài liệu thay vì tìm kiếm. Nó cung cấp cơ sở để liên kết các tài liệu liên quan.
Xử lý ngôn ngữ tự nhiên - Ngôn ngữ tự nhiên không là gì khác ngoài ngôn ngữ của con người và được xử lý bằng ngôn ngữ máy tính, toàn bộ sự tương tác này được gọi là Xử lý ngôn ngữ tự nhiên (NLP). Mục tiêu chính của NLP là thiết kế và hình thành một hệ thống máy tính có thể kiểm tra, hiểu và tạo ra NLP.