Khai phá văn bản còn được gọi là phân tích văn bản. Đó là quá trình chuyển đổi văn bản phi cấu trúc thành dữ liệu có cấu trúc để dễ dàng phân tích. Khai thác văn bản cần xử lý ngôn ngữ tự nhiên (NLP), cho phép các thiết bị học ngôn ngữ của con người và xử lý tự động.
Nó được định nghĩa là quá trình trích xuất dữ liệu thiết yếu từ văn bản ngôn ngữ chuẩn. Một số dữ liệu mà chúng tôi tạo ra qua tin nhắn văn bản, tài liệu, email, tệp được viết bằng văn bản ngôn ngữ phổ biến. Khai thác văn bản thường được sử dụng để rút ra thông tin chi tiết hoặc mô hình có lợi từ dữ liệu đó.
Khai thác văn bản là một quy trình tự động sử dụng xử lý ngôn ngữ tự nhiên để thu được tầm nhìn có giá trị từ văn bản phi cấu trúc. Nó có thể là chuyển đổi dữ liệu thành thông tin mà các thiết bị có thể học, khai thác văn bản tự động hóa quá trình phân loại văn bản theo tình cảm, chủ đề và ý định.
Quá trình khai thác văn bản bao gồm các bước sau để trích xuất dữ liệu từ các tệp như sau -
Thu thập tài liệu - Trong bước đầu tiên, các tài liệu văn bản được thu thập, được trình bày ở một số định dạng. Tài liệu có thể ở dạng pdf, word, html doc, css, v.v.
Xử lý trước tài liệu - Trong quá trình này, tài liệu đầu vào đã cho được xử lý để loại bỏ các phần thừa, không nhất quán, các từ độc lập, gốc và các tệp được chuẩn bị cho bước tiếp theo và các giai đoạn được thực hiện như sau -
-
Mã hóa - Tài liệu đã cho được coi là một chuỗi và từ đơn được nhận dạng trong tài liệu, tức là chuỗi tài liệu đã cho được tách thành một đơn vị hoặc mã thông báo.
-
Xóa từ dừng - Trong quá trình này, việc loại bỏ các từ không đổi như a, an, but, and, of, the, v.v.
-
Lập trình - Thân cây là một tập hợp các từ tự nhiên có nghĩa giống nhau. Cách tiếp cận này xác định cơ sở của một từ cụ thể. Có hai loại phương pháp là tạo phương pháp vô hướng và phương pháp dẫn xuất. Một trong những thuật toán nổi tiếng để rút gốc là thuật toán porter, chẳng hạn như nếu một tài liệu liên quan đến các từ như từ chức, từ chức, từ chức thì tài liệu đó sẽ được coi là từ chức sau khi sử dụng phương pháp xác nhận gốc.
Chuyển đổi văn bản - Văn bản là một tập hợp các từ (đặc điểm) và hình thức của chúng. Có hai phương pháp để biểu diễn các tài liệu đó là Mô hình không gian vectơ và Túi từ.
Lựa chọn tính năng (lựa chọn thuộc tính) - Cách tiếp cận này dẫn đến việc cung cấp không gian cơ sở dữ liệu thấp, phương pháp tìm kiếm tối thiểu bằng cách loại bỏ các bản chất không liên quan từ tài liệu đầu vào.
Khai thác dữ liệu / Lựa chọn mẫu - Trong quá trình này, quá trình khai thác dữ liệu thông thường kết hợp với quá trình khai thác văn bản. Cơ sở dữ liệu có cấu trúc tạo điều kiện cho các kỹ thuật khai thác dữ liệu cổ điển phát sinh từ giai đoạn trước.
Đánh giá - Giai đoạn này tính toán kết quả. Kết quả thu được này có thể được tập trung đi hoặc có thể được sử dụng cho tập hợp các trình tự sau.