Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các lĩnh vực khai thác văn bản trong khai thác dữ liệu là gì?

Khai phá văn bản còn được gọi là phân tích văn bản. Đây là quy trình chuyển đổi văn bản phi cấu trúc thành dữ liệu có cấu trúc để phân tích đơn giản. Khai thác văn bản áp dụng xử lý ngôn ngữ tự nhiên (NLP), cho phép máy móc biết ngôn ngữ của con người và xử lý tự động.

Nó được định nghĩa là thủ tục trích xuất thông tin quan trọng từ văn bản ngôn ngữ chuẩn. Một số dữ liệu mà nó có thể tạo ra thông qua tin nhắn văn bản, hồ sơ, email, tệp được viết bằng văn bản ngôn ngữ phổ biến. Khai thác văn bản thường được sử dụng để rút ra thông tin chi tiết hoặc mô hình có lợi từ dữ liệu đó.

Có các lĩnh vực khai thác văn bản trong khai thác dữ liệu như sau -

Truy xuất thông tin - Việc truy xuất thông tin được coi như một phần bổ sung cho việc truy xuất tệp và các văn bản được khai báo được xử lý để hợp nhất. Do đó, truy xuất tài liệu được theo sau bởi một thủ tục tóm tắt văn bản và các mục tiêu trên chính thức truy vấn của người dùng.

Hệ thống IR hỗ trợ thu hẹp tập hợp các bản ghi có liên quan đến một vấn đề cụ thể. Khai thác văn bản liên quan đến việc sử dụng các thuật toán rất phức tạp để thu thập tài liệu hào phóng. Ngoài ra, IR có thể nâng cao phân tích đáng kể bằng cách giảm số lượng tài liệu.

Khai thác dữ liệu - Khai phá dữ liệu là quá trình tìm kiếm các mối tương quan, các mẫu và xu hướng mới hữu ích bằng cách chuyển qua một lượng lớn dữ liệu được lưu trong các kho lưu trữ, sử dụng các công nghệ nhận dạng mẫu bao gồm các kỹ thuật thống kê và toán học. Đó là việc phân tích các tập dữ liệu thực tế để phát hiện ra các mối quan hệ không đáng nghi ngờ và để tóm tắt các bản ghi theo các phương pháp mới vừa hợp lý vừa hữu ích cho chủ sở hữu dữ liệu.

Trong Khai phá dữ liệu, các mẫu dữ liệu ẩn được xem xét theo nhiều danh mục thành một phần dữ liệu hữu ích. Dữ liệu này được tập hợp trong một khu vực bao gồm các kho dữ liệu để phân tích nó và các thuật toán khai thác dữ liệu được thực hiện. Dữ liệu này tạo điều kiện thuận lợi trong việc đưa ra các quyết định hiệu quả nhằm giảm giá trị và tăng doanh thu.

Xử lý ngôn ngữ tự nhiên (NLP) - NLP là nghệ thuật ngôn ngữ của con người. Mục đích của NLP trong khai thác văn bản là cung cấp hệ thống trong quá trình khai thác dữ liệu như một đầu vào.

Việc phát triển ứng dụng NLP rất khó vì máy tính thường yêu cầu con người "Nói chuyện" với chúng bằng một ngôn ngữ lập trình cụ thể, miễn phí và có cấu trúc đặc biệt. Lời nói của con người thường không xác thực vì vậy nó có thể dựa trên nhiều biến số phức tạp, bao gồm cả tiếng lóng, bối cảnh xã hội và phương ngữ khu vực.

Trích xuất thông tin (IE) - Trích xuất thông tin (Information Extraction) là công việc trích xuất tự động dữ liệu có cấu trúc từ phi cấu trúc. Trong các trường hợp chung, hoạt động này liên quan đến việc xử lý các văn bản tiếng người bằng NLP.