Khai phá dữ liệu là quá trình khám phá các mối tương quan, mẫu và xu hướng mới có ý nghĩa bằng cách chuyển dịch qua một lượng lớn dữ liệu được lưu trữ trong kho lưu trữ, sử dụng công nghệ nhận dạng mẫu cũng như các kỹ thuật thống kê và toán học. Đó là việc phân tích các tập dữ liệu quan sát để tìm ra các mối quan hệ không được nghi ngờ và tóm tắt dữ liệu theo những cách mới lạ, dễ hiểu và hữu ích cho chủ sở hữu dữ liệu.
Đây là quy trình lựa chọn, thăm dò và mô hình hóa số lượng lớn thông tin để tìm ra các quy luật hoặc quan hệ mà thoạt đầu chưa biết để thu được kết quả rõ ràng và có lợi cho chủ sở hữu cơ sở dữ liệu. Khai thác dữ liệu là giai đoạn thăm dò và phân tích bằng các phương tiện tự động hoặc bán tự động với lượng dữ liệu khổng lồ để tìm ra các thiết kế và phương pháp có ý nghĩa.
Khai phá dữ liệu là một phương pháp quan trọng, nơi dữ liệu chưa biết trước đây và có khả năng hữu ích được trích xuất từ một lượng thông tin khổng lồ. Quá trình khai thác dữ liệu chứa một số thành phần và các thành phần này tạo thành cấu trúc hệ thống khai thác dữ liệu. Các thành phần chính của khai thác dữ liệu như sau -
-
Kho lưu trữ thông tin - Đây là một hoặc một tập hợp cơ sở dữ liệu, kho dữ liệu, bảng tính hoặc một số loại kho dữ liệu. Các kỹ thuật làm sạch dữ liệu và tích hợp dữ liệu có thể được thực hiện trên dữ liệu.
-
Cơ sở dữ liệu hoặc máy chủ kho dữ liệu - Cơ sở dữ liệu hoặc máy chủ kho dữ liệu có thể trả lời được khi tìm nạp dữ liệu có liên quan, dựa trên yêu cầu khai thác dữ liệu của người dùng.
-
Cơ sở kiến thức - Đây là kiến thức miền có thể hướng dẫn việc tìm kiếm hoặc tính toán mức độ thú vị của thiết kế kết quả.
-
Công cụ khai thác dữ liệu - Điều này quan trọng đối với hệ thống khai thác dữ liệu và nó bao gồm một tập hợp các mô-đun chức năng cho các nhiệm vụ bao gồm phân tích đặc tính, liên kết và tương quan, phân loại, dự đoán, phân tích cụm, phân tích ngoại lệ và phân tích tiến hóa.
-
Mô-đun đánh giá mẫu - Thành phần này thường sử dụng các thước đo mức độ thú vị và giao tiếp với cấu trúc khai thác dữ liệu để tập trung tìm kiếm vào thiết kế thú vị.
Phân khúc này thường sử dụng các biện pháp cổ phần hợp tác với các mô-đun khai thác dữ liệu để nhắm mục tiêu tìm kiếm theo hướng thiết kế hấp dẫn. Nó có thể sử dụng ngưỡng cổ phần để lọc ra các thiết kế đã được khám phá.
Nói cách khác, mô-đun đánh giá mẫu có thể được phối hợp với mô-đun khai thác, dựa trên việc thực thi các kỹ thuật khai thác dữ liệu được sử dụng. Để khai thác dữ liệu hiệu quả, bạn nên đẩy việc đánh giá cổ phần mẫu càng nhiều càng tốt vào quá trình khai thác để giới hạn việc tìm kiếm chỉ trong thiết kế hấp dẫn.
-
Giao diện người dùng - Mô-đun này kết nối người dùng và hệ thống khai thác dữ liệu, cho phép người dùng tương tác với hệ thống bằng cách xác định truy vấn hoặc tác vụ khai thác dữ liệu, cung cấp dữ liệu để giúp tập trung tìm kiếm và triển khai khai thác dữ liệu khám phá dựa trên kết quả khai thác dữ liệu trung gian.
Hơn nữa, thành phần này cho phép người dùng duyệt qua các thiết kế cơ sở dữ liệu và kho dữ liệu hoặc cấu trúc dữ liệu, đánh giá các mẫu đã khai thác và trực quan hóa các mẫu ở các dạng khác nhau.