Khai phá dữ liệu là quá trình tìm kiếm các mối tương quan, các mẫu và xu hướng mới hữu ích bằng cách chuyển qua một lượng lớn dữ liệu được lưu trong các kho lưu trữ, sử dụng các công nghệ nhận dạng mẫu bao gồm các kỹ thuật thống kê và toán học. Đó là việc phân tích các tập dữ liệu thực tế để phát hiện ra các mối quan hệ không đáng nghi ngờ và để tóm tắt các bản ghi theo các phương pháp mới vừa hợp lý vừa hữu ích cho chủ sở hữu dữ liệu.
Đây là quy trình lựa chọn, thăm dò và mô hình hóa lượng thông tin lớn để tìm ra các quy luật hoặc các mối quan hệ mà thoạt đầu chưa biết để thu được kết quả rõ ràng và có lợi cho chủ sở hữu cơ sở dữ liệu.
Khai phá dữ liệu tương tự như Khoa học dữ liệu. Nó được thực hiện bởi một người, trong một tình huống cụ thể, trên một tập dữ liệu cụ thể, với một mục tiêu. Giai đoạn này chứa một số loại dịch vụ bao gồm khai thác văn bản, khai thác web, khai thác âm thanh và video, khai thác dữ liệu bằng hình ảnh và khai thác phương tiện truyền thông xã hội. Nó được hoàn thành thông qua phần mềm đơn giản hoặc rất cụ thể.
Metarules cho phép người dùng xác định dạng cú pháp của các quy tắc mà họ tham gia vào quá trình khai thác. Các biểu mẫu quy tắc có thể được sử dụng như các ràng buộc để nâng cao hiệu quả của giai đoạn khai thác. Các siêu phân tích có thể dựa trên kinh nghiệm, kỳ vọng hoặc trực giác của nhà phân tích liên quan đến dữ liệu hoặc có thể được tạo tự động tùy thuộc vào lược đồ cơ sở dữ liệu.
Khai thác có hướng dẫn theo quy tắc - Coi đó là một nhà phân tích thị trường cho AllElectronics, nó có thể có quyền truy cập vào dữ liệu xác định khách hàng (bao gồm tuổi, địa chỉ và xếp hạng tín dụng của khách hàng) và danh sách các giao dịch của khách hàng.
Nó có thể là tìm kiếm mối liên hệ giữa các đặc điểm của khách hàng và các mặt hàng mà khách hàng mua. Tuy nhiên, thay vì tìm một số quy tắc kết hợp phản ánh những mối quan hệ này, nó chỉ quan tâm đến việc quyết định cặp đặc điểm khách hàng nào giúp tăng cường việc bán phần mềm văn phòng.
Ví dụ về siêu quy tắc như vậy là
P 1 (X, Y) ∧ P 2 (X, W) ⇒ mua (X, “phần mềm văn phòng”)
trong đó P 1 và P 2 là các biến vị từ được khởi tạo cho các thuộc tính từ cơ sở dữ liệu đã cho trong giai đoạn khai thác, X là biến xác định khách hàng và Y và W nhận các giá trị của các thuộc tính được gán cho P 1 và P 2 , theo đó.
Nói chung, người dùng có thể xác định danh sách các thuộc tính được xử lý để khởi tạo với P 1 và P 2 . Do đó, một tập hợp mặc định có thể được sử dụng.
Nói chung, một siêu quy tắc hình thành một giả thuyết liên quan đến các mối quan hệ mà người dùng có liên quan đến việc nhận thức hoặc xác nhận. Hệ thống khai thác dữ liệu có thể tìm kiếm các quy tắc kết nối siêu quy tắc đã cho. Ví dụ:
tuổi (X, “30 ... 39”) ∧chơi (X, “41K ... 60K”) ⇒ mua (X, “phần mềm văn phòng”)