Khai phá dữ liệu là quá trình tìm kiếm các mối tương quan, các mẫu và xu hướng mới hữu ích bằng cách chuyển qua một lượng lớn dữ liệu được lưu trong các kho lưu trữ, sử dụng các công nghệ nhận dạng mẫu bao gồm các kỹ thuật thống kê và toán học. Đó là việc phân tích các tập dữ liệu thực tế để phát hiện ra các mối quan hệ không đáng nghi ngờ và để tóm tắt các bản ghi theo các phương pháp mới vừa hợp lý vừa hữu ích cho chủ sở hữu dữ liệu.
Một nhiệm vụ khai thác dữ liệu có thể được xác định trong thiết kế của một truy vấn khai thác dữ liệu, là đầu vào cho hệ thống khai thác dữ liệu. Truy vấn khai thác dữ liệu được biểu diễn trong các điều kiện nguyên thủy của nhiệm vụ khai thác dữ liệu. Những nguyên bản này cho phép người dùng kết nối lẫn nhau với hệ thống khai thác dữ liệu trong quá trình khám phá để chỉ đạo quá trình khai thác hoặc kiểm tra các phát hiện từ nhiều góc độ hoặc độ sâu.
Nhiệm vụ của khai thác dữ liệu như sau -
Tập hợp dữ liệu liên quan đến nhiệm vụ sẽ được khai thác - Điều này xác định các phần của cơ sở dữ liệu hoặc tập hợp thông tin mà người dùng có liên quan. Điều này liên quan đến các thuộc tính cơ sở dữ liệu hoặc các thứ nguyên kho dữ liệu quan tâm (được định nghĩa là các thuộc tính hoặc thứ nguyên có liên quan).
Loại kiến thức được khai thác - Điều này xác định các chức năng khai thác dữ liệu sẽ được vận hành, bao gồm phân tích đặc điểm, phân biệt, liên kết hoặc tương quan, phân loại, dự đoán, phân nhóm, phân tích ngoại lệ hoặc phân tích tiến hóa.
Kiến thức nền tảng sẽ được sử dụng trong quá trình khám phá - Kiến thức về miền được khai thác này giúp định hướng quá trình khám phá kiến thức và tính toán các mẫu đã thiết lập. Cấu trúc phân cấp khái niệm là một dạng kiến thức nền nổi tiếng, cho phép khai thác dữ liệu ở một số phương pháp trừu tượng.
Các thước đo và ngưỡng thú vị để đánh giá mẫu - Chúng có thể được sử dụng để hướng dẫn quá trình khai thác hoặc sau khi khám phá, để tính toán các mẫu được phát hiện. Nhiều loại kiến thức có thể có các biện pháp thú vị khác nhau.
Biểu diễn dự kiến để hình dung các mẫu đã khám phá - Biểu đồ này đại diện cho biểu mẫu mà các mẫu đã khám phá sẽ được trình bày, có thể chứa các quy tắc, bảng, biểu đồ, đồ thị, cây quyết định và hình khối.
Ngôn ngữ truy vấn khai thác dữ liệu có thể được thiết kế để kết hợp các nguyên thủy này, cho phép người dùng kết nối linh hoạt với các hệ thống khai thác dữ liệu. Một ngôn ngữ truy vấn khai thác dữ liệu hỗ trợ một cơ quan mà trên đó có thể xây dựng các giao diện đồ họa thân thiện với người dùng. Điều này thúc đẩy giao tiếp của hệ thống khai thác dữ liệu với các hệ thống dữ liệu khác và tích hợp hệ thống này với môi trường xử lý dữ liệu hoàn chỉnh.
Nó đang thiết kế một ngôn ngữ khai thác dữ liệu toàn diện là một thách thức vì khai thác dữ liệu bảo vệ nhiều chức năng, từ mô tả đặc tính dữ liệu đến phân tích tiến hóa. Mỗi nhiệm vụ có một số yêu cầu. Việc thiết kế một ngôn ngữ truy vấn khai thác dữ liệu hiệu quả cần được học rộng rãi về sức mạnh, giới hạn và cấu trúc cơ bản của các loại nhiệm vụ khai thác dữ liệu khác nhau.