Khai phá dữ liệu là quy trình tìm kiếm các mối tương quan, các mẫu và xu hướng mới hữu ích bằng cách chia sẻ thông qua một lượng lớn dữ liệu được lưu trong các kho lưu trữ, sử dụng các công nghệ nhận dạng mẫu bao gồm các kỹ thuật thống kê và toán học. Đó là việc phân tích các tập dữ liệu thực tế để phát hiện ra các mối quan hệ không đáng nghi ngờ và để tóm tắt các bản ghi theo các phương pháp mới vừa hợp lý vừa hữu ích cho chủ sở hữu dữ liệu.
Đây là quy trình lựa chọn, thăm dò và mô hình hóa lượng thông tin lớn để tìm ra các quy luật hoặc các mối quan hệ mà thoạt đầu chưa biết để thu được kết quả rõ ràng và có lợi cho chủ sở hữu cơ sở dữ liệu.
Nó không giới hạn trong việc sử dụng các thuật toán máy tính hoặc kỹ thuật thống kê. Đây là một quá trình kinh doanh thông minh có thể được sử dụng cùng với công nghệ thông tin để hỗ trợ các quyết định của công ty.
Khai phá dữ liệu tương tự như Khoa học dữ liệu. Nó được thực hiện bởi một người, trong một tình huống cụ thể, trên một tập dữ liệu cụ thể, với một mục tiêu. Giai đoạn này chứa một số loại dịch vụ bao gồm khai thác văn bản, khai thác web, khai thác âm thanh và video, khai thác dữ liệu bằng hình ảnh và khai thác phương tiện truyền thông xã hội. Nó được hoàn thành thông qua phần mềm đơn giản hoặc rất cụ thể.
Khai thác dữ liệu đã thu hút rất nhiều sự chú ý trên thị trường thông tin và toàn xã hội trong những năm hiện tại, vì sự sẵn có rộng rãi của lượng dữ liệu khổng lồ và nhu cầu sắp xảy ra để biến những dữ liệu đó thành dữ liệu và kiến thức có lợi. Thông tin và kiến thức thu được có thể được sử dụng cho phần mềm, từ phân tích ngành, phát hiện gian lận và giữ chân người dùng, đến kiểm soát sản xuất và khám phá khoa học.
Khai phá dữ liệu có thể được coi là kết quả của sự tiến bộ tự nhiên của công nghệ dữ liệu. Thị trường hệ thống cơ sở dữ liệu đã hỗ trợ một hướng phát triển trong việc phát triển các chức năng sau đây bao gồm thu thập dữ liệu và tạo cơ sở dữ liệu, quản lý dữ liệu và phân tích dữ liệu nâng cao.
Ví dụ, sự phát triển gần đây của cấu trúc thu thập dữ liệu và tạo cơ sở dữ liệu là cần thiết cho sự phát triển sau này của một cấu trúc hiệu quả để lưu trữ và truy xuất dữ liệu cũng như xử lý truy vấn và giao dịch. Với các hệ thống cơ sở dữ liệu khác nhau cung cấp khả năng xử lý truy vấn và giao dịch như thông lệ, phân tích dữ liệu nâng cao đã được phát triển thành đối tượng tiếp theo.
Dữ liệu có thể được lưu trong một số loại cơ sở dữ liệu và kho dữ liệu. Một cấu trúc kho dữ liệu đã xuất hiện trong kho dữ liệu, một kho chứa một số nguồn dữ liệu không đồng nhất được tổ chức theo một lược đồ thống nhất tại một trang web riêng lẻ để hỗ trợ việc ra quyết định quản lý.
Công nghệ kho dữ liệu liên quan đến việc làm sạch dữ liệu, tích hợp dữ liệu và xử lý phân tích trực tuyến (OLAP), đặc biệt, các kỹ thuật phân tích với các chức năng bao gồm tóm tắt, hợp nhất và tổng hợp và khả năng xem dữ liệu từ nhiều góc độ.