Khai phá dữ liệu là quá trình tìm kiếm các mối tương quan, các mẫu và xu hướng mới hữu ích bằng cách chuyển qua một lượng lớn dữ liệu được lưu trong các kho lưu trữ, sử dụng các công nghệ nhận dạng mẫu bao gồm các kỹ thuật thống kê và toán học. Đó là việc phân tích các tập dữ liệu thực tế để phát hiện ra các mối quan hệ không đáng nghi ngờ và để tóm tắt các bản ghi theo các phương pháp mới vừa hợp lý vừa hữu ích cho chủ sở hữu dữ liệu.
Đây là quy trình lựa chọn, thăm dò và mô hình hóa lượng thông tin lớn để tìm ra các quy luật hoặc các mối quan hệ mà thoạt đầu chưa biết để thu được kết quả rõ ràng và có lợi cho chủ sở hữu cơ sở dữ liệu.
Khai phá dữ liệu tương tự như Khoa học dữ liệu. Nó được thực hiện bởi một người, trong một tình huống cụ thể, trên một tập dữ liệu cụ thể, với một mục tiêu. Giai đoạn này chứa một số loại dịch vụ bao gồm khai thác văn bản, khai thác web, khai thác âm thanh và video, khai thác dữ liệu bằng hình ảnh và khai thác phương tiện truyền thông xã hội. Nó được hoàn thành thông qua phần mềm đơn giản hoặc rất cụ thể.
Bằng cách thuê ngoài khai thác dữ liệu, tất cả công việc có thể được thực hiện nhanh hơn với chi phí vận hành thấp. Các công ty cụ thể cũng có thể sử dụng các công nghệ mới để lưu dữ liệu không thể tìm thấy bằng tay. Có rất nhiều dữ liệu có sẵn trên nhiều nền tảng, nhưng kiến thức rất hạn chế có thể truy cập được.
Cách tiếp cận tìm kiếm các mẫu hữu ích trong dữ liệu đã được đặt một số tên, bao gồm khai thác dữ liệu, trích xuất kiến thức, khám phá dữ liệu, thu thập dữ liệu, khảo cổ học dữ liệu và xử lý mẫu dữ liệu. Khai thác dữ liệu đã được sử dụng bởi các nhà thống kê, nhà phân tích dữ liệu và cộng đồng hệ thống thông tin quản lý (MIS).
Nó cũng đã được cải thiện phổ biến trong khu vực cơ sở dữ liệu. Trong khai thác dữ liệu, cơ sở dữ liệu lớn được phân tích để giải quyết các vấn đề quyết định. Hãy xem xét một chủ cửa hàng muốn nhận thông tin về một sản phẩm mới. Thông tin do quá trình khai thác dữ liệu vận hành được chứa trong cơ sở dữ liệu lịch sử về các tương tác trước đây với khách hàng và các đặc điểm liên quan đến khách hàng như độ tuổi, thu nhập và phản hồi của họ.
Phần mềm khai thác dữ liệu sử dụng thông tin lịch sử để xây dựng mô hình hành vi của khách hàng có thể được sử dụng để dự đoán khách hàng nào có khả năng sẽ phản hồi với sản phẩm mới. Thông tin lịch sử cũng có thể tạo cơ sở cho việc phát hiện ra các tội phạm tương đối phổ biến như gian lận thẻ tín dụng.
Bằng cách so sánh các mẫu trong dữ liệu lịch sử và dữ liệu hiện tại, nó sẽ được kiểm tra xem liệu các thay đổi có được thực hiện bởi khách hàng hay không. Thông tin lịch sử được chấp nhận rộng rãi trong các lĩnh vực này như một công cụ để tìm kiếm các mẫu và khách hàng được hưởng lợi ích kinh tế từ các quy trình này.