Khai phá dữ liệu còn được định nghĩa là Khám phá tri thức trong dữ liệu là một kỹ thuật để nhận ra bất kỳ sự bất thường, tương quan, xu hướng hoặc mẫu nào giữa hàng triệu dữ liệu (đặc biệt là dữ liệu có cấu trúc) để thu thập thông tin chi tiết có thể hữu ích cho việc ra quyết định kinh doanh và có thể đã bị bỏ sót trong quá trình truyền thống phân tích. Mục tiêu của khai thác dữ liệu là tìm các dữ kiện hoặc dữ liệu mà trước đây đã bị bỏ qua hoặc chưa được biết đến bằng cách sử dụng các thuật toán số phức tạp.
Khai phá dữ liệu tương tự như Khoa học dữ liệu. Nó được thực hiện bởi một người, trong một tình huống cụ thể, trên một tập dữ liệu cụ thể, với một mục tiêu. Giai đoạn này chứa một số loại dịch vụ bao gồm khai thác văn bản, khai thác web, khai thác âm thanh và video, khai thác dữ liệu bằng hình ảnh và khai thác phương tiện truyền thông xã hội. Nó được hoàn thành thông qua phần mềm đơn giản hoặc rất cụ thể.
Bằng cách thuê ngoài khai thác dữ liệu, tất cả công việc có thể được thực hiện nhanh hơn với chi phí vận hành thấp. Các công ty cụ thể cũng có thể sử dụng các công nghệ mới để tiết kiệm dữ liệu không thể tìm thấy theo cách thủ công. Có rất nhiều dữ liệu có sẵn trên nhiều nền tảng, nhưng kiến thức rất hạn chế có thể truy cập được.
Thách thức chính là phân tích dữ liệu để trích xuất dữ liệu thiết yếu có thể được sử dụng để giải quyết một vấn đề hoặc cho sự phát triển của công ty. Có nhiều công cụ và kỹ thuật năng động có sẵn để khai thác dữ liệu và khám phá khả năng phán đoán tốt hơn từ nó.
Khai thác dữ liệu được sử dụng cho một số mục đích trong cả khu vực tư nhân và công cộng. Các ngành bao gồm ngân hàng, bảo hiểm, y học và bán lẻ thường sử dụng khai thác dữ liệu để giảm chi phí, tăng cường nghiên cứu và tăng doanh số bán hàng.
Các ngành bảo hiểm và ngân hàng sử dụng các ứng dụng khai thác dữ liệu để phát hiện gian lận và hỗ trợ đánh giá rủi ro như chấm điểm tín dụng.
Các công ty có thể thiết lập các mô hình thông qua cơ sở dữ liệu do họ thu thập trong nhiều năm để dự đoán liệu người dùng có phải là người có rủi ro tín dụng tốt hay không, hoặc liệu khiếu nại về tai nạn có gian lận hay không và phải được điều tra kỹ hơn.
Cộng đồng y tế sử dụng khai thác dữ liệu để dự đoán hiệu quả của một thủ thuật hoặc thuốc.
Các công ty dược phẩm sử dụng khai thác dữ liệu về các hợp chất hóa học và vật liệu di truyền để giúp nghiên cứu các phương pháp điều trị bệnh mới.
Các nhà bán lẻ có thể sử dụng dữ liệu thu thập được thông qua các chương trình sở thích (ví dụ:thẻ câu lạc bộ người mua hàng, điểm khách hàng thường xuyên, cuộc thi) để đánh giá hiệu quả của các quyết định lựa chọn và đặt sản phẩm, ưu đãi phiếu giảm giá và những sản phẩm nào thường được mua cùng nhau.
Các nhà cung cấp dịch vụ viễn thông và câu lạc bộ âm nhạc có thể sử dụng tính năng khai thác dữ liệu để tạo ra 'phân tích thời gian hoạt động', nhằm đánh giá xem người dùng nào có khả năng tiếp tục đăng ký và người dùng nào có khả năng chuyển sang đối thủ cạnh tranh.
Trong khu vực công, các ứng dụng khai thác dữ liệu ban đầu được sử dụng như một phương tiện để phát hiện gian lận và lãng phí, nhưng chúng đã phát triển để được sử dụng cho các mục đích bao gồm đo lường và nâng cao hiệu suất chương trình.