Khai phá dữ liệu là giai đoạn khám phá các mối tương quan, mẫu và xu hướng mới hữu ích bằng cách chuyển qua một lượng lớn bản ghi được lưu trong kho lưu trữ, sử dụng công nghệ nhận dạng mẫu bao gồm các kỹ thuật thống kê và số. Đó là việc phân tích các tập dữ liệu thực tế để phát hiện ra các mối quan hệ không đáng nghi ngờ và để tóm tắt các bản ghi theo các phương pháp mới vừa hợp lý vừa hữu ích cho chủ sở hữu dữ liệu.
Đây là quy trình lựa chọn, thăm dò và mô hình hóa lượng thông tin lớn để tìm ra các quy luật hoặc các mối quan hệ mà thoạt đầu chưa biết để thu được kết quả rõ ràng và có lợi cho chủ sở hữu cơ sở dữ liệu.
Khai phá dữ liệu tương tự như Khoa học dữ liệu. Nó được thực hiện bởi một người, trong một tình huống cụ thể, trên một tập dữ liệu cụ thể, với một mục tiêu. Giai đoạn này chứa một số loại chức năng bao gồm khai thác văn bản, khai thác web, khai thác âm thanh và video, khai thác dữ liệu mô tả và khai thác phương tiện truyền thông xã hội. Nó được hoàn thành thông qua phần mềm đơn giản hoặc rất cụ thể.
Bằng cách thuê ngoài khai thác dữ liệu, tất cả công việc có thể được thực hiện nhanh hơn với chi phí vận hành thấp. Các công ty cụ thể cũng có thể sử dụng các công nghệ mới để lưu dữ liệu không thể tìm thấy bằng tay. Có rất nhiều dữ liệu có sẵn trên nhiều nền tảng, nhưng kiến thức rất hạn chế có thể truy cập được.
Thách thức chính là phân tích dữ liệu để trích xuất dữ liệu thiết yếu có thể được sử dụng để giải quyết một vấn đề hoặc cho sự phát triển của công ty. Có nhiều công cụ và kỹ thuật năng động có sẵn để khai thác dữ liệu và khám phá khả năng phán đoán tốt hơn từ nó.
Chức năng khai thác tập phổ biến thường xuyên rất phức tạp vì rất khó tìm thấy mối liên hệ chặt chẽ giữa các mục dữ liệu ở các phương pháp trừu tượng thấp hoặc nguyên thủy vì sự thưa thớt của thông tin trong không gian đa chiều.
Sự liên kết chặt chẽ được tìm thấy ở các cấp độ khái niệm cao có thể đại diện cho kiến thức thông thường nhưng những gì có thể đại diện cho ý thức chung đối với một người dùng có thể có vẻ mới đối với người khác. Do đó, yêu cầu khai thác dữ liệu phải cung cấp khả năng khai thác các quy tắc liên kết ở nhiều cấp độ trừu tượng và chuyển qua một cách đơn giản giữa nhiều không gian trừu tượng.
Có những lý do sau đây khiến việc khai thác các tập phổ biến thường xuyên gặp khó khăn.
-
Các phép tính cần thiết để tạo các quy tắc kết hợp phát triển theo cấp số nhân với số lượng mục và mức độ phức tạp của các quy tắc đang được xem xét.
-
Các mặt hàng được coi là giống hệt nhau ngoại trừ một đặc điểm nhận dạng, bao gồm cả loại sản phẩm. Không phải tất cả các vấn đề đều phù hợp với mô tả này.
-
Nhiệm vụ khó khăn nhất là xác định đúng tập hợp các mục để sử dụng trong phân tích. Bằng cách tổng quát hóa các mục, người ta có thể đảm bảo rằng tần suất của các mục được sử dụng trong phân tích là như nhau.
-
Rất khó để tạo các quy tắc kết hợp khi có những mục hiếm khi xảy ra trong rất ít giao dịch.