Khai phá dữ liệu là quá trình tìm kiếm các mối tương quan, các mẫu và xu hướng mới hữu ích bằng cách chuyển qua một lượng lớn dữ liệu được lưu trong các kho lưu trữ, sử dụng các công nghệ nhận dạng mẫu bao gồm các kỹ thuật thống kê và toán học. Đó là việc phân tích các tập dữ liệu thực tế để phát hiện ra các mối quan hệ không đáng nghi ngờ và để tóm tắt các bản ghi theo các phương pháp mới vừa hợp lý vừa hữu ích cho chủ sở hữu dữ liệu.
Đây là quy trình lựa chọn, thăm dò và mô hình hóa lượng thông tin lớn để tìm ra các quy luật hoặc các mối quan hệ mà thoạt đầu chưa biết để thu được kết quả rõ ràng và có lợi cho chủ sở hữu cơ sở dữ liệu.
Khai phá dữ liệu tương tự như Khoa học dữ liệu. Nó được thực hiện bởi một người, trong một tình huống cụ thể, trên một tập dữ liệu cụ thể, với một mục tiêu. Giai đoạn này chứa một số loại dịch vụ bao gồm khai thác văn bản, khai thác web, khai thác âm thanh và video, khai thác dữ liệu bằng hình ảnh và khai thác phương tiện truyền thông xã hội. Nó được hoàn thành thông qua phần mềm đơn giản hoặc rất cụ thể.
Bằng cách thuê ngoài khai thác dữ liệu, tất cả công việc có thể được thực hiện nhanh hơn với chi phí vận hành thấp. Các công ty cụ thể cũng có thể sử dụng các công nghệ mới để lưu dữ liệu không thể tìm thấy bằng tay. Có rất nhiều dữ liệu có sẵn trên nhiều nền tảng, nhưng kiến thức rất hạn chế có thể truy cập được.
Thách thức chính là phân tích dữ liệu để trích xuất dữ liệu thiết yếu có thể được sử dụng để giải quyết một vấn đề hoặc cho sự phát triển của công ty. Có nhiều công cụ và kỹ thuật năng động có sẵn để khai thác dữ liệu và khám phá khả năng phán đoán tốt hơn từ nó.
Khai thác dữ liệu còn được gọi là Khám phá tri thức trong cơ sở dữ liệu (KDD) . Khám phá tri thức dưới dạng một quá trình bao gồm một chuỗi lặp đi lặp lại các bước sau -
-
Làm sạch dữ liệu - Nó có thể loại bỏ nhiễu và thông tin không nhất quán.
-
Tích hợp dữ liệu - Trong tích hợp dữ liệu, nơi một số nguồn dữ liệu có thể được kết nối.
-
Lựa chọn dữ liệu - Trong lựa chọn dữ liệu, nơi dữ liệu liên quan đến chức năng phân tích được tìm nạp từ cơ sở dữ liệu.
-
Chuyển đổi dữ liệu - Trong quá trình chuyển đổi dữ liệu, nơi dữ liệu được chuyển đổi hoặc liên kết thành các biểu mẫu áp dụng cho việc khai thác bằng cách thực hiện các phép toán tổng hợp hoặc tóm tắt.
-
Khai thác dữ liệu - Đây là một giai đoạn quan trọng trong đó các phương pháp thông minh được sử dụng để trích xuất các mẫu dữ liệu.
-
Đánh giá mẫu - Nó có thể nhận ra các mẫu thực sự thú vị xác định kiến thức dựa trên một số biện pháp thú vị.
-
Trình bày kiến thức - Trong phần trình bày kiến thức, nơi các phương pháp trực quan và biểu diễn tri thức được sử dụng để cung cấp kiến thức đã được khai thác cho khách hàng.