Khai phá dữ liệu là quá trình tìm kiếm các mối tương quan, các mẫu và xu hướng mới hữu ích bằng cách chuyển qua một lượng lớn dữ liệu được lưu trong các kho lưu trữ, sử dụng các công nghệ nhận dạng mẫu bao gồm các kỹ thuật thống kê và toán học. Đó là việc phân tích các tập dữ liệu thực tế để phát hiện ra các mối quan hệ không đáng nghi ngờ và để tóm tắt các bản ghi theo các phương pháp mới vừa hợp lý vừa hữu ích cho chủ sở hữu dữ liệu.
Khai phá dữ liệu là một lĩnh vực liên ngành, tập hợp của một loạt các lĩnh vực, chẳng hạn như hệ thống cơ sở dữ liệu, thống kê, học máy, trực quan hóa và khoa học dữ liệu. Tùy thuộc vào phương pháp khai thác dữ liệu được sử dụng, các kỹ thuật từ các lĩnh vực khác có thể được áp dụng, chẳng hạn như mạng nơ-ron, lý thuyết tập hợp mờ và / hoặc thô, biểu diễn tri thức, lập trình logic quy nạp hoặc tính toán hiệu suất cao.
Khai phá dữ liệu tương tự như Khoa học dữ liệu. Nó được thực hiện bởi một người, trong một tình huống cụ thể, trên một tập dữ liệu cụ thể, với một mục tiêu. Giai đoạn này chứa một số loại dịch vụ bao gồm khai thác văn bản, khai thác web, khai thác âm thanh và video, khai thác dữ liệu bằng hình ảnh và khai thác phương tiện truyền thông xã hội. Nó được hoàn thành thông qua phần mềm đơn giản hoặc rất cụ thể.
Bằng cách thuê ngoài khai thác dữ liệu, tất cả công việc có thể được thực hiện nhanh hơn với chi phí vận hành thấp. Các công ty cụ thể cũng có thể sử dụng các công nghệ mới để lưu dữ liệu không thể tìm thấy bằng tay. Có rất nhiều dữ liệu có sẵn trên nhiều nền tảng, nhưng kiến thức rất hạn chế có thể truy cập được.
Thách thức chính là phân tích dữ liệu để trích xuất dữ liệu thiết yếu có thể được sử dụng để giải quyết một vấn đề hoặc cho sự phát triển của công ty. Có nhiều công cụ và kỹ thuật năng động có sẵn để khai thác dữ liệu và khám phá khả năng phán đoán tốt hơn từ nó.
Các hạn chế của khai thác dữ liệu chủ yếu là dữ liệu hoặc liên quan đến nhân sự, thay vì liên quan đến công nghệ.
-
Phần mềm khai thác dữ liệu là những công cụ rất mạnh mẽ nhưng chúng không phải là những ứng dụng tự cung tự cấp. Nó có thể thành công và nó đòi hỏi các chuyên gia phân tích và kỹ thuật có tay nghề cao, những người có thể cấu trúc phân tích và diễn giải đầu ra được tạo ra.
-
Khai phá dữ liệu được sử dụng để lấy các mẫu và mối quan hệ, nó không cho người dùng biết giá trị hoặc tầm quan trọng của các mẫu này. Những loại xác định này phải do người dùng thực hiện.
-
Tính hợp lệ của các mẫu được phát hiện phụ thuộc vào cách chúng được so sánh với các trường hợp trong thế giới thực. Ví dụ:nó có thể đánh giá tính hợp lệ của các ứng dụng khai thác dữ liệu được thiết kế để xác định các nghi phạm khủng bố tiềm năng trong một nhóm lớn các cá nhân, người dùng có thể kiểm tra mô hình bằng cách sử dụng dữ liệu bao gồm thông tin về những kẻ khủng bố đã biết.
-
Khai phá dữ liệu có thể xác định các kết nối giữa các hành vi và các biến, nó không nhất thiết phải xác định mối quan hệ nhân quả. Ví dụ:một ứng dụng có thể xác định rằng một kiểu hành vi, chẳng hạn như xu hướng mua vé máy bay ngay trước khi chuyến bay dự kiến khởi hành, có liên quan đến các đặc điểm như thu nhập, trình độ học vấn và việc sử dụng internet.