Computer >> Máy Tính >  >> Lập trình >> Lập trình

Lịch sử khai thác dữ liệu là gì?

Khai phá dữ liệu là quá trình tìm kiếm các mối tương quan, các mẫu và xu hướng mới hữu ích bằng cách chuyển qua một lượng lớn dữ liệu được lưu trong các kho lưu trữ, sử dụng các công nghệ nhận dạng mẫu bao gồm các kỹ thuật thống kê và toán học. Đó là việc phân tích các tập dữ liệu thực tế để phát hiện ra các mối quan hệ không đáng nghi ngờ và để tóm tắt các bản ghi theo các phương pháp mới vừa hợp lý vừa hữu ích cho chủ sở hữu dữ liệu.

Đây là quy trình lựa chọn, thăm dò và mô hình hóa lượng thông tin lớn để tìm ra các quy luật hoặc các mối quan hệ mà thoạt đầu chưa biết để thu được kết quả rõ ràng và có lợi cho chủ sở hữu cơ sở dữ liệu.

Khai phá dữ liệu tương tự như Khoa học dữ liệu. Nó được thực hiện bởi một người, trong một tình huống cụ thể, trên một tập dữ liệu cụ thể, với một mục tiêu. Giai đoạn này chứa một số loại dịch vụ bao gồm khai thác văn bản, khai thác web, khai thác âm thanh và video, khai thác dữ liệu bằng hình ảnh và khai thác phương tiện truyền thông xã hội. Nó được hoàn thành thông qua phần mềm đơn giản hoặc rất cụ thể.

Bằng cách thuê ngoài khai thác dữ liệu, tất cả công việc có thể được thực hiện nhanh hơn với chi phí vận hành thấp. Các công ty cụ thể cũng có thể sử dụng các công nghệ mới để lưu dữ liệu không thể tìm thấy bằng tay. Có rất nhiều dữ liệu có sẵn trên nhiều nền tảng, nhưng kiến ​​thức rất hạn chế có thể truy cập được.

Cách tiếp cận tìm kiếm các mẫu hữu ích trong dữ liệu đã được đặt một số tên, bao gồm khai thác dữ liệu, trích xuất kiến ​​thức, khám phá dữ liệu, thu thập dữ liệu, khảo cổ học dữ liệu và xử lý mẫu dữ liệu. Khai thác dữ liệu đã được sử dụng bởi các nhà thống kê, nhà phân tích dữ liệu và cộng đồng hệ thống thông tin quản lý (MIS).

Nó cũng đã được cải thiện phổ biến trong khu vực cơ sở dữ liệu. Quá trình khám phá tri thức trong cơ sở dữ liệu được phát minh tại hội thảo KDD đầu tiên vào năm 1989 (Piatetsky-Shapiro 1991) để duy trì rằng tri thức là sản phẩm cuối cùng của quá trình khám phá theo hướng dữ liệu. Nó đã được phổ biến trong lĩnh vực trí tuệ nhân tạo và máy học.

KDD xác định quy trình hoàn chỉnh để khám phá kiến ​​thức hữu ích từ dữ liệu và khai thác dữ liệu xác định một bước cụ thể trong quy trình này. Khai phá dữ liệu là việc áp dụng các thuật toán cụ thể để trích xuất các mẫu từ dữ liệu. Điểm khác biệt giữa quy trình KDD và bước khai thác dữ liệu (trong quy trình) là điểm chính của đối tượng này.

Các bước tiếp theo trong quy trình KDD, bao gồm chuẩn bị dữ liệu, lựa chọn dữ liệu, làm sạch dữ liệu, tích hợp kiến ​​thức thích hợp trước đó và phân tích thích hợp kết quả khai thác, là điều quan trọng để cung cấp rằng kiến ​​thức hữu ích được thay đổi từ dữ liệu.

Việc áp dụng một cách mù quáng các kỹ thuật khai thác dữ liệu (bị từ chối ngay lập tức như nạo vét dữ liệu trong tài liệu thống kê) có thể là một hoạt động nguy hiểm, dễ dẫn đến việc phát hiện ra các thiết kế vô nghĩa và không hợp lệ.