Khai thác dữ liệu
Khai phá dữ liệu là quá trình khám phá các mối tương quan, các mẫu và xu hướng mới có ý nghĩa bằng cách chuyển dịch qua một lượng lớn dữ liệu được lưu trữ trong các kho lưu trữ, sử dụng các công nghệ nhận dạng mẫu cũng như các kỹ thuật thống kê và toán học. Tóm tắt dữ liệu theo những cách mới lạ, dễ hiểu và có lợi cho chủ sở hữu dữ liệu.
Đây là quá trình lựa chọn, khám phá và mô hình hóa số lượng lớn dữ liệu để khám phá các quy luật hoặc quan hệ mà thoạt đầu chưa biết để thu được kết quả rõ ràng và hữu ích cho chủ sở hữu cơ sở dữ liệu. Khai thác dữ liệu là quy trình thăm dò và phân tích bằng cách xác định tự động hoặc bán tự động một lượng lớn dữ liệu để tìm ra các mẫu và quy tắc có ý nghĩa.
Khai phá dữ liệu tương tự như Khoa học dữ liệu. Nó được thực hiện bởi một người, trong một tình huống cụ thể, trên một tập dữ liệu cụ thể, với một mục tiêu. Quá trình này bao gồm các loại dịch vụ khác nhau như khai thác văn bản, khai thác web, khai thác âm thanh và video, khai thác dữ liệu hình ảnh và khai thác phương tiện truyền thông xã hội. Nó được hoàn thành thông qua phần mềm đơn giản hoặc cực kỳ cụ thể.
Bằng cách thuê ngoài khai thác dữ liệu, tất cả công việc có thể được hoàn thành nhanh hơn với chi phí vận hành thấp. Các công ty chuyên biệt cũng có thể sử dụng các công nghệ mới để thiết lập dữ liệu mà không thể xác định được bằng tay. Có rất nhiều thông tin có sẵn trên các dạng nền khác nhau, nhưng rất ít kiến thức có thể truy cập được.
Thách thức lớn nhất là phân tích dữ liệu để trích xuất thông tin quan trọng có thể được sử dụng để giải quyết một vấn đề hoặc để phát triển công ty. Có nhiều công cụ và kỹ thuật mạnh mẽ có sẵn để khai thác dữ liệu và tìm hiểu thông tin chi tiết hơn từ nó.
Khai thác web
Khai thác web xác định quy trình sử dụng các kỹ thuật khai thác dữ liệu để trích xuất các xu hướng và dữ liệu có lợi nói chung với sự trợ giúp của web bằng cách xử lý nó từ các bản ghi và dịch vụ dựa trên web, nhật ký máy chủ và siêu liên kết. Mục tiêu chính của khai thác web là tìm ra các thiết kế trong dữ liệu web bằng cách thu thập và phân tích dữ liệu để có được những thông tin chi tiết quan trọng.
Khai thác web có thể được coi là ứng dụng của các kỹ thuật khai thác dữ liệu được điều chỉnh cho phù hợp với internet, trong khi khai thác dữ liệu được biểu thị bằng việc áp dụng thuật toán để tìm các mẫu trên hầu hết dữ liệu có cấu trúc được cố định trong một quá trình khám phá có kiến thức.
Khai thác web có các tính năng đặc biệt để cung cấp một tập hợp nhiều kiểu dữ liệu. Web có một số khía cạnh mang lại nhiều cách tiếp cận cho quá trình khai thác, bao gồm các trang web bao gồm văn bản, các trang web được kết nối qua siêu liên kết và hoạt động của người dùng có thể được giám sát thông qua nhật ký máy chủ web.