Khai phá web là ứng dụng của phương pháp học máy (khai thác dữ liệu) đối với dữ liệu dựa trên web nhằm mục đích học tập hoặc thu thập kiến thức. Phương pháp khai thác web có thể được định nghĩa thành một trong ba yếu tố riêng biệt như sau -
Khai thác sử dụng web - Khai thác sử dụng web là một loại khai thác web cho phép thiết lập dữ liệu truy cập Web cho các trang Web. Dữ liệu sử dụng này hỗ trợ hướng dẫn đến các trang Web được truy cập.
Dữ liệu này được thu thập tự động vào nhật ký kết nối thông qua máy chủ Web. Tập lệnh CGI cung cấp dữ liệu hữu ích bao gồm nhật ký liên kết giới thiệu, dữ liệu đăng ký người dùng và nhật ký khảo sát. Danh mục này rất cần thiết để sử dụng đầy đủ tính năng khai thác dữ liệu cho tổ chức và các ứng dụng dựa trên internet / mạng nội bộ và truy cập dữ liệu của họ.
Khai thác sử dụng cho phép các công ty tạo dữ liệu hiệu quả về tương lai khả năng phục vụ kinh doanh của họ. Nhiều dữ liệu khác nhau có thể được lấy từ dữ liệu tổng hợp về giá trị lâu dài của người dùng, các phương pháp tiếp thị chéo sản phẩm và hiệu quả của chiến dịch quảng cáo.
Dữ liệu sử dụng được thu thập cung cấp cho tổ chức khả năng tạo ra kết quả hiệu quả hơn cho doanh nghiệp của họ và nâng cao doanh số bán hàng. Hồ sơ sử dụng cũng có thể có lợi cho việc tạo ra các kỹ năng tiếp thị sẽ bán chạy hơn đối thủ cạnh tranh và nâng cao dịch vụ hoặc sản phẩm của công ty ở cấp độ lớn hơn.
Khai thác cấu trúc web - Khai phá cấu trúc Web là công cụ có thể nhận biết mối quan hệ giữa các trang Web được liên kết bằng dữ liệu hoặc kết nối liên kết trực tiếp. Thông tin cấu trúc này có thể được khám phá bằng cách sắp xếp lược đồ cấu trúc web thông qua các phương pháp tiếp cận cơ sở dữ liệu cho các trang Web.
Kết nối này cho phép công cụ tìm kiếm kéo trực tiếp các bản ghi liên quan đến truy vấn tìm kiếm đến trang Web kết nối từ trang web chứa nội dung. Quá trình hoàn thành này diễn ra thông qua nhu cầu của các trình thu thập thông tin duyệt các trang web, tìm nạp trang chủ, sau đó kết nối thông tin thông qua các liên kết tham chiếu để đưa ra trang xác định bao gồm dữ liệu mong muốn.
Mục tiêu của khai thác cấu trúc là tìm ra các mối quan hệ chưa biết trước đây giữa các trang Web. Cấu trúc khai thác dữ liệu này hỗ trợ việc sử dụng một doanh nghiệp để liên kết dữ liệu trên trang web của họ để cho phép điều hướng và dữ liệu cụm vào bản đồ trang web. Điều này cho phép người dùng của nó khả năng truy cập dữ liệu mong muốn thông qua quan hệ từ khóa và khai thác nội dung.
Khai thác nội dung web - Khai thác nội dung web là việc duyệt và khai thác văn bản, hình ảnh và đồ thị của một trang Web để quyết định mức độ phù hợp của nội dung với truy vấn tìm kiếm.
Quá trình duyệt này được thực hiện sau khi phân nhóm các trang web thông qua khai thác cấu trúc và hỗ trợ kết quả tùy thuộc vào mức độ liên quan đến truy vấn đã gửi. Với một lượng lớn dữ liệu có thể truy cập được trên World Wide Web, khai thác nội dung hỗ trợ danh sách kết quả cho các công cụ tìm kiếm theo một loạt các mức độ liên quan lớn nhất đến các từ khóa trong truy vấn.