Khai phá web có thể được xem rộng rãi là ứng dụng của các phương pháp khai thác dữ liệu được điều chỉnh cho web, trong khi khai thác dữ liệu được biểu thị là ứng dụng của thuật toán để tìm các mẫu trên hầu hết dữ liệu có cấu trúc được cố định trong một quá trình khám phá có kiến thức.
Khai thác trên web có một thuộc tính đặc biệt là hỗ trợ tập hợp nhiều loại dữ liệu. nhật ký máy chủ.
Dựa trên những quan sát sau, Web cũng đặt ra những thách thức lớn cho việc khám phá tài nguyên và kiến thức hiệu quả.
Có vẻ như Web quá lớn để lưu trữ dữ liệu và khai thác dữ liệu hiệu quả - Kích thước của trang Web theo thứ tự hàng trăm terabyte và vẫn đang tăng lên nhanh chóng. Một số tổ chức và xã hội đặt một số dữ liệu có thể truy cập công cộng trên Web. Nó có thể áp dụng để thiết lập một kho dữ liệu để sao chép, lưu hoặc tích hợp một số dữ liệu trên Web.
Mức độ phức tạp của các trang Web lớn hơn nhiều so với bất kỳ bộ sưu tập tài liệu văn bản truyền thống nào - Các trang web thiếu một cấu trúc thống nhất. Chúng chứa nhiều biến thể về phong cách tác giả và nội dung hơn bất kỳ bộ sách nào hoặc tài liệu dựa trên văn bản truyền thống nào khác.
Web được coi như một thư viện kỹ thuật số khổng lồ; nhưng, số lượng lớn các bản ghi trong thư viện này không được sắp xếp theo bất kỳ thứ tự sắp xếp cụ thể nào. Không có lập chỉ mục theo phần tử, cũng không theo tiêu đề, tác giả, trang bìa, mục lục, v.v. Có thể rất khó khăn để tìm kiếm thông tin bạn mong muốn trong một thư viện như vậy.
Web là một nguồn thông tin rất động - Web không chỉ phát triển nhanh chóng mà thông tin của nó cũng được cập nhật liên tục. Tin tức, thị trường chứng khoán, thời tiết, thể thao, mua sắm, quảng cáo của công ty, và nhiều trang Web khác được cập nhật thường xuyên trên Web. Thông tin liên kết và hồ sơ truy cập cũng được cập nhật thường xuyên.
Web phục vụ đa dạng cộng đồng người dùng - Internet hiện đang kết nối hơn 100 triệu máy trạm và cộng đồng người dùng của nó vẫn đang được mở rộng nhanh chóng. Người dùng có thể có nhiều nền tảng, sở thích và mục tiêu sử dụng.
Một số người dùng có thể không có kiến thức tốt nhất về cấu trúc của mạng dữ liệu và không thể nhận thức được chi phí khổng lồ của một tìm kiếm cụ thể. Họ có thể dễ dàng bị lạc khi mò mẫm trong “bóng tối” của mạng hoặc cảm thấy nhàm chán khi thực hiện nhiều “bước nhảy” truy cập và nóng lòng chờ đợi một thông tin.