Trình thu thập thông tin web tập trung là một hệ thống siêu văn bản điều tra, thu thập, lập chỉ mục và hỗ trợ các trang trên một nhóm đối tượng xác định xác định một phân đoạn tương đối hẹp của web. Nó đòi hỏi một khoản đầu tư rất nhỏ vào phần cứng và tài nguyên web nhưng vẫn quản lý được phạm vi phủ sóng đáng nể với tốc độ nhanh chóng, đơn giản vì việc đó tương đối nhỏ.
Trình thu thập thông tin web tập trung được thực hiện bởi một trình phân loại học cách xác định mức độ liên quan từ các ví dụ được nhúng trong phân loại chủ đề và trình chưng cất nhận biết các điểm thuận lợi theo chủ đề trên internet.
Trình thu thập dữ liệu web tập trung sử dụng các công cụ tìm kiếm dọc để thu thập thông tin các trang web cụ thể cho một chủ đề mục tiêu. Mỗi trang được tìm nạp được phân loại thành (các) chủ đề mục tiêu được xác định trước. Nếu trang được dự đoán là về chủ đề, thì các liên kết của trang đó sẽ được trích xuất và được nối vào hàng đợi URL.
Nếu không, quá trình thu thập thông tin sẽ không diễn ra từ trang này. Loại trình thu thập thông tin web tập trung này được gọi là trình thu thập thông tin web tập trung "toàn trang" vì nó phân loại nội dung toàn trang. Nói một cách khác, ngữ cảnh của tất cả các kết nối trên trang là nội dung toàn trang.
Loại trình thu thập thông tin web này tạo ra việc lập chỉ mục hiệu quả hơn, trực tiếp giúp chúng tôi đạt được yêu cầu cơ bản là truy xuất dữ liệu nhanh hơn và có liên quan hơn từ kho lưu trữ khổng lồ của World Wide Web. Có một số công cụ tìm kiếm đã bắt đầu sử dụng phương pháp này để cung cấp cho người dùng trải nghiệm phong phú hơn trong khi tạo nội dung web trực tiếp tăng số lượt truy cập của họ.
Trình quản lý trình thu thập thông tin là một phần tử quan trọng của hệ thống sau Trình phân tích siêu văn bản. Thành phần tải xuống các tệp từ web toàn cầu. Các URL trong kho lưu trữ URL được khôi phục và tạo vào bộ đệm trong Trình quản lý trình thu thập thông tin.
Bộ đệm URL là một hàng đợi ưu tiên. Tùy thuộc vào kích thước của bộ đệm URL, trình quản lý trình thu thập thông tin sẽ tự động tạo một phiên bản cho trình thu thập thông tin, phiên bản này sẽ tải xuống các tệp. Để có hiệu quả hơn, trình quản lý trình thu thập thông tin có thể tạo nhóm trình thu thập thông tin. Người quản lý cũng có thể chịu trách nhiệm về việc giới hạn tốc độ của các trình thu thập thông tin và cân bằng tải giữa chúng. Việc này được hoàn thành bằng cách kiểm tra các trình thu thập thông tin.
Trình thu thập thông tin là một mã Java đa luồng, mã này đủ để tải các trang web từ internet và lưu các tệp trong kho tài liệu. Mỗi trình thu thập thông tin đều có hàng đợi của nó, điều này ảnh hưởng đến tệp URL được thu thập thông tin. Trình thu thập thông tin đã khôi phục URL từ hàng đợi.
Các trình thu thập thông tin khác nhau sẽ chia sẻ một yêu cầu đến cùng một máy chủ. Nếu vậy, việc gửi yêu cầu đến một máy chủ tương tự sẽ dẫn đến quá tải máy chủ. Máy chủ đang hoạt động để hoàn thành yêu cầu phải xuất hiện từ các trình thu thập thông tin đã chia sẻ yêu cầu và mong nhận được phản hồi.