Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các thành phần của trình thu thập dữ liệu web tập trung là gì?

Có nhiều thành phần khác nhau của trình thu thập thông tin web tập trung như sau -

Máy dò hạt giống - Dịch vụ của trình dò ​​hạt giống là quyết định các URL gốc cho từ khóa xác định bằng cách tìm nạp n URL đầu tiên. Các trang gốc được xác định và chỉ định mức độ ưu tiên tùy thuộc vào thuật toán Xếp hạng trang hoặc thuật toán lượt truy cập hoặc thuật toán tương tự như thuật toán đó.

Trình quản lý trình thu thập thông tin - Trình quản lý Trình thu thập thông tin là một thành phần thiết yếu của hệ thống sau Trình phân tích siêu văn bản. Thành phần tải xuống các tệp từ web toàn cầu. Các URL trong kho lưu trữ URL được truy xuất và tạo vào bộ đệm trong Trình quản lý trình thu thập thông tin.

Bộ đệm URL là một hàng đợi ưu tiên. Tùy thuộc vào kích thước của bộ đệm URL, Trình quản lý thu thập thông tin sẽ tự động tạo một phiên bản cho trình thu thập thông tin, phiên bản này sẽ tải xuống các tệp.

Để có hiệu quả hơn, trình quản lý trình thu thập thông tin có thể tạo nhóm trình thu thập thông tin. Người quản lý cũng có thể chịu trách nhiệm về việc giới hạn tốc độ của các trình thu thập thông tin và cân bằng tải giữa chúng. Việc này được hoàn thành bằng cách kiểm tra các trình thu thập thông tin.

Trình thu thập thông tin - Trình thu thập thông tin là một mã Java đa luồng, đủ để tải xuống các trang web từ web và lưu các tệp trong kho tài liệu. Mỗi trình thu thập thông tin đều có hàng đợi của nó, điều này ảnh hưởng đến danh sách các URL sẽ được thu thập thông tin. Trình thu thập thông tin đã truy xuất URL từ hàng đợi.

Các trình thu thập thông tin khác nhau sẽ chia sẻ một yêu cầu đến một máy chủ tương tự. Do đó việc gửi yêu cầu đến một máy chủ tương tự sẽ dẫn đến quá tải máy chủ. Máy chủ đang hoạt động để hoàn thành yêu cầu phải xuất hiện từ các trình thu thập thông tin đã chia sẻ yêu cầu và mong nhận được phản hồi.

Máy chủ được tạo đồng bộ. Nếu yêu cầu cho URL chưa được chia sẻ trước đó, thì yêu cầu sẽ được chuyển tiếp đến cấu trúc HTTP. Điều này đảm bảo rằng trình thu thập thông tin không làm quá tải một số máy chủ.

Trình trích xuất liên kết - Trình trích xuất liên kết dẫn xuất kết nối từ các tệp có trong kho tài liệu. Thành phần kiểm tra URL có trong URL được truy xuất. Nếu không được phát hiện, văn bản xung quanh trước và sau siêu kết nối, tiêu đề hoặc tiêu đề phụ mà kết nối hiện diện, sẽ được trích xuất.

Trình phân tích siêu văn bản - Trình phân tích siêu văn bản lấy các từ khóa từ Trình trích xuất liên kết và phát hiện ra mức độ phù hợp của các phương pháp với từ khóa tìm kiếm xác định Hệ thống phân loại.

Mô-đun giao thức HTTP - Mô-đun Giao thức HTTP chia sẻ yêu cầu đối với các tệp có URL đã được xác nhận từ hàng đợi. Khi nhận được tài liệu, URL của tài liệu đã tải xuống được lưu trữ trong URL được tải xuống cùng với dấu thời gian và tài liệu được lưu trữ trong kho tài liệu.