Computer >> Máy Tính >  >> Lập trình >> Lập trình

Làm cách nào chúng ta có thể sử dụng các trang trung tâm để tìm các trang có thẩm quyền?

Trung tâm là một tập hợp các trang Web hỗ trợ các tập hợp các liên kết đến các cơ quan chức năng. Các trang trung tâm không được nổi bật hoặc có thể tồn tại một số liên kết trỏ đến chúng; tuy nhiên, chúng hỗ trợ các liên kết đến một tập hợp các trang web nổi bật về một chủ đề chung.

Các trang như vậy có thể là danh sách các kết nối được đề xuất trên các trang chủ đơn lẻ, bao gồm các trang web tham khảo được đề xuất từ ​​trang chủ của khóa học, hoặc các tài liệu tài nguyên được tập hợp chuyên nghiệp trên các trang thương mại. Các trang trung tâm đóng một vai trò thiết yếu trong việc ủy ​​quyền ngầm cho các cơ quan có thẩm quyền về một chủ đề được nhắm mục tiêu.

Nói chung, một trung tâm tốt là một trang chỉ ra một số cơ quan có thẩm quyền tốt; một cơ quan tốt là một trang được chỉ ra bởi một số trung tâm tốt. Mối quan hệ củng cố lẫn nhau như vậy giữa các trung tâm và cơ quan chức năng hỗ trợ việc khai thác các trang Web có thẩm quyền và tự động khám phá các tài nguyên và kiến ​​trúc Web chất lượng cao.

Một thuật toán sử dụng các trung tâm, được gọi là HITS (Tìm kiếm chủ đề do siêu kết nối), được tạo ra như sau. Đầu tiên, HITS cần các cụm từ truy vấn để thu thập một tập hợp ban đầu, chẳng hạn, 200 trang từ một công cụ tìm kiếm dựa trên chỉ mục. Các trang này thiết kế tập hợp cốt lõi.

Bởi vì một số trang có lẽ có liên quan đến chủ đề tìm kiếm, một số trang trong số đó phải bao gồm các liên kết đến hầu hết các cơ quan có thẩm quyền nổi tiếng. Do đó, tập hợp cốt lõi có thể được mở rộng thành tập hợp cơ sở bằng cách liên quan đến một số trang mà các trang tập hợp cốt lõi liên kết đến và một số trang liên kết đến một trang trong tập hợp cốt lõi, tối đa kích thước được chỉ định bao gồm 1.000 đến 5.000 trang (được chứa trong tập cơ sở).

Thứ hai, một quá trình truyền trọng lượng được bắt đầu. Giai đoạn lặp đi lặp lại này quyết định các ước tính thống kê về trọng số của trung tâm và cơ quan. Có các liên kết giữa hai trang có tên miền Web tương tự (tức là gửi cùng cấp đầu tiên trong URL của chúng) đóng vai trò như một dịch vụ điều hướng và do đó không cấp quyền. Các liên kết như vậy không được phép từ phân tích truyền tải trọng số.

Thuật toán Xếp hạng trang của Google phụ thuộc vào cùng một nguyên tắc. Bằng cách khám phá các liên kết Web và dữ liệu ngữ cảnh văn bản, người ta đã ghi nhận rằng các hệ thống như vậy có thể thu được kết quả tìm kiếm chất lượng cao hơn so với kết quả tìm kiếm được tạo bởi các công cụ chỉ mục thuật ngữ như AltaVista và những kết quả được tạo bởi các nhà bản thể học con người bao gồm cả tại Yahoo!

Các thuật toán phân tích liên kết phụ thuộc vào hai giả thiết sau. Đầu tiên, các liên kết gửi sự chứng thực của con người. Nếu tồn tại một liên kết từ trang A đến trang B và hai trang này là tác giả của nhiều người, thì liên kết sử dụng mà tác giả của trang A nhận thấy trang B có giá trị. Do đó, tầm quan trọng của một trang có thể được nâng lên đối với những trang mà nó liên kết đến. Thứ hai, các trang được đồng trích dẫn bởi một trang cụ thể có thể được liên kết với cùng một chủ đề.