Computer >> Máy Tính >  >> Lập trình >> Lập trình

Thuật toán xếp hạng trang trong khai thác web là gì?

PageRank là một phương pháp đánh giá các trang Web một cách khách quan và máy móc, chú ý đến sự quan tâm của con người. Các công cụ tìm kiếm web phải tổ chức với các khách hàng thiếu kinh nghiệm và các trang thao tác các dịch vụ xếp hạng thông thường. Một số phương pháp đánh giá tính các bản chất có thể sao chép của các trang Web không được sử dụng để thao túng.

Nhiệm vụ là tận dụng cấu trúc siêu kết nối của trang Web để tạo ra bảng xếp hạng mức độ quan trọng toàn cầu của mọi trang Web. Xếp hạng này được gọi là Xếp hạng Trang.

Cơ chế của Web phụ thuộc vào một biểu đồ với khoảng 150 triệu nút (trang Web) và 1,7 tỷ cạnh (siêu liên kết). Nếu các trang Web A và B liên kết đến trang C, A và B được gọi là liên kết ngược của C. Nói chung, các trang được liên kết cao quan trọng hơn. Do đó, họ có nhiều liên kết ngược hơn và các liên kết ngược quan trọng có số lượng ít hơn.

Ví dụ, một trang web có một liên kết ngược riêng lẻ từ Yahoo phải được xếp hạng cao hơn một trang có nhiều liên kết ngược từ các trang không xác định hoặc riêng tư. Một trang Web có thứ hạng rất lớn nếu tổng thứ hạng của các liên kết ngược của nó quá lớn.

Sau đây là phiên bản đơn giản của Xếp hạng trang:Gọi u, v là các trang Web. Do đó, gọi Bu là nhóm các trang trỏ đến u. Hơn nữa, hãy cho Nv là nhiều liên kết từ v. Đặt c <1 là một hệ số để chuẩn hóa. Nó có thể mô tả xếp hạng đơn giản R, là cách hiểu đơn giản hơn về Xếp hạng trang -

$$ \ mathrm {R (u) \:=\:c \ displaystyle \ sum \ limit_ {u \ in {Bu}} \ frac {R (v)} {N_v}} $$

Thứ hạng của một trang được phân chia đồng đều giữa các kết nối chuyển tiếp của nó để cung cấp cho thứ hạng của các trang mà chúng cũng đánh dấu. Phương trình là đệ quy nhưng có một vấn đề với hàm đơn giản này.

Nếu hai trang Web trỏ đến nhau nhưng không có trang nào khác trong khi một số trang khác trỏ đến một trong số chúng, một vòng lặp sẽ được tạo ra trong quá trình lặp lại. Vòng lặp này sẽ tập hợp thứ hạng nhưng sẽ không bao giờ chia sẻ bất kỳ thứ hạng nào. Cái bẫy này được hình thành bởi các vòng lặp trong một biểu đồ không có điểm vượt trội được gọi là sự sụt giảm thứ hạng.

Thuật toán Xếp hạng Trang bắt đầu bằng việc chuyển đổi mọi URL từ cơ sở dữ liệu thành một số. Giai đoạn tiếp theo là lưu từng siêu kết nối trong cơ sở dữ liệu bằng cách sử dụng các ID số nguyên để nhận dạng các trang Web. Quá trình lặp được bắt đầu sau khi sắp xếp cấu trúc liên kết theo ID gốc và xóa các liên kết treo.

Nhiệm vụ ban đầu tốt nhất phải được chọn để tăng tốc độ hội tụ. Các trọng số từ bước thời gian hiện tại được lưu trong bộ nhớ và các trọng số trước đó được truy cập trên đĩa theo thời gian tuyến tính. Sau khi các trọng số đã hội tụ, kết nối lơ lửng được chèn trở lại và thứ hạng được tính toán lại. Việc tính toán triển khai tốt nhưng có thể được thực hiện nhanh hơn bằng cách nới lỏng các tiêu chí hội tụ và sử dụng các phương pháp tối ưu hóa hiệu quả hơn.