Computer >> Máy Tính >  >> Lập trình >> Python

Triển khai quét web bằng lxml trong Lập trình Python

Trong bài viết này, chúng ta sẽ tìm hiểu về kỹ thuật duyệt web bằng cách sử dụng mô-đun lxml có sẵn trong Python.

Tìm kiếm web là gì?

Tính năng quét web được sử dụng để lấy / lấy dữ liệu từ một trang web với sự trợ giúp của trình thu thập thông tin / máy quét. Gỡ bỏ trang web rất hữu ích để trích xuất dữ liệu từ một trang web không cung cấp chức năng của một API. Trong python, việc quét web có thể được thực hiện với sự trợ giúp của nhiều mô-đun khác nhau như Beautiful Soup, Scrappy &lxml.

Ở đây chúng ta sẽ thảo luận về việc tìm kiếm web bằng cách sử dụng mô-đun lxml.

Để làm được điều đó, trước tiên chúng ta cần cài đặt lxml.

Gõ vào dòng lệnh hoặc dấu nhắc lệnh -

>>> pip install lxml

Ở đây xpath được sử dụng để truy cập dữ liệu.

Trong bài viết này, chúng tôi sẽ trích xuất dữ liệu từ trang web được gọi là steam chứa thông tin về các trò chơi khác nhau.

https://store.steampowered.com/genre/Free%20to%20Play/

Trên trang, chúng tôi sẽ cố gắng trích xuất thông tin từ phần các bản phát hành mới phổ biến. Ở đây chúng tôi sẽ trích xuất tên, giá, thẻ được liên kết và nền tảng mục tiêu.

Triển khai quét web bằng lxml trong Lập trình Python

Trên trang, hãy xem mã Html của tab bản phát hành mới bằng cách sử dụng tính năng phần tử kiểm tra trong chrome. Tại đây, chúng ta sẽ biết thẻ nào đang lưu trữ thông tin cần thiết.

Đây trong trang web này; mọi phần tử danh sách được đóng gói trong thẻ div id =tab_content, thẻ này được đóng gói thêm trong

a div tag id=tab_select_newreleases

Bây giờ chúng ta hãy xem việc triển khai