Làm cách nào BeautifulSoup có thể được sử dụng để trích xuất các liên kết ‘href’ từ một trang web?

BeautifulSoup là thư viện Python của bên thứ ba được sử dụng để phân tích cú pháp dữ liệu từ các trang web. Nó giúp ích trong việc tìm kiếm web, là một quá trình trích xuất, sử dụng và thao tác dữ liệu từ các tài nguyên khác nhau.

Việc thu thập dữ liệu trên web cũng có thể được sử dụng để trích xuất dữ liệu cho mục đích nghiên cứu, hiểu / so sánh xu hướng thị trường, thực hiện giám sát SEO, v.v.

Có thể chạy dòng dưới đây để cài đặt BeautifulSoup trên Windows -

pip install beautifulsoup4

Sau đây là một ví dụ -

Ví dụ

from bs4 import BeautifulSoup
import requests
url = "https://en.wikipedia.org/wiki/Algorithm"
req = requests.get(url)
soup = BeautifulSoup(req.text, "html.parser")
print("The href links are :")
for link in soup.find_all('a'):
   print(link.get('href'))

Đầu ra

The href links are :
…
https://stats.wikimedia.org/#/en.wikipedia.org
https://foundation.wikimedia.org/wiki/Cookie_statement
https://wikimediafoundation.org/
https://www.mediawiki.org/

Giải thích

Các gói bắt buộc được nhập và được đặt bí danh.
Trang web được xác định.
Url được mở và dữ liệu được đọc từ nó.
Chức năng 'BeautifulSoup' được sử dụng để trích xuất văn bản từ trang web.
Hàm 'find_all' được sử dụng để trích xuất văn bản từ dữ liệu trang web.
Các liên kết href được in trên bảng điều khiển.