Computer >> Máy Tính >  >> Lập trình >> Python

Làm cách nào để trích xuất tiêu đề từ một trang web bằng BeautifulSoup?


BeautifulSoup là thư viện Python của bên thứ ba được sử dụng để phân tích cú pháp dữ liệu từ các trang web. Nó giúp các nhà phát triển trong các ứng dụng Xử lý ngôn ngữ tự nhiên, giúp phân tích dữ liệu và trích xuất thông tin chi tiết về ý nghĩa từ nó.

Xử lý ngôn ngữ tự nhiên, hay NLP là một phần của Học máy xử lý dữ liệu văn bản và các cách xử lý trước để cung cấp dữ liệu làm đầu vào cho một vấn đề về Học máy.

Việc thu thập dữ liệu trên web cũng có thể được sử dụng để trích xuất dữ liệu cho mục đích nghiên cứu, hiểu / so sánh xu hướng thị trường, thực hiện giám sát SEO, v.v.

Có thể chạy dòng dưới đây để cài đặt BeautifulSoup trên Windows -

pip install beautifulsoup4

Sau đây là một ví dụ -

Ví dụ

from bs4 import BeautifulSoup
import requests
url = "https://en.wikipedia.org/wiki/Algorithm"
req = requests.get(url)
soup = BeautifulSoup(req.text, "html.parser")
print("The titles are :")
print(soup.title)

Đầu ra

The titles are :
<title>Algorithm − Wikipedia

Giải thích

  • Các gói bắt buộc được nhập và được đặt bí danh.

  • Trang web được xác định.

  • Url được mở và dữ liệu được đọc từ nó.

  • Chức năng ‘BeautifulSoup’ được sử dụng để trích xuất văn bản từ trang web.

  • Các tiêu đề được trích xuất bằng thuộc tính "title" [tiêu đề].

  • Các tiêu đề được in trên bảng điều khiển.