Computer >> Máy Tính >  >> Lập trình >> Python

Làm thế nào để gói BeautifulSoup được sử dụng để trích xuất tên miền của trang web bằng Python?


BeautifulSoup là thư viện Python của bên thứ ba được sử dụng để phân tích cú pháp dữ liệu từ các trang web. Nó giúp ích trong việc tìm kiếm trang web, là một quá trình trích xuất, sử dụng và thao tác dữ liệu từ các tài nguyên khác nhau. Ngoài ra, nó còn giúp các nhà phát triển trong các ứng dụng Xử lý ngôn ngữ tự nhiên, giúp phân tích dữ liệu và trích xuất thông tin chi tiết về ý nghĩa từ nó.

Xử lý ngôn ngữ tự nhiên, hay NLP là một phần của Học máy xử lý dữ liệu văn bản và các cách xử lý trước để cung cấp dữ liệu làm đầu vào cho một vấn đề về Học máy.

Việc thu thập dữ liệu trên web cũng có thể được sử dụng để trích xuất dữ liệu cho mục đích nghiên cứu, hiểu / so sánh xu hướng thị trường, thực hiện giám sát SEO, v.v.

Có thể chạy dòng dưới đây để cài đặt BeautifulSoup trên Windows -

Ví dụ

pip install beautifulsoup4
import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen
import urllib

url = 'https://en.wikipedia.org/wiki/Algorithm'
parsed_uri = urllib.request.urlparse(url)
domainName = '{uri.scheme}://{uri.netloc}/'.format(uri=parsed_uri)
print("The domain name is : ")
print(domainName)

Đầu ra

The domain name is :
https://en.wikipedia.org/

Giải thích

  • Các gói bắt buộc được nhập và được đặt bí danh.

  • Trang web được xác định.

  • Tên miền được xác định bằng cách sử dụng các chức năng "netloc" và "Scheme".

  • Hàm 'urlparse' được gọi để lấy tên miền.

  • Tên miền được in trên bảng điều khiển.