Computer >> Máy Tính >  >> Lập trình >> Python

Làm cách nào để xóa các thẻ trống bằng BeautifulSoup trong Python?


BeautifulSoup là một thư viện python lấy dữ liệu từ các tệp HTML và XML. Sử dụng BeautifulSoup, chúng tôi cũng có thể xóa các thẻ trống có trong HTML hoặc XMLdocuments và chuyển đổi thêm dữ liệu đã cho thành dữ liệu con người các tệp có thể đọc được.

Đầu tiên, chúng tôi sẽ cài đặt thư viện BeautifulSoup trong môi trường cục bộ của chúng tôi bằng cách sử dụng lệnh: pip install beautifulsoup4

Ví dụ

#Import the BeautifulSoup library

from bs4 import BeautifulSoup

#Get the html document
html_object = """
<p>Python is an interpreted, high-level and general-purpose
programming language. Python's design
philosophy emphasizes code readability with its notable use of
significant indentation.</p>
"""

#Let us create the soup for the given html document
soup = BeautifulSoup(html_object, "lxml")

#Iterate over each line of the document and extract the data
for x in soup.find_all():
   if len(x.get_text(strip=True)) == 0:
      x.extract()

print(soup)

Đầu ra

Chạy đoạn mã trên sẽ tạo ra đầu ra và chuyển đổi tài liệu HTML đã cho thành mã có thể đọc được của con người bằng cách xóa các thẻ trống trong đó.

<html><body><p>Python is an interpreted, high−level and general−purpose programming
language. Python's design
philosophy emphasizes code readability with its notable use of significant indentation.</p>
</body></html>