Computer >> Máy Tính >  >> Lập trình >> Python

Chuyển đổi PDF sang CSV bằng Python

Python nổi tiếng với thư viện gói khổng lồ. Với sự trợ giúp của các thư viện, chúng ta sẽ thấy cách chuyển đổi một tệp PDF sang tệp CSV. Tệp CSV không là gì ngoài một tập hợp dữ liệu, được đóng khung cùng với một tập hợp các hàng và cột. Có nhiều gói khác nhau có sẵn trong thư viện Python để chuyển đổi PDF sang CSV, nhưng chúng tôi sẽ sử dụng mô-đun Tabula-py . Phần chính của tabula-py được viết bằng Java để đọc tài liệu PDF trước tiên và chuyển đổi Python DataFrame thành một đối tượng JSON.

Để làm việc với tabula-py, chúng ta phải cài đặt sẵn Java trong hệ thống của mình. Để chuyển đổi tệp PDF sang CSV, chúng tôi sẽ làm theo các bước sau -

  • Trước tiên, hãy cài đặt gói được yêu cầu bằng cách nhập pip install tabula-py trong trình bao lệnh.

  • Bây giờ, hãy đọc tệp bằng read_pdf ("vị trí tệp", trang =số) hàm số. Thao tác này sẽ trả về DataFrame.

  • Chuyển đổi DataFrame thành tệp Excel bằng cách sử dụng tabula.convert_into (‘pdf-filename’, ‘name_this_file.csv’, output_format ="csv", pages ="all") . Nó thường xuất tệp pdf thành tệp excel.

Ví dụ

Trong ví dụ này, chúng tôi đã sử dụng Tài liệu lịch biểu đối sánh IPL để chuyển đổi nó thành một tệp Excel.

# Import the required Module
import tabula
# Read a PDF File
df = tabula.read_pdf("IPLmatch.pdf", pages='all')[0]
# convert PDF into CSV
tabula.convert_into("IPLmatch.pdf", "iplmatch.csv", output_format="csv", pages='all')
print(df)

Đầu ra

Chạy mã trên sẽ chuyển đổi tệp PDF thành tệp Excel (CSV).

Chuyển đổi PDF sang CSV bằng Python