Python có một bộ thư viện lớn để xử lý các loại hoạt động khác nhau. Qua bài viết này, chúng ta sẽ cùng nhau tìm hiểu cách chuyển đổi tệp pdf sang tệp Excel. Có nhiều gói khác nhau có sẵn trong python để chuyển đổi pdf sang CSV nhưng chúng tôi sẽ sử dụng mô-đun Tabula-py. Phần chính của tabula-py được viết bằng Java để đọc tài liệu pdf và chuyển đổi Python DataFrame thành một đối tượng JSON.
Để làm việc với tabula-py, chúng ta phải cài đặt sẵn java trong hệ thống của mình. Bây giờ, để chuyển đổi tệp pdf sang csv, chúng ta sẽ làm theo các bước-
-
Trước tiên, hãy cài đặt gói bắt buộc bằng cách nhập pip install tabula-py trong trình bao lệnh.
-
Bây giờ, hãy đọc tệp bằng read_pdf ("vị trí tệp", trang =số) hàm số. Thao tác này sẽ trả về DataFrame.
-
Chuyển đổi DataFrame thành tệp Excel bằng cách sử dụng tabula.convert_into (‘pdf-filename’, ‘name_this_file.csv’, output_format ="csv", pages ="all") . Nó thường xuất tệp pdf thành tệp excel
Ví dụ
Trong ví dụ này, chúng tôi đã sử dụng Tài liệu lịch biểu đối sánh IPL để chuyển đổi nó thành một tệp excel.
# Import the required Module import tabula # Read a PDF File df = tabula.read_pdf("IPLmatch.pdf", pages='all')[0] # convert PDF into CSV tabula.convert_into("IPLmatch.pdf", "iplmatch.csv", output_format="csv", pages='all') print(df)
Đầu ra
Chạy đoạn mã trên sẽ chuyển đổi tệp pdf thành tệp excel (csv).