Chúng tôi cần trích xuất dữ liệu từ nhiều nơi khác nhau sang Excel vì lý do tính toán và thao tác dữ liệu. PDF là một trong những tài liệu được sử dụng nhiều nhất trên toàn thế giới và là nguồn dữ liệu quan trọng. Cách chúng tôi trích xuất dữ liệu từ nhiều tệp PDF sang Excel được thảo luận ở đây với hướng dẫn chi tiết với các ví dụ đầy đủ.
Tải xuống sách bài tập thực hành này bên dưới.
3 cách để trích xuất dữ liệu từ nhiều tệp PDF sang Excel
Chúng tôi sẽ sử dụng tập dữ liệu tệp PDF dưới đây để minh họa việc trích xuất dữ liệu từ trang tính PDF sang Excel.
1. Trích xuất dữ liệu từ nhiều tệp PDF bằng Power Query
Power Query là một công cụ chuẩn bị hoặc xử lý dữ liệu. Ở đây chúng tôi sẽ trích xuất dữ liệu từ bảng PDF và sau đó xử lý nó trong một cửa sổ khác trong Excel. Sau đó, chúng tôi sẽ nhận được kết quả đầu ra và tải hoàn toàn kết quả vào trang tính Excel.
Các bước
Chúng tôi cần mở 3 tệp PDF và tải tất cả các bảng bên trong chúng trong trang tính Excel được cung cấp bên dưới.
- Để thực hiện việc này, trước tiên, hãy chuyển đến Dữ liệu chuyển hướng. Tiếp theo, nhấp vào nút Nhận dữ liệu lệnh
- Sau khi nhấp vào nút Lấy dữ liệu biểu tượng, đi tới Từ tệp vào Từ thư mục hiển thị trong hình ảnh.
- Sau khi nhấp vào Từ Thư mục, Duyệt qua mới cửa sổ sẽ mở ra, từ cửa sổ đó chọn thư mục trong máy tính của bạn nơi các tệp PDF của bạn đang được lưu. Nhấp vào Mở sau cái này.
- Sau khi nhấp vào Mở, Power Query mới cửa sổ sẽ mở ra từ nơi bạn sẽ nhận thấy rằng tất cả các tệp PDF bên trong thư mục hiện đã được tải với tên của chúng được liệt kê ở đây trong Tên cột.
- Sau đó, nhấp vào Tuỳ chọn Kết hợp menu bên dưới.
- Bây giờ, hãy chọn Kết hợp &chuyển đổi dữ liệu nếu bạn cần thay đổi dữ liệu. Nếu không, hãy nhấp vào Kết hợp &Tải biểu tượng.
- Sau đó, một cửa sổ truy vấn khác sẽ mở ra.
- Trong cửa sổ đó, bạn có thể duyệt qua các tệp theo Mẫu Tệp cửa sổ.
- Bạn có thể chọn một bảng của một tệp cụ thể để xem trước.
- Nhấp vào OK sau cái này.
- Sau đó, bạn sẽ nhận thấy rằng tất cả các bảng hiện đã được tải vào một cửa sổ truy vấn mới. Cột ngoài cùng bên trái của bảng biểu thị nguồn dữ liệu, cho dù đó là từ Tập dữ liệu_1 hoặc Dataset_2, hoặc Dataset_3 .
- Sau đó, từ Trang chủ , nhấp vào Đóng &Tải, sau đó nhấp vào Đóng và tải tới.
- Cửa sổ truy vấn nguồn sẽ đóng và một cửa sổ mới có tên Nhập dữ liệu sẽ xuất hiện, trong cửa sổ đó, hãy chọn Trang tính hiện có và cũng có thể chọn vị trí của dữ liệu đã tải trong hộp phạm vi, đây là, $ B $ 5:$ F $ 29 . Nhấp vào OK sau cái này.
- Sau đó, bạn sẽ thấy bảng dữ liệu hiện đã được tải vào vị trí được chỉ định dưới dạng một bảng trong trang tính.
- Bây giờ hãy chọn bảng và đi tới Thiết kế bảng , từ đó chọn Chuyển đổi thành Phạm vi từ Công cụ nhóm để chuyển đổi bảng trở lại phạm vi.
- Giờ đây, dữ liệu đã tải được chuyển đổi thành dải ô.
- Chọn và xóa phạm vi ô B4:B35 . Sau đó, tập dữ liệu của chúng tôi sẽ không có trong Cột nguồn .
- Giờ đây, bạn có thể thấy rằng trang tính Excel hiện đã trích xuất dữ liệu từ nhiều tệp PDF.
Tất cả các bảng trong PDF hiện được tải trong một trang tính Excel. Đây là cách dễ nhất để trích xuất dữ liệu từ nhiều tệp PDF trong Excel.
Đọc thêm: Cách trích xuất dữ liệu từ PDF sang Excel (4 cách phù hợp)
2. Sử dụng Microsoft Word
Microsoft word là một công cụ tiện dụng khác để thao tác tài liệu PDF. Word có thể mở nhiều định dạng tài liệu khác nhau ngoài docx của riêng nó định dạng. PDF là một trong số đó.
Các bước
- Chúng tôi sẽ nhập tệp PDF bên dưới này vào Excel.
- Để thực hiện việc này, hãy mở Microsoft Word, và từ trình đơn tệp, nhấp vào Mở và sau đó nhấp vào Duyệt qua.
- Tệp mới Duyệt qua menu sẽ mở ra, từ menu đó đi đến vị trí tệp của bạn, nơi chứa tệp PDF của bạn và chọn tệp PDF của bạn. Nhấp vào Mở sau cái này.
- Sau đó, tệp PDF sẽ được mở trong cửa sổ word ở dạng có thể chỉnh sửa. Bạn có thể chỉnh sửa tệp này ngay bây giờ.
- Bây giờ hãy chọn bảng và nhấp chuột phải vào chuột. Menu ngữ cảnh sẽ xuất hiện.
- Từ trình đơn ngữ cảnh, nhấp vào Sao chép .
- Sau đó, chuyển đến trang tính Excel của bạn, trong trang tính Excel, hãy chọn ô B4, và nhấp chuột phải vào chuột.
- Từ trình đơn ngữ cảnh, hãy chọn Giữ định dạng nguồn Biểu tượng (K).
- Sau khi nhấp vào Dán biểu tượng, bạn sẽ thấy bảng từ tệp word hiện được dán ở đây.
- Bạn có thể cần phải thay đổi định dạng của ô vì nó có thể không chứa cùng định dạng như trong PDF, vì cùng kích thước. Tuy nhiên, dữ liệu sẽ được trích xuất chính xác tại đây.
- Hình ảnh dưới đây là hình ảnh cuối cùng sau khi điều chỉnh một số định dạng như màu văn bản, chiều rộng cột, màu ô, v.v.
- Bạn có thể lặp lại quy trình tương tự cho các tệp khác và thêm bao nhiêu tệp thông tin vào trang tính Excel mà bạn cần.
- Dưới đây là dữ liệu tệp PDF thứ hai sau khi chúng được trích xuất vào trang tính Excel.
- Dưới đây là dữ liệu tệp PDF thứ ba sau khi chúng được trích xuất vào trang tính Excel.
Đọc thêm: Cách xuất dữ liệu từ PDF có thể điền sang Excel (với các bước nhanh)
3. Sử dụng Tính năng Sao chép và Dán
Sao chép và dán dữ liệu từ tệp PDF sang trang tính Excel là cách đơn giản nhất để chuyển dữ liệu từ pdf sang trang tính Excel. Nhưng dữ liệu sau khi trích xuất cần được sửa đổi sau đó.
Các bước
- Trong phương pháp này, chúng tôi sẽ trích xuất dữ liệu bảng từ tệp PDF bên dưới.
- Đầu tiên, chúng tôi sẽ nhấn Ctrl + A , để chọn tất cả dữ liệu trong tệp PDF tệp bảng đó.
- Tiếp theo, nhấp chuột phải vào chuột và từ trình đơn ngữ cảnh, hãy chọn Sao chép.
- Sau khi sao chép dữ liệu, hãy chuyển đến trang tính Excel của bạn và chọn ô B4.
- Sau đó, nhấp chuột phải vào chuột một lần nữa và nhấp vào Giữ định dạng nguồn (K) biểu tượng từ Tùy chọn dán.
- Sau khi nhấp vào biểu tượng dán, bạn sẽ thấy một bảng PDF hiện đã được dán vào trang tính Excel.
- Nhưng bảng này không giống với bảng PDF. Lý do đằng sau điều này là kích thước ô trong Excel là cố định và đối với nhiều giá trị ô thì không đủ.
- Đó là lý do tại sao bạn sẽ cần một số định dạng cho trang tính Excel, chẳng hạn như thay đổi màu văn bản, màu ô, thay đổi độ rộng ô, v.v.
Sau khi áp dụng định dạng, bạn sẽ nhận thấy rằng bảng đã nhập bây giờ trông giống hệt như bảng PDF.
Đọc thêm:Cách chuyển đổi PDF sang bảng trong Excel (3 phương pháp)
Kết luận
Tóm lại, câu hỏi “làm thế nào để trích xuất dữ liệu từ nhiều tệp PDF trong Excel” được trả lời ở đây theo 3 cách khác nhau. Phương pháp hữu ích nhất là sử dụng truy vấn nguồn để lấy dữ liệu từ nhiều tệp PDF cùng một lúc. Có những phương pháp khác về cơ bản là sao chép và dán dữ liệu từ PDF sang Excel và định dạng chúng một cách thích hợp sau đó.
Đối với sự cố này, có sẵn một sổ làm việc để tải xuống nơi bạn có thể thực hành các phương pháp này.
Vui lòng đặt bất kỳ câu hỏi hoặc phản hồi thông qua phần bình luận. Bất kỳ đề xuất nào để cải tiến Exceldemy cộng đồng sẽ được đánh giá cao.
Các bài viết liên quan
- Cách trích xuất dữ liệu cụ thể từ PDF sang Excel bằng VBA
- Xuất Nhận xét PDF sang Bảng tính Excel (3 Thủ thuật Nhanh)
- Cách chuyển đổi PDF sang Excel mà không cần phần mềm (3 Phương pháp Dễ dàng)