Gỡ trang web là hành động trích xuất dữ liệu, thông tin hoặc hình ảnh từ một trang web bằng phương pháp tự động. Hãy coi nó giống như sao chép và dán hoàn toàn tự động.
Chúng tôi viết hoặc sử dụng một ứng dụng để truy cập các trang web mà chúng tôi muốn và tạo một bản sao của những thứ cụ thể mà chúng tôi muốn từ các trang web đó. Nó chính xác hơn nhiều so với việc tải xuống toàn bộ trang web.
Giống như bất kỳ công cụ nào, việc cạo trang web có thể được sử dụng cho mục đích tốt hay xấu. Bạn thậm chí có thể sử dụng nó như một công cụ nghiên cứu.
Làm cách nào để sửa trang web bằng Excel?
Tin hay không thì tùy bạn, Excel đã có khả năng trích xuất dữ liệu từ các trang web từ lâu, ít nhất là kể từ Excel 2003. Chỉ là webscraping là thứ mà hầu hết mọi người không nghĩ đến, chứ đừng nói đến việc sử dụng chương trình as Spreadsheet để thực hiện công việc. . Nhưng nó dễ dàng và mạnh mẽ một cách đáng ngạc nhiên. Hãy cùng tìm hiểu cách thực hiện bằng cách tạo một bộ sưu tập các phím tắt Microsoft Office.
Tìm các trang web bạn muốn cạo
Điều đầu tiên chúng tôi sẽ làm là tìm các trang web cụ thể mà chúng tôi muốn lấy thông tin. Hãy đi đến nguồn và tìm kiếm tại https://support.office.com/. Chúng tôi sẽ sử dụng cụm từ tìm kiếm "các phím tắt được sử dụng thường xuyên". Chúng tôi có thể làm cho nó cụ thể hơn bằng cách sử dụng tên của ứng dụng cụ thể, như Outlook, Excel, Word, v.v. Bạn nên đánh dấu trang kết quả để chúng tôi có thể dễ dàng quay lại trang đó.
Nhấp vào kết quả tìm kiếm, “Phím tắt trong Excel forWindows”. Khi ở trên trang đó, hãy tìm danh sách các phiên bản Excel và nhấp vào Phiên bản mới hơn . Bây giờ chúng tôi đang làm việc với cái mới nhất và tốt nhất.
Chúng tôi có thể quay lại trang kết quả tìm kiếm của mình và mở kết quả cho tất cả các ứng dụng Office khác trong các tab của riêng chúng và đánh dấu trang. Đó là một ý kiến hay, ngay cả đối với bài tập này. Đây là nơi mà hầu hết mọi người sẽ ngừng sử dụng các phím tắt Office, nhưng không phải chúng tôi. Chúng tôi sẽ đưa chúng vào Excel để wecan làm bất cứ điều gì chúng ta muốn với chúng, bất cứ khi nào chúng ta muốn.
Mở Excel và Scrape
Mở Excel và bắt đầu một sổ làm việc mới. Lưu sổ làm việc dưới dạng Phím tắt Office . Nếu bạn có OneDrive, hãy lưu nó vào đó để Tự động lưu tính năng sẽ hoạt động.
Sau khi sổ làm việc được lưu, hãy nhấp vào Dữ liệu tab.
Trong ruy-băng của tab Dữ liệu, nhấp vào Từ Web .
Từ web wizardwindow sẽ mở ra. Đây là nơi chúng tôi đặt địa chỉ web hoặc URL của trang web mà chúng tôi muốn lấy dữ liệu từ đó. Chuyển sang trình duyệt web của bạn và sao chép URL.
Dán URL vào URL của trình hướng dẫn Từ Web. Chúng tôi có thể chọn sử dụng điều này trong Cơ bản hoặc Nâng cao cách thức. Chế độ Nâng cao cung cấp cho chúng tôi nhiều tùy chọn hơn về cách truy cập dữ liệu từ trang web. Đối với bài tập này, chúng ta chỉ cần Basicmode. Nhấp vào OK .
Bây giờ Excel sẽ cố gắng kết nối với trang web. Điều này có thể mất một vài giây. Chúng tôi sẽ thấy một cửa sổ tiến trình, nếu có.
Điều hướng cửa sổ sẽ mở ra và chúng tôi sẽ thấy danh sách các bảng từ trang web ở bên trái. Khi chúng tôi chọn một bảng, chúng tôi sẽ thấy bản xem trước bảng ở bên phải. Hãy chọn Các phím tắt thường được sử dụng bảng.
Chúng tôi có thể nhấp vào WebView để xem trang web thực tế, nếu chúng ta cần tìm kiếm bảng mà chúng ta muốn. Khi chúng tôi tìm thấy nó, chúng tôi có thể nhấp vào nó và nó sẽ được chọn để nhập.
Bây giờ, chúng tôi nhấp vào nút Tải ở cuối cửa sổ này. Có những tùy chọn khác mà chúng tôi có thể chọn, phức tạp hơn và nằm ngoài phạm vi thực hiện lần cạo đầu tiên của chúng tôi. Chỉ cần lưu ý rằng chúng ở đó. Khả năng tìm kiếm web của Excel rất mạnh mẽ.
Bảng web sẽ được tải trong Excel sau vài giây. Chúng ta sẽ thấy dữ liệu ở bên trái, nơi có số 1 là trong hình dưới đây. Số 2 làm nổi bật Truy vấn được sử dụng để lấy dữ liệu từ trang web. Khi chúng tôi có nhiều truy vấn trong sổ làm việc, đây là nơi chúng tôi chọn truy vấn mà chúng tôi cần sử dụng.
Lưu ý rằng dữ liệu được đưa vào bảng tính dưới dạng Exceltable. Nó đã được thiết lập để chúng tôi có thể lọc hoặc sắp xếp dữ liệu.
Chúng tôi có thể lặp lại quy trình này cho tất cả các trang web khác có các phím tắt Office mà chúng tôi muốn cho Outlook, Word, Access, PowerPoint và bất kỳ ứng dụng Office nào khác.
Luôn cập nhật dữ liệu có sẵn trong Excel
Như một phần thưởng cho bạn, chúng ta sẽ tìm hiểu cách giữ cho dữ liệu được đóng gói của chúng ta luôn mới trong Excel. Đây là một cách tuyệt vời để minh họa Excel mạnh mẽ như thế nào trong việc thu thập dữ liệu. Ngay cả với điều này, chúng tôi chỉ thực hiện những thao tác cơ bản nhất mà Excel có thể làm.
Đối với ví dụ này, hãy sử dụng trang web thông tin chứng khoán như https://www.cnbc.com/stocks/.
Xem qua những gì chúng tôi đã làm trước đây và sao chép và dán URL mới từ thanh địa chỉ.
Bạn sẽ đến cửa sổ Bộ điều hướng và xem các bảng có sẵn. Hãy chọn các Chỉ số Chứng khoán Chính của Hoa Kỳ.
Sau khi dữ liệu được thu thập, chúng ta sẽ thấy bảng tính sau.
Ở bên phải, chúng tôi thấy truy vấn cho các Chỉ số chứng khoán chính của Hoa Kỳ, hãy chọn nó để nó được tô sáng. Đảm bảo rằng chúng tôi đang sử dụng Công cụ bảng và trong tab Thiết kế diện tích. Sau đó, nhấp vào mũi tên xuống bên dưới Làm mới Sau đó nhấp vào Thuộc tính kết nối .
Trong Thuộc tính truy vấn trong cửa sổ Sử dụng , chúng tôi có thể kiểm soát cách thông tin này làm mới. Chúng tôi có thể đặt khoảng thời gian cụ thể để làm mới hoặc để làm mới khi chúng tôi mở sổ làm việc vào lần tiếp theo, hoặc làm mới trong nền hoặc bất kỳ sự kết hợp nào của chúng. Sau khi chúng tôi chọn những gì cần thiết, hãy nhấp vào OK để đóng cửa sổ và tiếp tục.
Đó là nó! Giờ đây, bạn có thể theo dõi giá cổ phiếu, tỷ số thể thao hoặc bất kỳ dữ liệu nào khác thường xuyên thay đổi từ bảng tính Excel. Nếu bạn thành thạo với các phương trình và hàm Excel, bạn có thể làm hầu hết mọi thứ bạn muốn với dữ liệu.
Có thể cố gắng xác định xu hướng chứng khoán, chạy một hồ bơi thể thao tưởng tượng tại nơi làm việc hoặc có thể chỉ theo dõi thời tiết. Ai biết? Trí tưởng tượng của bạn và dữ liệu có sẵn trên Internet là giới hạn duy nhất.