Computer >> Máy Tính >  >> Kết nối mạng >> Internet

Cách sử dụng công cụ quét dữ liệu để trích xuất dữ liệu từ các trang web

Cách sử dụng công cụ quét dữ liệu để trích xuất dữ liệu từ các trang web

Nếu bạn đang sao chép và dán mọi thứ ra khỏi các trang web và đưa chúng vào bảng tính theo cách thủ công, bạn không biết quét dữ liệu (hoặc quét web) là gì hoặc bạn biết nó là gì nhưng không thực sự quan tâm đến ý tưởng học cách viết mã chỉ để tiết kiệm cho mình vài giờ nhấp chuột.

Dù bằng cách nào, có rất nhiều công cụ thu thập dữ liệu không cần mã có thể giúp bạn và tiện ích mở rộng Data Miner của Chrome là một trong những tùy chọn trực quan hơn. Nếu bạn may mắn, nhiệm vụ bạn đang cố gắng thực hiện sẽ được đưa vào sách công thức của công cụ và bạn thậm chí sẽ không phải thực hiện các bước trỏ và nhấp liên quan đến việc xây dựng công cụ của riêng bạn.

Công cụ khai thác dữ liệu hoạt động như thế nào?

Công cụ khai thác dữ liệu giúp bạn lấy dữ liệu ra khỏi các trang web và thành các tệp Excel / CSV được định dạng độc đáo bằng cách xem qua văn bản của các trang bạn đã tải. Điều đó có nghĩa là bạn sẽ cần ít nhất là đủ thoải mái với HTML để nhận ra một số mẫu, nhưng không có gì quá rộng. Các kỹ năng HTML và / hoặc JavaScript nâng cao chắc chắn sẽ hữu ích với một số nhiệm vụ nhưng không cần thiết cho hầu hết mọi thứ. Bạn cũng phải có ít nhất các kỹ năng cơ bản về bảng tính để có thể đảm bảo đầu ra của mình sạch sẽ và có tổ chức.

1. Thiết lập Data Miner

Cách sử dụng công cụ quét dữ liệu để trích xuất dữ liệu từ các trang web

Sử dụng Chrome hoặc trình duyệt Chromium khác, cài đặt tiện ích mở rộng. Biểu tượng cái cuốc của tiện ích mở rộng sẽ xuất hiện trên thanh công cụ của bạn và nhấp vào biểu tượng đó sẽ đưa bạn đến trang nơi bạn có thể thiết lập tài khoản. Phiên bản miễn phí cung cấp cho bạn 500 mẩu tin lưu niệm mỗi tháng, số tiền này có lẽ đủ cho bạn trừ khi đây là việc bạn làm hàng ngày.

2. Tải dữ liệu

Cách sử dụng công cụ quét dữ liệu để trích xuất dữ liệu từ các trang web

Đầu tiên, điều hướng đến trang bạn muốn trích xuất dữ liệu. Nếu bạn có nhiều trang dữ liệu hoặc một số trang bị ẩn sau các nút, điều đó không sao - có nhiều cách để giải quyết điều đó. Hiện tại, bạn sẽ chỉ cần một mẫu đại diện để chương trình biết những gì cần tìm.

3. Kiểm tra công thức

Cách sử dụng công cụ quét dữ liệu để trích xuất dữ liệu từ các trang web

Tiếp theo, mở Data Miner và kiểm tra tab “Công khai” để biết các công thức nấu ăn hiện có. Nếu bạn đang ở trên một trang web phổ biến, ai đó có thể đã tạo một quy trình để lấy dữ liệu bạn đang tìm kiếm, điều này sẽ giúp bạn tiết kiệm kha khá thời gian. Ví dụ:các trang web như Google, Amazon và Twitter có sẵn rất nhiều công thức nấu ăn để giúp bạn tải xuống ngay lập tức các liên kết, giá cả, văn bản và các dữ liệu khác. Bạn có thể kiểm tra các công thức bằng cách nhấp vào nút “Chạy” để xem bản xem trước của bảng tính mà Công cụ khai thác dữ liệu tạo ra. Bạn cũng có thể điều chỉnh các công thức nấu ăn hiện có để phù hợp với nhu cầu của mình bằng cách nhấn vào nút “Chỉnh sửa”.

4. Loại trang

Cách sử dụng công cụ quét dữ liệu để trích xuất dữ liệu từ các trang web

Được rồi, không có công thức nấu sẵn nào phù hợp với bạn. Không sao, bạn có thể tự làm. Chỉ cần nhấp vào nút “Công thức mới” để bắt đầu.

Lựa chọn đầu tiên của bạn sẽ là “Trang danh sách” hoặc “Trang chi tiết”.

Chọn “Trang danh sách” nếu bạn đang cố lấy nhiều hàng dữ liệu khỏi một trang. Ví dụ:bạn có thể muốn tải xuống liên kết và tiêu đề trang của mọi kết quả tìm kiếm hoặc lấy ngày và nội dung của bài đăng trong nguồn cấp dữ liệu. Đây có lẽ là loại phổ biến nhất và chúng tôi sẽ sử dụng ở đây làm bản trình diễn. (Các bước cho một trang chi tiết về cơ bản giống nhau.)

Chọn “Trang chi tiết” nếu bạn có nhiều thông tin khác nhau về một thứ trên một trang - ví dụ:trang sản phẩm, nơi bạn cần lấy giá, mô tả, liên kết và xếp hạng của nó và đặt tất cả vào một hàng .

Bước 5:Tạo hàng của bạn

Cách sử dụng công cụ quét dữ liệu để trích xuất dữ liệu từ các trang web

Nhấn nút “Tìm” và di chuyển chuột của bạn cho đến khi hộp lựa chọn màu vàng bao gồm tất cả dữ liệu mà bạn cần cho một mục nhập duy nhất vào bảng tính cuối cùng của mình. Ví dụ:nếu bạn đang tải xuống kết quả tìm kiếm, bạn sẽ cần đánh dấu một khu vực đủ lớn để bao gồm tiêu đề, URL và mô tả, mỗi phần trong số đó bạn có thể đặt vào các cột riêng biệt trong bước tiếp theo. Để thực hiện lựa chọn của bạn, hãy nhấn Shift Chìa khóa. Đừng lo lắng nếu bạn vô tình nhấp vào; Công cụ khai thác dữ liệu lưu tất cả tiến trình công thức của bạn ngay cả khi bạn điều hướng khỏi trang.

Sau đó, bạn sẽ muốn chọn ít nhất một trong các hộp trong phần “Lớp của phần tử” hoặc “Loại phần tử HTML”. Lý tưởng nhất là bạn sẽ thấy vùng lựa chọn lặp lại để bao phủ mọi phần tử trên trang nằm trong cùng danh mục với phần bạn đã chọn.

Cách sử dụng công cụ quét dữ liệu để trích xuất dữ liệu từ các trang web

Nếu bạn thấy rằng bộ chọn không bao gồm mọi thứ bạn cần, hãy thử chỉ chọn một trong các phần tử và nhấn “Chọn phần chính”. Điều này sẽ làm cho hộp lớn hơn và có thể chụp được mọi thứ bạn cần. Nếu không, bạn có thể cần phải tìm hiểu kỹ về HTML một chút và xác định các lớp và loại phần tử bạn cần. Khi nghi ngờ, hãy nhấn “Chọn Gốc” cho đến khi hộp lớn nhất có thể mà không che nhiều mục nhập danh sách, vì điều này sẽ giúp bạn linh hoạt hơn khi chọn cột.

Data Miner cung cấp cho bạn tùy chọn “View Element’s HTML” ở dưới cùng và cũng cho phép bạn nhập các bộ chọn tùy chỉnh. Nếu bạn muốn nói, hãy lấy tất cả các liên kết trên một trang có lớp “product”, bạn chỉ cần nhập a.product . Đây là lúc một số kiến ​​thức HTML / CSS cơ bản sẽ thực sự hữu ích.

Cách sử dụng công cụ quét dữ liệu để trích xuất dữ liệu từ các trang web

Sau khi quay lại menu hàng chính, bạn sẽ thấy "Số hàng" với số lượng mục nhập mà công thức của bạn sẽ tạo trong một bảng tính. Nếu nó không bắt được mọi thứ, bạn sẽ cần kiểm tra kỹ lựa chọn hàng của mình.

6. Chia dữ liệu của bạn thành các cột

Cách sử dụng công cụ quét dữ liệu để trích xuất dữ liệu từ các trang web

Khi bạn đã chọn tất cả dữ liệu cho các hàng của mình, đã đến lúc làm cho tất cả dữ liệu trông đẹp mắt bằng cách chia nhỏ thành các danh mục cột khác nhau. Mọi lựa chọn bạn thực hiện ở đây phải là một phần phụ của hộp bạn đã chọn cho các hàng của mình.

Cách sử dụng công cụ quét dữ liệu để trích xuất dữ liệu từ các trang web

Để tạo một cột, chỉ cần nhập tên cho nó và sử dụng nút Tìm để chọn những gì bạn muốn trích xuất, giống như cách bạn đã làm đối với các hàng. Dữ liệu phổ biến nhất có thể sẽ là văn bản, URL hoặc URL hình ảnh. Lấy URL bằng cách di chuột qua các liên kết văn bản có thể hơi phức tạp; bạn có thể phải nhấn “chọn cha mẹ” cho đến khi bạn đạt đến cấp độ mà Loại phần tử là <a> , là thẻ HTML cho các liên kết.

Cách sử dụng công cụ quét dữ liệu để trích xuất dữ liệu từ các trang web

Để đảm bảo bạn có đúng loại dữ liệu trong cột của mình, chỉ cần nhấn vào biểu tượng con mắt ở bên phải tên của mỗi cột, bên cạnh số cho bạn biết có bao nhiêu cột đã được chọn. Thao tác này sẽ hiển thị cho bạn bản xem trước của mọi mục nhập hàng cho cột đó. Nếu có điều gì đó không ổn, hãy quay lại và chỉnh sửa các thẻ và loại bạn đã chọn để xác định các hàng. Đừng ngại mở trình xem HTML và kiểm tra các mẫu được liên kết với dữ liệu bạn đang cố gắng lấy.

7. Cho Người khai thác dữ liệu biết cách truy cập trang tiếp theo

Cách sử dụng công cụ quét dữ liệu để trích xuất dữ liệu từ các trang web

Nếu bạn có nhiều trang dữ liệu cần trích xuất, bạn có thể không muốn nhấp qua từng trang và chạy đi chạy lại công thức của mình. Để giải quyết vấn đề đó, chỉ cần cho Data Miner biết nơi tìm nút điều hướng mà nó cần nhấp để chuyển đến trang tiếp theo. Hãy cẩn thận để không yêu cầu nó nhấp vào một cái gì đó như “Trang 2”, vì sau đó nó sẽ chỉ chuyển đến Trang 2. Một lần nữa, hãy đảm bảo rằng bạn đang chọn một <a> và sử dụng nút Điều hướng kiểm tra để đảm bảo nó đang hoạt động.

Cách sử dụng công cụ quét dữ liệu để trích xuất dữ liệu từ các trang web

8. Cho Data Miner biết nơi nhấp hoặc cuộn để tải dữ liệu

Cách sử dụng công cụ quét dữ liệu để trích xuất dữ liệu từ các trang web

Một số trang không tải dữ liệu cho đến khi bạn nhấp vào thứ gì đó hoặc cuộn xuống. May mắn thay, Data Miner cũng có thể làm được những điều này! Sử dụng công cụ “Tìm kiếm” ở trên cùng (bây giờ bạn đã khá giỏi rồi) để chọn phần tử bạn cần thao tác, sau đó đặt bộ chọn vào ô thích hợp và kiểm tra nó để đảm bảo nó hoạt động.

Việc tìm ra chính xác bộ chọn nào sẽ kích hoạt phần tử hoặc thanh cuộn vô hạn có thể khó, nhưng kiến ​​thức HTML cơ bản và một số thử nghiệm và lỗi sẽ giúp bạn thực hiện được khá xa. Hầu hết những thứ bạn sẽ cần thao tác ở đây đều dựa trên JavaScript, nhưng Data Miner chỉ cần biết bộ chọn CSS được liên kết với hành động để kích hoạt nó, vì vậy bạn không cần phải lộn xộn với bất kỳ mã nào trong hầu hết các trường hợp.

Bước tiếp theo cũng cho phép bạn thêm JS tùy chỉnh để làm bất cứ điều gì bạn muốn, nhưng điều đó khá nâng cao và vượt xa những gì chúng ta cần cho việc cạo cơ bản.

9. Lưu và chạy công thức

Cách sử dụng công cụ quét dữ liệu để trích xuất dữ liệu từ các trang web

Xin chúc mừng! Bây giờ là lúc để xem liệu tất cả có kết hợp với nhau hay không. Chạy công thức trên trang bạn đang xem và kiểm tra bản xem trước để xem các hàng và cột của bạn có đang làm những gì chúng phải làm hay không. Nếu không, bạn có thể quay lại và chỉnh sửa công thức.

Cách sử dụng công cụ quét dữ liệu để trích xuất dữ liệu từ các trang web

Nếu mọi thứ hoạt động như bình thường, bạn có thể sử dụng nút “Trang tiếp theo” để cho người quét biết bao nhiêu trang mà nó sẽ thu thập thông tin và tốc độ sẽ diễn ra như thế nào / (Quá nhanh có thể khiến hệ thống gắn cờ bạn là bot.)

Cách sử dụng công cụ quét dữ liệu để trích xuất dữ liệu từ các trang web

Sau khi có tất cả dữ liệu cần thiết, bạn có thể chọn định dạng tệp bạn muốn sử dụng để tải xuống.

Cách sử dụng công cụ quét dữ liệu để trích xuất dữ liệu từ các trang web

Tôi đang gặp sự cố; có cách nào dễ dàng hơn không?

Nếu chương trình Data Miner không phù hợp với bạn, có rất nhiều công cụ thu thập dữ liệu khác có sẵn:ParseHub, Scraper, Octoparse, Import.io, VisualScraper, v.v. Một số công cụ có thể có giao diện trực quan hơn và tự động hóa hơn, nhưng bạn vẫn cần biết ít nhất một chút về HTML và cách tổ chức web. Điều làm cho Data Miner trở nên đặc biệt tuyệt vời đối với người mới bắt đầu là thư viện công thức có nguồn gốc từ cộng đồng, có khả năng giúp bạn tránh gặp phải ngay cả những trường hợp nhỏ nhất với mã. Điều đó, kết hợp với gói lưu trữ miễn phí hàng tháng khá hào phóng của nó, làm cho nó trở thành một công cụ rất phù hợp cho hầu hết các nhu cầu.