Trong bài viết này, chúng ta sẽ xem cách trích xuất dữ liệu Wikipedia bằng Python. Python được sử dụng rộng rãi để tạo trình duyệt web nhằm thu thập thông tin meta từ các trang web.
Đối với bài viết này, chúng tôi sẽ sử dụng API và thư viện Wikipedia để lấy dữ liệu từ URL nguồn của Wikipedia. API sẽ giúp tìm nạp dữ liệu từ URL đã cho. Sau đó, chúng tôi sẽ gọi phương thức trên URL đã cho và in thông tin trên màn hình.
Để trích xuất dữ liệu từ Wikipedia, trước tiên chúng tôi phải nhập wikipedialibrary bằng Python bằng cách sử dụng 'pip install wikipedia'.
Trong chương trình này, chúng tôi sẽ trích xuất bản tóm tắt về Lập trình Python từ Wikipedia và in nó bên trong hộp văn bản.
Ví dụ
#Import the tkinter library from tkinter import * import tkinter as tk import wikipedia win = Tk() win.geometry("700x500") win.title("Wikipedia Summary") result = wikipedia.search("Python Programming") # get the page Details page = wikipedia.page(result[0]) # Get the summary summary = page.summary T = tk.Text(win, height=200, width=70) T.pack() T.insert(tk.END, summary) win.mainloop()
Đầu ra
Chạy mã python ở trên sẽ in ra phần tóm tắt liên quan đến “Lập trình Python” có nguồn từ Wikipedia.