Computer >> Máy Tính >  >> Lập trình >> Python

Tìm k từ thường gặp nhất từ ​​tập dữ liệu bằng Python

Nếu cần tìm 10 từ thường gặp nhất trong tập dữ liệu, python có thể giúp chúng tôi tìm từ đó bằng cách sử dụng mô-đun tập hợp. Mô-đun tập hợp có một lớp bộ đếm cung cấp số lượng các từ sau khi chúng tôi cung cấp danh sách các từ cho nó. Chúng tôi cũng sử dụng phương thức most_common để tìm ra số lượng các từ như vậy khi đầu vào chương trình cần.

Ví dụ

Trong ví dụ dưới đây, chúng ta lấy một đoạn văn, sau đó tạo danh sách các từ áp dụng split () trước tiên. Sau đó, chúng tôi sẽ áp dụng bộ đếm () để tìm số lượng tất cả các từ. Cuối cùng, hàm most_common sẽ cho chúng ta kết quả thích hợp về bao nhiêu từ như vậy với tần suất cao nhất mà chúng ta muốn.

from collections import Counter
word_set = " This is a series of strings to count " \
   "many words . They sometime hurt and words sometime inspire "\
   "Also sometime fewer words convey more meaning than a bag of words "\
   "Be careful what you speak or what you write or even what you think of. "\
# Create list of all the words in the string
word_list = word_set.split()

# Get the count of each word.
word_count = Counter(word_list)

# Use most_common() method from Counter subclass
print(word_count.most_common(3))

Đầu ra

Chạy đoạn mã trên cho chúng ta kết quả sau -

[('words', 4), ('sometime', 3), ('what', 3)]