Khi máy tính xử lý ngôn ngữ tự nhiên, một số từ cực kỳ phổ biến dường như không có giá trị trong việc giúp chọn tài liệu phù hợp với nhu cầu của người dùng sẽ bị loại trừ hoàn toàn khỏi từ vựng. Những từ này được gọi là các từ dừng.
Ví dụ:nếu bạn đưa ra câu đầu vào là -
John is a person who takes care of the people around him.
Sau khi dừng loại bỏ từ, bạn sẽ nhận được đầu ra -
['John', 'person', 'takes', 'care', 'people', 'around', '.']
NLTK có một bộ sưu tập các từ dừng này mà chúng tôi có thể sử dụng để xóa chúng khỏi bất kỳ câu nào đã cho. Đây là bên trong mô-đun NLTK.corpus. Chúng ta có thể sử dụng điều đó để lọc ra các từ dừng ra khỏi câu. Ví dụ,
Ví dụ
from nltk.corpus import stopwords from nltk.tokenize import word_tokenize my_sent = "John is a person who takes care of people around him." tokens = word_tokenize(my_sent) filtered_sentence = [w for w in tokens if not w in stopwords.words()] print(filtered_sentence)
Đầu ra
Điều này sẽ cung cấp đầu ra -
['John', 'person', 'takes', 'care', 'people', 'around', '.']