Computer >> Máy Tính >  >> Lập trình >> Python

Mã hóa văn bản bằng NLTK trong python


Với một chuỗi ký tự và một đơn vị tài liệu xác định, mã hóa là nhiệm vụ cắt nó thành nhiều phần, được gọi là mã thông báo, có lẽ đồng thời loại bỏ một số ký tự nhất định, chẳng hạn như dấu chấm câu. Trong ngữ cảnh của nltk và python, nó chỉ đơn giản là quá trình đặt từng mã thông báo vào một danh sách để thay vì lặp lại từng chữ cái một lúc, chúng ta có thể lặp qua mã thông báo.

Ví dụ:với chuỗi đầu vào -

Hi man, how have you been?

Chúng ta sẽ nhận được đầu ra -

['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']

Chúng tôi có thể mã hóa văn bản này bằng cách sử dụng phương thức word_tokenize từ NLTK. Ví dụ,

Ví dụ

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

my_sent = "Hi man, how have you been?"
tokens = word_tokenize(my_sent)

print(tokens)

Đầu ra

Điều này sẽ cung cấp đầu ra -

['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']