Computer >> Máy Tính >  >> Lập trình >> Python

Làm thế nào để vectơ hóa văn bản có thể được áp dụng trên tập dữ liệu câu hỏi stackoverflow bằng Tensorflow và Python?

Tensorflow là một khuôn khổ học máy được cung cấp bởi Google. Nó là một khung công tác mã nguồn mở được sử dụng kết hợp với Python để triển khai các thuật toán, ứng dụng học sâu và hơn thế nữa. Nó được sử dụng trong nghiên cứu và cho mục đích sản xuất.

Gói 'tensorflow' có thể được cài đặt trên Windows bằng dòng mã bên dưới -

 pip cài đặt tensorflow 

Tensor là một cấu trúc dữ liệu được sử dụng trong TensorFlow. Nó giúp kết nối các cạnh trong một sơ đồ luồng. Sơ đồ luồng này được gọi là 'Biểu đồ luồng dữ liệu'. Tensors không là gì khác ngoài một mảng đa chiều hoặc một danh sách.

Chúng tôi đang sử dụng Google Colaboratory để chạy đoạn mã dưới đây. Google Colab hoặc Colaboratory giúp chạy mã Python qua trình duyệt và không yêu cầu cấu hình cũng như quyền truy cập miễn phí vào GPU (Đơn vị xử lý đồ họa). Colaboratory đã được xây dựng trên Jupyter Notebook.

Ví dụ

Sau đây là đoạn mã -

 print ("1234 --->", int_vectorize_layer.get_vocabulary () [1289]) print ("321 --->", int_vectorize_layer.get_vocabulary () [313]) print ("Kích thước từ vựng là:{} ".format (len (int_vectorize_layer.get_vocabulary ()))) print (" Vectơ hóa văn bản được áp dụng cho tập dữ liệu đào tạo ") binary_train_ds =raw_train_ds.map (binary_vectorize_text) print (" Vectơ hóa văn bản được áp dụng cho tập dữ liệu xác thực ") binary_val_ds =raw_val_ds.map (binary_vectorize_text) print ("Văn bản hóa vectơ được áp dụng cho tập dữ liệu thử nghiệm") binary_test_ds =raw_test_ds.map (binary_vectorize_text) int_train_ds =raw_train_ds.map (int_vectorize_ds_test_test_ds_text int_val_ds_text bản đồ (int_vectorize_text) 

Tín dụng mã - https://www.tensorflow.org/tutorials/load_data/text

Đầu ra

 1234 ---> substring321 ---> 20 Kích thước từ vựng là:10000 

Giải thích

  • Là bước tiền xử lý cuối cùng, lớp ‘TextVectorization’ được áp dụng trên dữ liệu đào tạo, dữ liệu thử nghiệm và tập dữ liệu xác thực.