Computer >> Máy Tính >  >> Lập trình >> Python

Tensorflow và Python có thể được sử dụng như thế nào để tạo ra tensor rách rưới từ danh sách các từ?

Một RaggedTensor có thể được xây dựng bằng cách sử dụng các hiệu số bắt đầu của các từ trong câu. Thứ nhất, mã điểm của mọi ký tự trong mỗi từ trong câu được xây dựng. Tiếp theo, chúng được hiển thị trên bảng điều khiển. Số lượng từ trong câu cụ thể đó được xác định và phần bù được xác định.

Đọc thêm: TensorFlow là gì và cách Keras làm việc với TensorFlow để tạo Mạng thần kinh?

Biểu diễn các chuỗi Unicode bằng Python và thao tác với các chuỗi sử dụng Unicode tương đương. Lúc đầu, chúng tôi sẽ tách các chuỗi Unicode thành các mã thông báo dựa trên việc phát hiện tập lệnh với sự trợ giúp của các mã Unicode tương đương với các mã chuỗi chuẩn.

Chúng tôi đang sử dụng Google Colaboratory để chạy đoạn mã dưới đây. Google Colab hoặc Colaboratory giúp chạy mã Python qua trình duyệt và không yêu cầu cấu hình cũng như quyền truy cập miễn phí vào GPU (Đơn vị xử lý đồ họa). Colaboratory đã được xây dựng trên Jupyter Notebook.

print("Get the code point of every character in every word")
word_char_codepoint = tf.RaggedTensor.from_row_starts(
   values=sentence_char_codepoint.values,
   row_starts=word_starts)
print(word_char_codepoint)
print("Get the number of words in the specific sentence")
sentence_num_words = tf.reduce_sum(tf.cast(sentence_char_starts_word, tf.int64), axis=1)

Mã tín dụng:https://www.tensorflow.org/tutorials/load_data/unicode

Đầu ra

Get the code point of every character in every word
<tf.RaggedTensor [[72, 101, 108, 108, 111], [44, 32], [116, 104, 101, 114, 101], [46], [19990, 30028], [12371, 12435, 12395, 12385, 12399]]>
Get the number of words in the specific sentence

Giải thích

  • Điểm mã cho mọi ký tự trong mỗi từ được tạo.
  • Những thứ này được hiển thị trên bảng điều khiển.
  • Số lượng từ trong câu cụ thể đó được xác định.