Computer >> Máy Tính >  >> Lập trình >> Python

Các tập lệnh rõ ràng đối với Tensorflow và Python là gì?

Mỗi điểm mã Unicode thuộc về một tập hợp các điểm mã duy nhất được gọi là một tập lệnh. Tập lệnh của một nhân vật xác định ngôn ngữ mà nhân vật sẽ thuộc về. TensorFlow đi kèm với phương thức ‘string.unicode_script’ giúp tìm tập lệnh nào sẽ được sử dụng bởi một điểm mã nhất định. Mã tập lệnh là các giá trị int32 có thể được ánh xạ tới các thành phần quốc tế cho các giá trị UScriptCode Unicode (ICU)

Đọc thêm: TensorFlow là gì và cách Keras làm việc với TensorFlow để tạo Mạng thần kinh?

Chúng tôi sẽ không biết cách biểu diễn chuỗi Unicode bằng Python và thao tác với những chuỗi sử dụng Unicode tương đương. Đầu tiên, hãy tách các chuỗi Unicode thành các mã thông báo dựa trên việc phát hiện tập lệnh với sự trợ giúp của các mã Unicode tương đương với các mã chuỗi chuẩn.

Chúng tôi đang sử dụng Google Colaboratory để chạy đoạn mã dưới đây. Google Colab hoặc Colaboratory giúp chạy mã Python qua trình duyệt và không yêu cầu cấu hình cũng như quyền truy cập miễn phí vào GPU (Đơn vị xử lý đồ họa). Colaboratory đã được xây dựng trên Jupyter Notebook.

print("The below represent '芸' and 'Б' respectively")
uscript = tf.strings.unicode_script([33464, 1041])  
print(uscript.numpy())   # [17, 8] == [USCRIPT_HAN, USCRIPT_CYRILLIC]
print("Applying to multidimensional strings")
print(tf.strings.unicode_script(batch_chars_ragged))

Tín dụng mã:https://www.tensorflow.org/tutorials/load_data/unicode

Đầu ra

The below represent '芸' and 'Б' respectively
[17   8]
Applying to multidimensional strings
<tf.RaggedTensor [[25, 25, 25, 25, 25], [25, 25, 25, 25, 0, 25, 25, 0, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 25, 25], [25, 25, 25, 25, 25, 25, 25, 25, 25], [0]]>

Giải thích

  • Mỗi điểm mã Unicode thuộc về một tập hợp các điểm mã duy nhất được gọi là tập lệnh.
  • Tập lệnh của nhân vật giúp xác định ngôn ngữ mà nhân vật có thể thuộc về.
  • TensorFlow cung cấp thao tác tf.strings.unicode_script để tìm ra tập lệnh mà một điểm mã nhất định sẽ sử dụng.
  • Mã tập lệnh là các giá trị int32 ánh xạ tới các thành phần quốc tế cho các giá trị UScriptCode Unicode (ICU).
  • Thao tác tf.strings.unicode_script có thể được áp dụng cho tf.Tensors đa chiều hoặc tf.RaggedTensors của codepoints.