Computer >> Máy Tính >  >> Lập trình >> Python

Tensorflow có thể được sử dụng như thế nào để định cấu hình tập dữ liệu câu hỏi stackoverflow bằng Python?

Tensorflow là một khuôn khổ học máy được cung cấp bởi Google. Nó là một khung công tác mã nguồn mở được sử dụng kết hợp với Python để triển khai các thuật toán, ứng dụng học sâu và hơn thế nữa. Nó được sử dụng trong nghiên cứu và cho mục đích sản xuất. Nó có các kỹ thuật tối ưu hóa giúp thực hiện các phép toán phức tạp một cách nhanh chóng. Điều này là do nó sử dụng NumPy và các mảng đa chiều. Các mảng đa chiều này còn được gọi là 'tensors'.

Khung hỗ trợ làm việc với một mạng nơ-ron sâu. Nó có khả năng mở rộng cao và đi kèm với nhiều bộ dữ liệu phổ biến. Nó sử dụng tính toán GPU và tự động hóa việc quản lý tài nguyên. Nó đi kèm với vô số thư viện máy học, được hỗ trợ tốt và được lập thành tài liệu. Khung có khả năng chạy các mô hình mạng nơ-ron sâu, đào tạo chúng và tạo các ứng dụng dự đoán các đặc điểm liên quan của các bộ dữ liệu tương ứng.

Gói 'tensorflow' có thể được cài đặt trên Windows bằng dòng mã bên dưới -

pip install tensorflow

Tensor là một cấu trúc dữ liệu được sử dụng trong TensorFlow. Nó giúp kết nối các cạnh trong một sơ đồ luồng. Sơ đồ luồng này được gọi là 'Biểu đồ luồng dữ liệu'. Tensors không là gì khác ngoài một mảng đa chiều hoặc một danh sách. Chúng có thể được xác định bằng ba thuộc tính chính -

  • Xếp hạng - Nó cho biết về kích thước của tensor. Nó có thể được hiểu là thứ tự của tensor hoặc số kích thước trong tensor đã được xác định.

  • Loại - Nó cho biết về kiểu dữ liệu được liên kết với các phần tử của Tensor. Nó có thể là tensor một chiều, hai chiều hoặc n-chiều.

  • Hình dạng - Là số hàng và số cột cùng nhau.

Chúng tôi đang sử dụng Google Colaboratory để chạy đoạn mã dưới đây. Google Colab hoặc Colaboratory giúp chạy mã Python qua trình duyệt và không yêu cầu cấu hình cũng như quyền truy cập miễn phí vào GPU (Đơn vị xử lý đồ họa). Colaboratory đã được xây dựng trên Jupyter Notebook.

Ví dụ

Sau đây là đoạn mã -

AUTOTUNE = tf.data.experimental.AUTOTUNE
print("The configure_dataset method is defined")
def configure_dataset(dataset):
   return dataset.cache().prefetch(buffer_size=AUTOTUNE)

print("The function is called on training dataset")
binary_train_ds = configure_dataset(binary_train_ds)
print("The function is called on validation dataset")
binary_val_ds = configure_dataset(binary_val_ds)
print("The function is called on test dataset")
binary_test_ds = configure_dataset(binary_test_ds)

int_train_ds = configure_dataset(int_train_ds)
int_val_ds = configure_dataset(int_val_ds)
int_test_ds = configure_dataset(int_test_ds)

Tín dụng mã - https://www.tensorflow.org/tutorials/load_data/text

Đầu ra

The configure_dataset method is defined
The function is called on training dataset
The function is called on validation dataset
The function is called on test dataset

Giải thích

  • Điều quan trọng là xác định hai phương pháp để đảm bảo rằng đầu vào hoặc đầu ra không bị chặn khi tải dữ liệu.

  • Phương thức "cache" giữ dữ liệu trong bộ nhớ ngay cả sau khi nó đã được tải ra khỏi đĩa.

  • Điều này đảm bảo rằng dữ liệu không trở thành trở ngại trong quá trình đào tạo.

  • Phương thức ‘tìm nạp trước’ làm quá tải quá trình xử lý trước dữ liệu và thực thi mô hình trong quá trình đào tạo.