Tensorflow có thể được sử dụng như thế nào để tải tập dữ liệu Illiad bằng Python?

Tensorflow là một khuôn khổ học máy được cung cấp bởi Google. Nó là một khung công tác mã nguồn mở được sử dụng kết hợp với Python để triển khai các thuật toán, ứng dụng học sâu và hơn thế nữa. Nó được sử dụng trong nghiên cứu và cho mục đích sản xuất.

Tensor là một cấu trúc dữ liệu được sử dụng trong TensorFlow. Nó giúp kết nối các cạnh trong một sơ đồ luồng. Sơ đồ luồng này được gọi là 'Biểu đồ luồng dữ liệu'. Tensors không là gì khác ngoài một mảng đa chiều hoặc một danh sách.

Chúng có thể được xác định bằng ba thuộc tính chính -

Xếp hạng - Nó cho biết về kích thước của tensor. Nó có thể được hiểu là thứ tự của tensor hoặc số kích thước trong tensor đã được xác định.
Loại - Nó cho biết về kiểu dữ liệu được liên kết với các phần tử của Tensor. Nó có thể là tensor một chiều, hai chiều hoặc n chiều.
Hình dạng - Là số hàng và số cột cùng nhau.

Chúng tôi sẽ sử dụng tập dữ liệu của Illiad, chứa dữ liệu văn bản của ba tác phẩm dịch của William Cowper, Edward (Earl of Derby) và Samuel Butler. Mô hình được đào tạo để xác định người dịch khi một dòng văn bản được đưa ra. Các tệp văn bản được sử dụng đã được xử lý trước. Điều này bao gồm việc xóa đầu trang và chân trang của tài liệu, số dòng và tiêu đề chương.

Chúng tôi đang sử dụng Google Colaboratory để chạy đoạn mã dưới đây. Google Colab hoặc Colaboratory giúp chạy mã Python qua trình duyệt và không yêu cầu cấu hình cũng như quyền truy cập miễn phí vào GPU (Đơn vị xử lý đồ họa). Colaboratory đã được xây dựng trên Jupyter Notebook.

Ví dụ

Sau đây là đoạn mã -

def labeler(example, index):
   return example, tf.cast(index, tf.int64)
print(“An empty list has been created”)
labeled_data_sets = []
print(“Iterate through the file names and create a dataset from text file using ‘TextLineDataset’
method”)
for i, file_name in enumerate(FILE_NAMES):
   lines_dataset = tf.data.TextLineDataset(str(parent_dir/file_name))
   labeled_dataset = lines_dataset.map(lambda ex: labeler(ex, i))
   labeled_data_sets.append(labeled_dataset)

Tín dụng mã - https://www.tensorflow.org/tutorials/load_data/text

Đầu ra

An empty list has been created
Iterate through the file names and create a dataset from text file using ‘TextLineDataset’ method

Giải thích

‘TextLineDataset’ được sử dụng để tạo tập dữ liệu tf.data.A từ một tệp văn bản.
Mỗi ví dụ là một dòng văn bản từ tệp gốc
‘Text_dataset_from_directory’ coi nội dung của một tệp như một ví dụ duy nhất.
TextLineDataset hữu ích khi làm việc với dữ liệu văn bản dựa trên dòng.
Lặp lại các tệp này và tải mọi hàng vào tập dữ liệu của riêng nó.
Mỗi ví dụ phải được gắn nhãn riêng, do đó, ‘tf.data.Dataset.map’ được sử dụng để áp dụng một hàm trình gắn nhãn cho mọi hàng.
Điều này sẽ lặp lại mọi ví dụ trong tập dữ liệu và trả về các cặp (ví dụ, nhãn) dưới dạng đầu ra.