Computer >> Máy Tính >  >> Lập trình >> Python

Tensorflow có thể được sử dụng như thế nào để tải xuống và khám phá tập dữ liệu IMDB bằng Python?


Tensorflow là một khuôn khổ học máy do Google cung cấp. Nó là một khung công tác mã nguồn mở được sử dụng cùng với Python để triển khai các thuật toán, ứng dụng học sâu và hơn thế nữa. Nó được sử dụng trong nghiên cứu và cho mục đích sản xuất.

Điều này là do nó sử dụng NumPy và mảng đa chiều. Các mảng đa chiều này còn được gọi là 'tensors'. Khung hỗ trợ làm việc với mạng nơ-ron sâu. Nó có khả năng mở rộng cao và đi kèm với nhiều bộ dữ liệu phổ biến. Nó sử dụng tính toán GPU và tự động hóa việc quản lý tài nguyên. Nó đi kèm với vô số thư viện máy học, được hỗ trợ tốt và được lập thành tài liệu. Khung có khả năng chạy các mô hình mạng nơ-ron sâu, đào tạo chúng và tạo các ứng dụng dự đoán các đặc điểm liên quan của các bộ dữ liệu tương ứng.

Gói 'tensorflow' có thể được cài đặt trên Windows bằng dòng mã bên dưới -

 pip cài đặt tensorflow 

Tensor là một cấu trúc dữ liệu được sử dụng trong TensorFlow. Nó giúp kết nối các cạnh trong một sơ đồ luồng. Sơ đồ luồng này được gọi là 'Biểu đồ luồng dữ liệu'. Hàng căng không là gì ngoài mảng nhiều chiều hoặc một danh sách. Chúng có thể được xác định bằng ba thuộc tính chính -

Tập dữ liệu ‘IMDB’ chứa các bài đánh giá hơn 50 nghìn bộ phim. Tập dữ liệu này thường được sử dụng với các hoạt động liên quan đến Xử lý ngôn ngữ tự nhiên.

Chúng tôi đang sử dụng Google Colaboratory để chạy đoạn mã dưới đây. Google Colab hoặc Colaboratory giúp chạy mã Python qua trình duyệt và không yêu cầu cấu hình cũng như quyền truy cập miễn phí vào GPU (Đơn vị xử lý đồ họa). Colaboratory đã được xây dựng trên Jupyter Notebook.

Sau đây là mã -

Ví dụ

 import matplotlib.pyplot as pltimport osimport reimport shutilimport stringimport tensorflow dưới dạng tffrom tensorflow.keras nhập các lớp từ tensorflow.keras nhập lỗf từ tensorflow.keras nhập tiền xử lý từ tensorflow.keras.layers.experimental.preprocessflowing Phiên bản nhập Văn bản "The tensorization print (tf .__ version __) url ="https://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz"dataset =tf.keras.utils.get_file (" aclImdb_v1.tar.gz ", url, unaar =True, cache_dir ='.', cache_subdir ='') print ("Tập dữ liệu đang được tải xuống") dataset_dir =os.path.join (os.path.dirname (dataset), 'aclImdb') print ( "Các thư mục trong thư mục đã tải xuống là") os.listdir (dataset_dir) train_dir =os.path.join (dataset_dir, 'train') os.listdir (train_dir) print ("Mẫu dữ liệu:") sample_file =os. path.join (train_dir, 'pos / 1181_9.txt') với mở (sample_file) là f:print (f.read ()) remove_dir =os.path.join (tr ain_dir, 'unsup') shutil.rmtree (remove_dir) batch_size =32seed =42print ("Kích thước lô là") print (batch_size) raw_train_ds =tf.keras.preprocessing.text_dataset_from_directory ('aclImdb / train =', batch_size, validation. batch_spsize =0.2, subset ='training', seed =seed) cho text_batch, label_batch trong raw_train_ds.take (1):for i in range (3):print ("Review", text_batch.numpy () [i]) print ( "Nhãn", label_batch.numpy () [i]) print ("Nhãn 0 tương ứng với", raw_train_ds.class_names [0]) print ("Nhãn 1 tương ứng với", raw_train_ds.class_names [1]) raw_val_ds =tf.keras .preprocessing.text_dataset_from_directory ('aclImdb / train', batch_size =batch_size, validation_split =0.2, subset ='validation', seed =seed) raw_test_ds =tf.keras.preprocessing.text_size_dataset_from_directory, batch_size / test =test_directory / pre> 

Mã tín dụng - https://www.tensorflow.org/tutorials/keras/text_classification

Đầu ra

 Phiên bản tensorflow là 2.4.0 Bộ dữ liệu đang được tải xuống Các thư mục trong thư mục tải xuống Mẫu dữ liệu:Rachel Griffiths viết và đạo diễn bộ phim ngắn đoạt giải thưởng này. Một câu chuyện cảm động về việc đương đầu với đau buồn và trân trọng ký ức về những người chúng ta đã yêu thương và đã mất. Mặc dù, chỉ dài 15 phút, Griffiths xoay sở để ghi lại rất nhiều cảm xúc và sự thật vào phim trong một khoảng thời gian ngắn. Bud Tingwell mang đến một màn trình diễn cảm động trong vai Will, một góa phụ đang vật lộn để chống chọi với cái chết của vợ mình. Will phải đối mặt với thực tế khắc nghiệt của sự cô đơn và bất lực khi anh tiến hành chăm sóc con bò cưng của Ruth, Tulip. Bộ phim thể hiện sự đau buồn và trách nhiệm của một người đối với những người họ đã yêu thương và mất mát. Quay phim tốt, chỉ đạo tuyệt vời và hành động tuyệt vời. Nó sẽ rơi nước mắt cho tất cả những ai đã mất một người thân yêu còn sống sót. buồn cười hơn. Hãy tin tôi khi tôi nói với bạn, tôi yêu phim hài. Đặc biệt là những câu chuyện giả mạo hài. Bộ ba phim "Airplane", "The Naked Gun", "Blazing Saddles", "High Anxiety" và "Spaceballs" là một số bộ phim hài yêu thích của tôi giả mạo một thể loại cụ thể. "Pandemonium" không có ở đó với những bộ phim đó. Hầu hết các cảnh trong bộ phim này đều khiến tôi phải ngồi đó trong sự im lặng đến sững sờ vì bộ phim không hài hước đến thế. Trong phim có một vài trận cười, nhưng khi xem một bộ phim hài, bạn sẽ phải cười nhiều hơn vài lần và đó là tất cả những gì bộ phim này làm được. Geez, "Scream" gây cười nhiều hơn bộ phim này và nó giống một bộ phim kinh dị hơn. Điều đó thật kỳ lạ làm sao? * 1/2 (trên tổng số bốn) 'Nhãn 0Đánh giá b "David Mamet là một đạo diễn rất thú vị và không ngang hàng. Bộ phim đầu tiên của anh ấy' House of Games 'là bộ phim tôi thích nhất, và nó thiết lập một loạt phim với các nhân vật có quan điểm sống thay đổi khi họ rơi vào những tình huống phức tạp và quan điểm của người xem cũng vậy. . Các nhân vật chính là hai cảnh sát, một người Do Thái và một người Ailen xử lý một khu vực phân biệt chủng tộc. Việc sát hại một chủ cửa hàng Do Thái già, người chứng tỏ là một cựu chiến binh cổ đại trong cuộc Chiến tranh Độc lập của Israel đã kích hoạt bản sắc Do Thái trong tâm trí và trái tim của thám tử Do Thái. Đây là sai sót của bộ phim càng rõ ràng hơn. Quá trình thức tỉnh là sân khấu và khó tin, nhóm chiến binh Do Thái hoạt động mạnh mẽ, và cách mà vị thám tử cuối cùng bước đến cuộc đối đầu bạo lực cuối cùng là thảm hại. Cuối phim itse Nếu xét về góc độ tình cảm con người thì giống Mamet nhưng lại gây thất vọng ở góc độ tình cảm con người .Joe Mantegna và William Macy có những màn trình diễn mạnh mẽ, nhưng những sai sót trong câu chuyện quá rõ ràng để có thể dễ dàng bù đắp. " lính cứu hỏa trong cuộc tấn công khủng bố tồi tệ nhất mọi thời đại .. Chỉ riêng lý do đó thôi là lý do tại sao đây là món đồ phải xem của các nhà sưu tập .. Điều khiến tôi bị sốc không chỉ là các cuộc tấn công, mà còn là "Chế độ ăn kiêng nhiều chất béo" và ngoại hình của một số lính cứu hỏa này . Tôi nghĩ rằng rất nhiều Bác sĩ sẽ đồng ý với tôi rằng, với hình dạng vật chất mà họ đang có, một số lính cứu hỏa này KHÔNG lên được tầng 79 với trang bị hơn 60 lbs. Phải nói rằng bây giờ tôi có sự tôn trọng lớn hơn đối với những người lính cứu hỏa và tôi nhận ra rằng trở thành một lính cứu hỏa là một công việc thay đổi cuộc đời. Người Pháp có lịch sử làm phim tài liệu tuyệt vời \ 's và đó chính là điều này, một bộ phim tài liệu tuyệt vời .....' Nhãn 1 Nhãn 0 tương ứng với negLabel 1 tương ứng với posFound 25000 tệp thuộc 2 lớp. Sử dụng 5000 tệp để xác thực Tìm 25000 tệp thuộc 2 lớp. 

Giải thích

  • Các gói bắt buộc được nhập và đặt bí danh.

  • Dữ liệu ImdB được tải và lưu trữ ở một vị trí để Colab truy cập.

  • Một mẫu dữ liệu gốc được hiển thị trên bảng điều khiển.

  • Dữ liệu gốc được chia thành tập dữ liệu đào tạo và kiểm tra.

  • Dữ liệu đào tạo được sử dụng để xây dựng mô hình.

  • Dữ liệu đã cho được cố gắng phân loại thành đánh giá tiêu cực hoặc giá trị tích cực.