Computer >> Máy Tính >  >> Lập trình >> Python

Làm cách nào để làm sạch dữ liệu để dự đoán hiệu suất nhiên liệu với bộ dữ liệu Auto MPG sử dụng TensorFlow?


Tensorflow là một khuôn khổ học máy do Google cung cấp. Nó là một khung công tác mã nguồn mở được sử dụng cùng với Python để triển khai các thuật toán, ứng dụng học sâu và hơn thế nữa.

Gói 'tensorflow' có thể được cài đặt trên Windows bằng dòng mã bên dưới -

pip install tensorflow

Tensor là một cấu trúc dữ liệu được sử dụng trong TensorFlow. Nó giúp kết nối các cạnh trong một sơ đồ luồng. Sơ đồ luồng này được gọi là 'Biểu đồ luồng dữ liệu'. Hàng căng không là gì ngoài mảng nhiều chiều hoặc một danh sách.

Mục đích đằng sau bài toán hồi quy là dự đoán đầu ra của một biến số liên tục hoặc rời rạc, chẳng hạn như giá cả, xác suất, liệu trời có mưa hay không, v.v.

Tập dữ liệu chúng tôi sử dụng được gọi là tập dữ liệu ‘Auto MPG’. Nó chứa hiệu suất nhiên liệu của ô tô những năm 1970 và 1980. Nó bao gồm các thuộc tính như trọng lượng, mã lực, dịch chuyển, v.v. Với điều này, chúng ta cần dự đoán hiệu quả sử dụng nhiên liệu của các loại xe cụ thể.

Chúng tôi đang sử dụng Google Colaboratory để chạy đoạn mã dưới đây. Google Colab hoặc Colaboratory giúp chạy mã Python qua trình duyệt và không yêu cầu cấu hình cũng như quyền truy cập miễn phí vào GPU (Đơn vị xử lý đồ họa). Colaboratory đã được xây dựng trên Jupyter Notebook.

Sau đây là đoạn mã, trong đó chúng ta sẽ xem cách dữ liệu có thể được làm sạch để dự đoán hiệu quả nhiên liệu với bộ dữ liệu MPG tự động sử dụng TensorFlow -

Ví dụ

print("Data cleaning has begun")
dataset.isna().sum()
dataset = dataset.dropna()
dataset['Origin'] = dataset['Origin'].map({1: 'USA', 2: 'Europe', 3: 'Japan'})

print("Data cleaning complete!")
dataset = pd.get_dummies(dataset, prefix='', prefix_sep='')

print("A sample of dataset after data cleaning :")
dataset.head(4)

Mã tín dụng - https://www.tensorflow.org/tutorials/keras/regression

Đầu ra

Data cleaning has begun
Data cleaning complete!
A sample of dataset after data cleaning −



MPG Xi lanh Chuyển vị mã lực trọng lượng Tăng tốc Năm mô hình Châu Âu Nhật Bản Hoa Kỳ
0 18.0 8 307.0 130.0 3504.0 12.0 70 0 0 1
1 15.0 8 350.0 165.0 3693.0 11,5 70 0 0 1
2 18.0 8 318.0 150.0 3436.0 11.0 70 0 0 1
3 16.0 8 304.0 150.0 3433.0 12.0 70 0 0 1

Giải thích

  • Quá trình làm sạch dữ liệu bắt đầu bằng cách xóa ‘nan’ có trong tập dữ liệu.

  • Hàm 'bản đồ' được sử dụng để ánh xạ nhãn với tên cột.

  • Một mẫu của tập dữ liệu sau khi làm sạch dữ liệu được hiển thị trên bảng điều khiển.