Tiền xử lý dữ liệu đề cập đến việc làm sạch dữ liệu, loại bỏ dữ liệu không hợp lệ, nhiễu, thay thế dữ liệu bằng các giá trị có liên quan, v.v.
Xử lý trước dữ liệu về cơ bản đề cập đến nhiệm vụ tập hợp tất cả dữ liệu (được thu thập từ nhiều tài nguyên khác nhau hoặc một tài nguyên duy nhất) vào một định dạng chung hoặc thành các tập dữ liệu thống nhất (tùy thuộc vào loại dữ liệu). Đầu ra của một bước trở thành đầu vào cho bước tiếp theo, v.v.
Giá trị trung bình có thể phải được xóa khỏi dữ liệu đầu vào để có được kết quả cụ thể. Hãy để chúng tôi hiểu cách sử dụng thư viện scikit-learning.
Ví dụ
import numpy as np from sklearn import preprocessing input_data = np.array([ [34.78, 31.9, -65.5], [-16.5, 2.45, -83.5], [0.5, -87.98, 45.62], [5.9, 2.38, -55.82]]) print("Mean value is : ", input_data.mean(axis=0)) print("Standard deviation value is : ", input_data.std(axis=0)) data_scaled = preprocessing.scale(input_data) print("Mean value has been removed ", data_scaled.mean(axis=0)) print("Standard deviation has been removed ", data_scaled.std(axis=0))
Đầu ra
Mean value is : [ 6.17 -12.8125 -39.8 ] Standard deviation value is : [18.4708067 45.03642047 50.30754615] Mean value has been removed [-2.60208521e-18 -8.32667268e-17 -1.11022302e-16] Standard deviation has been removed [1. 1. 1.]
Giải thích
-
Các gói bắt buộc được nhập.
-
Dữ liệu đầu vào được tạo bằng thư viện Numpy.
-
Giá trị trung bình và độ lệch chuẩn được tính toán.
-
Chúng được hiển thị trên bảng điều khiển.
-
Hàm 'data_scaled' được sử dụng để xóa các giá trị trung bình và độ lệch chuẩn khỏi dữ liệu.
-
Dữ liệu trung bình và độ lệch chuẩn bị loại bỏ này được hiển thị trên bảng điều khiển.