Computer >> Máy Tính >  >> Lập trình >> Python

Giải thích cách thư viện scikit-learning có thể được sử dụng để phân chia tập dữ liệu cho các mục đích đào tạo và thử nghiệm trong Python?

Scikit-learning, thường được gọi là sklearn là một thư viện bằng Python được sử dụng cho mục đích triển khai các thuật toán học máy. Nó mạnh mẽ và mạnh mẽ, vì nó cung cấp nhiều công cụ để thực hiện mô hình thống kê.

Điều này bao gồm phân loại, hồi quy, phân cụm, giảm kích thước và hơn thế nữa với sự trợ giúp của giao diện ổn định và mạnh mẽ trong Python. Được xây dựng trên các thư viện Numpy, SciPy và Matplotlib.

Trước khi chuyển dữ liệu đầu vào cho thuật toán Học máy, nó phải được chia thành tập dữ liệu đào tạo và kiểm tra.

Khi dữ liệu phù hợp với mô hình đã chọn, tập dữ liệu đầu vào sẽ được đào tạo trên mô hình này. Khi khóa đào tạo diễn ra, mô hình học hỏi từ dữ liệu.

Nó cũng học cách khái quát hóa trên dữ liệu mới. Tập dữ liệu thử nghiệm sẽ không được sử dụng trong quá trình đào tạo mô hình.

Sau khi tất cả các siêu tham số được điều chỉnh và đặt trọng số tối ưu, tập dữ liệu thử nghiệm sẽ được cung cấp cho thuật toán học máy.

Đây là tập dữ liệu được sử dụng để kiểm tra xem thuật toán tổng quát hóa thành dữ liệu mới tốt như thế nào. Hãy để chúng tôi xem cách dữ liệu có thể được phân chia bằng cách sử dụng thư viện scikit-learning.

Ví dụ

from sklearn.datasets import load_iris
my_data = load_iris()
X = my_data.data
y = my_data.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size = 0.2, random_state = 2
)
print("The dimensions of the features of training data ")
print(X_train.shape)
print("The dimensions of the features of test data ")
print(X_test.shape)
print("The dimensions of the target values of training data ")
print(y_train.shape)
print("The dimensions of the target values of test data ")
print(y_test.shape)

Đầu ra

The dimensions of the features of training data
(120, 4)
The dimensions of the features of test data
(30, 4)
The dimensions of the target values of training data
(120,)
The dimensions of the target values of test data
(30,)

Giải thích

  • Các gói bắt buộc đã được nhập.
  • Tập dữ liệu cần thiết cho việc này cũng được tải vào môi trường.
  • Các tính năng và giá trị mục tiêu được tách biệt khỏi tập dữ liệu.
  • Dữ liệu đào tạo và dữ liệu kiểm tra được chia theo tỷ lệ tương ứng là 80 phần trăm và 20 phần trăm.
  • Điều này có nghĩa là 20% dữ liệu sẽ được sử dụng để kiểm tra mức độ tổng quát của mô hình trên dữ liệu mới.
  • Những phần tách này cùng với kích thước của dữ liệu được in trên bảng điều khiển.