Scikit-learning, thường được gọi là sklearn là một thư viện bằng Python được sử dụng cho mục đích triển khai các thuật toán học máy.
Nó là một thư viện mã nguồn mở do đó nó có thể được sử dụng miễn phí. Mạnh mẽ và mạnh mẽ, vì nó cung cấp nhiều công cụ để thực hiện mô hình thống kê. Điều này bao gồm phân loại, hồi quy, phân cụm, giảm kích thước và hơn thế nữa với sự trợ giúp của giao diện ổn định và mạnh mẽ trong Python. Thư viện này được xây dựng dựa trên các thư viện Numpy, SciPy và Matplotlib.
Nó có thể được cài đặt bằng lệnh ‘pip’ như hình dưới đây -
pip install scikit-learn
Thư viện này tập trung vào mô hình hóa dữ liệu.
Có rất nhiều mô hình được sử dụng trong scikit-learning, và một số mô hình trong số đó đã được tóm tắt bên dưới.
Thuật toán học được giám sát
Thuật toán học có giám sát được dạy để hoạt động theo một cách nhất định. Một đầu ra mong muốn nhất định được ánh xạ tới một đầu vào nhất định, do đó cung cấp sự giám sát của con người. Điều này có thể là bằng cách gắn nhãn các tính năng (các biến có trong tập dữ liệu đầu vào), bằng cách cung cấp phản hồi cho dữ liệu (liệu kết quả đầu ra có được thuật toán dự đoán chính xác hay không, và nếu không thì dự đoán đúng phải là gì), v.v. P>
Một khi thuật toán được đào tạo hoàn toàn trên dữ liệu đầu vào như vậy, nó có thể được tổng quát hóa để hoạt động cho các loại dữ liệu tương tự. Nó sẽ có khả năng dự đoán kết quả cho các đầu vào chưa từng thấy nếu mô hình được đào tạo có các chỉ số hiệu suất tốt. Đây là một thuật toán học tập đắt tiền vì con người cần phải gắn nhãn vật lý cho tập dữ liệu đầu vào, do đó làm tăng thêm chi phí.
Sklearn giúp triển khai Máy vectơ hỗ trợ hồi quy tuyến tính, Cây quyết định, v.v.
Học tập không giám sát
Điều này trái ngược với học có giám sát, tức là tập dữ liệu đầu vào không được gắn nhãn, do đó cho thấy không có sự giám sát của con người. Thuật toán học từ dữ liệu không được gắn nhãn như vậy, trích xuất các mẫu, thực hiện các dự đoán, cung cấp thông tin chi tiết về dữ liệu và tự thực hiện các hoạt động khác. Hầu hết các trường hợp, dữ liệu trong thế giới thực là không có cấu trúc và không có nhãn.
Sklearn giúp triển khai phân nhóm, phân tích nhân tố, phân tích thành phần chính, mạng nơ-ron, v.v.
Phân cụm
Dữ liệu tương tự được nhóm thành một cấu trúc và bất kỳ nhiễu nào (dữ liệu ngoại lệ hoặc bất thường) sẽ nằm ngoài cụm này mà sau này có thể bị loại bỏ hoặc bỏ qua.
Xác thực chéo
Đây là một quá trình trong đó tập dữ liệu gốc được chia thành hai phần - 'tập dữ liệu đào tạo' và 'tập dữ liệu thử nghiệm'. Sự cần thiết của "bộ dữ liệu xác thực" được loại bỏ khi sử dụng xác thực chéo. Có nhiều biến thể của phương pháp 'xác thực chéo'. Phương pháp xác thực chéo được sử dụng phổ biến nhất là xác thực chéo ‘k’.
Giảm kích thước
Giảm kích thước cho biết về các kỹ thuật được sử dụng để giảm số lượng tính năng trong tập dữ liệu. Nếu số lượng các tính năng nhiều hơn trong một tập dữ liệu, thì việc lập mô hình thuật toán thường rất khó khăn. Nếu tập dữ liệu đầu vào có quá nhiều biến, hiệu suất của các thuật toán học máy có thể giảm đáng kể.
Việc có một số lượng lớn kích thước trong không gian đối tượng yêu cầu dung lượng bộ nhớ lớn và điều này có nghĩa là không phải tất cả dữ liệu đều có thể được biểu diễn một cách khéo léo trên không gian (các hàng dữ liệu). Điều này có nghĩa là, hiệu suất của thuật toán học máy sẽ bị ảnh hưởng và điều này còn được gọi là 'lời nguyền về chiều'. Do đó, đề xuất giảm số lượng các tính năng đầu vào trong tập dữ liệu. Do đó có tên là "giảm kích thước".