Phân tách Bias-Variance là gì?

Hiệu quả của việc kết hợp nhiều giả thuyết có thể được kiểm tra thông qua một thiết bị lý thuyết được gọi là phân tích phương sai sai lệch. Giả sử nó có thể có vô số bộ huấn luyện riêng biệt có kích thước tương tự và sử dụng chúng để tạo vô số bộ phân loại.

Một phiên bản thử nghiệm được xử lý bởi tất cả các bộ phân loại và một câu trả lời riêng lẻ được quyết định bằng cách bỏ phiếu hàng loạt. Trong tình huống này, lỗi sẽ xuất hiện vì không có thiết kế học tập nào là hoàn hảo. Tỷ lệ lỗi sẽ dựa trên mức độ tốt của các phương pháp học máy kết nối vấn đề và có ảnh hưởng của nhiễu trong bản ghi, điều này có thể không thể học được.

Giả sử tỷ lệ lỗi dự kiến được tính bằng cách tính trung bình lỗi của bộ phân loại được liên kết trên vô số ví dụ kiểm tra được chọn riêng biệt. Tỷ lệ lỗi cho một thuật toán học tập cụ thể được gọi là độ chệch của nó đối với vấn đề học tập và tính toán mức độ kết nối của phương pháp học tập với vấn đề.

Nó tính toán lỗi "dai dẳng" của một thuật toán học tập mà không thể bị xóa ngay cả khi tính đến vô số nhóm đào tạo. Nó không thể được tính toán chính xác trong các tình huống thực tế; nó chỉ có thể là gần đúng.

Nguồn lỗi thứ hai trong một mô hình đã học bắt nguồn từ tập huấn luyện cụ thể được sử dụng, tập hợp này nhất thiết phải hữu hạn và do đó không hoàn toàn đại diện cho tập hợp thực tế của các trường hợp.

Giá trị mong đợi của phần tử lỗi này, trên tất cả các nhóm đào tạo có thể có kích thước đã cho và tất cả các bộ kiểm tra có thể có, được gọi là phương sai của phương pháp học cho vấn đề đó. Lỗi hoàn toàn dự kiến của bộ phân loại được tạo ra từ tổng số thiên vị và phương sai - đây là sự phân tách thiên vị-phương sai.

Sự phân tách độ lệch-phương sai đã được học trong bối cảnh dự đoán toán học phụ thuộc vào sai số bình phương, nơi có một cách thực hiện nó được chấp nhận rộng rãi. Tuy nhiên, tình hình không rõ ràng để phân loại và nhiều cách phân tách cạnh tranh khác nhau đã được gợi ý.

Bagging cố gắng vô hiệu hóa sự không ổn định của các phương pháp tiếp cận học tập bằng cách mô phỏng giai đoạn được xác định trước đó bằng cách sử dụng một tập hợp đào tạo nhất định. Thay vì lấy mẫu một bộ dữ liệu đào tạo mới, riêng biệt mỗi lần, dữ liệu đào tạo ban đầu được thay đổi bằng cách loại bỏ một số phiên bản và sao chép những phiên bản khác. Các phiên bản được lấy mẫu ngẫu nhiên, có khôi phục, từ tập dữ liệu ban đầu để tạo một phiên bản mới có kích thước tương đương. Quá trình lấy mẫu này chắc chắn sẽ sao chép một số bản sao và loại bỏ những bản khác.

Các tập dữ liệu được tạo bằng cách lấy mẫu lại khác với nhau nhưng không độc lập vì chúng được thiết lập trên một tập dữ liệu. Tuy nhiên, hóa ra việc đóng gói làm cho một mô hình kết hợp triển khai tốt hơn đáng kể so với mô hình riêng lẻ được xây dựng từ dữ liệu đào tạo ban đầu và về cơ bản không bao giờ tồi tệ hơn.