Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các phương pháp ước lượng trong khai thác dữ liệu là gì?


Xác thực chéo 10 lần là cách tiêu chuẩn để đo tỷ lệ lỗi của một sơ đồ học tập trên một tập dữ liệu cụ thể; để có kết quả đáng tin cậy, xác thực chéo gấp 10 lần. Có hai phương pháp là xác thực chéo bỏ đi và bootstrap.

Xác thực chéo để lại một lần

Xác thực chéo để lại một lần là xác thực chéo công khai n lần, trong đó n là nhiều trường hợp trong tập dữ liệu. Lần lượt từng trường hợp bị loại ra, và lược đồ học tập được đào tạo trên tất cả các trường hợp còn lại. Nó được tính bằng độ đúng của nó trên trường hợp còn lại — tương ứng là một hoặc không cho thành công hay thất bại. Kết quả của tất cả n phán đoán, một cho mỗi nhóm của tập dữ liệu, được tính trung bình và giá trị trung bình đó xác định ước tính lỗi cuối cùng.

Quá trình này là một quá trình thú vị vì hai lý do. Đầu tiên, số lượng bản ghi cao nhất có thể có thể được sử dụng để đào tạo trong mỗi trường hợp, điều này có lẽ sẽ cải thiện khả năng bộ phân loại là bộ xác thực.

Thứ hai, quy trình này mang tính xác định - Không cần lấy mẫu ngẫu nhiên. Không có ích gì khi lặp lại nó 10 lần, hoặc lặp lại nó cả. Kết quả tương tự sẽ nhận được mỗi lần. Chống lại điều này là chi phí tính toán cao vì toàn bộ giai đoạn học tập phải được thực hiện n lần và điều này nói chung là không khả thi đối với các tập dữ liệu cao.

Bootstrap

Phương pháp ước tính thứ hai mà chúng tôi mô tả, bootstrap, dựa trên quy trình thống kê của việc lấy mẫu có thay thế. Trước đây, bất cứ khi nào một mẫu được lấy từ tập dữ liệu để tạo thành một tập huấn luyện hoặc thử nghiệm, nó sẽ được rút ra mà không cần thay thế.

Hầu hết các sơ đồ học tập đều có thể sử dụng cùng một trường hợp hai lần và nó tạo ra sự khác biệt trong kết quả học tập nếu nó xuất hiện trong tập huấn luyện hai lần. Ý tưởng của bootstrap là lấy mẫu tập dữ liệu thay thế để tạo thành tập huấn luyện. Chúng tôi sẽ mô tả một biến thể cụ thể, bí ẩn (nhưng vì một lý do sẽ sớm trở nên rõ ràng) được gọi là chiến dịch khởi động 0,632.

Đối với điều này, một tập dữ liệu gồm n cá thể được lấy mẫu n lần, với sự khôi phục, để cung cấp một tập dữ liệu khác gồm n thể hiện. Bởi vì một số phần tử trong tập dữ liệu thứ hai này sẽ (gần như chắc chắn) được lặp lại, nên phải có một số trường hợp trong tập dữ liệu ban đầu chưa được chọn — chúng tôi sẽ sử dụng chúng làm trường hợp thử nghiệm.

Con số thu được bằng cách huấn luyện một hệ thống học tập trên tập huấn luyện và tính toán lỗi của nó trên tập kiểm tra sẽ là một ước tính bi quan về tỷ lệ lỗi thực sự vì tập huấn luyện, mặc dù kích thước của nó là n, tuy nhiên chỉ chứa 63% các trường hợp, chẳng hạn như so sánh với 90% được sử dụng trong xác thực chéo gấp mười lần.