Thuật toán cắt tỉa C5 là gì?

C5 là phiên bản hiện tại của thuật toán cây quyết định mà nhà nghiên cứu người Úc, J. Ross Quinlan đã phát triển và hoàn thiện trong vài năm. Phiên bản trước đó, ID3, được thành lập vào năm 1986, có ảnh hưởng trong lĩnh vực học máy và các phiên bản kế nhiệm của nó được sử dụng trong nhiều dịch vụ khai thác dữ liệu thương mại.

Những cây tăng thêm C5 cũng giống như những cây được cải thiện bởi CART. Giống như CART, thuật toán C5 trước tiên cải thiện một cây overfit và sau đó cắt bớt nó để tạo ra một mô hình năng động hơn. Phương pháp cắt tỉa phức tạp, nhưng C5 không tạo ra việc sử dụng tập hợp xác thực để lựa chọn giữa các cây con ứng cử viên.

Dữ liệu tương tự được sử dụng để tăng cây cũng được sử dụng để xác định cây phải được cắt tỉa như thế nào. Điều này có thể phản ánh cơ sở của thuật toán trong toàn cầu học thuật, nơi mà trước đây, các nhà nghiên cứu đại học đã phải trải qua một thời gian phức tạp khi nhận được số lượng đáng kể của bản ghi thực để sử dụng cho các tập huấn luyện. Do đó, họ đã dành nhiều thời gian và nỗ lực để cố gắng thu thập những giọt dữ liệu cuối cùng từ bộ dữ liệu kém của họ — một vấn đề mà những người khai thác dữ liệu trong thế giới kinh doanh không nhìn ra.

C5 cắt tỉa cây bằng cách xác định tỷ lệ lỗi tại mỗi nút và xem xét rằng tỷ lệ lỗi thực sự thấp hơn đáng kể. Nếu N bản ghi xuất hiện tại một nút và E trong số chúng được xác định không chính xác, do đó tỷ lệ lỗi tại nút đó là E / N.

C5 cần một phép tương tự với lấy mẫu thống kê để xuất hiện với một ước tính về chi phí lỗi tồi tệ nhất có thể được xem ở một lá. Phép loại suy hoạt động bằng cách coi thông tin ở phần dưới là xác định kết quả của một chuỗi thử nghiệm, mỗi thử nghiệm có thể có một trong hai kết quả khả thi.

C5 cho rằng số lỗi quan sát được trên bản ghi đào tạo là giá trị thấp nhất của phạm vi này và thay thế giá trị cao nhất để có được chi phí lỗi dự báo của một lá, E / N trên bản ghi không nhìn thấy. Nút càng thấp, chi phí lỗi càng lớn. Khi ước tính cao cấp của nhiều lỗi tại một nút nhỏ hơn ước tính cho các lỗi của các nút con của nó, do đó, các nút con sẽ bị lược bớt.

Mục tiêu chính của mô hình là tạo ra các dự đoán nhất quán trên các dữ liệu chưa từng thấy trước đó. Một số quy tắc không thể đạt được mục tiêu đó nên được loại bỏ khỏi mô hình. Một số công cụ khai thác dữ liệu cho phép khách hàng cắt tỉa cây quyết định theo cách thủ công.

Đây là một cơ sở hữu ích, nhưng nó có thể chuyển tiếp sang phần mềm khai thác dữ liệu hỗ trợ cắt tỉa dựa trên động tự động như một tùy chọn. Ứng dụng như vậy yêu cầu phải có một yếu tố chủ quan ít hơn để phủ nhận sự phân tách hơn là “sự phân phối của các quan điểm kết quả tập hợp xác thực khác với sự phân phối của các kết quả của nhóm đào tạo.