Cây quyết định được sử dụng để phân loại như thế nào?

Quy nạp cây quyết định là việc học các cây quyết định từ các bộ đào tạo có nhãn lớp. Cây quyết định là một cấu trúc cây giống như sơ đồ tuần tự, trong đó mỗi nút bên trong (nút không phải nút) chỉ ra một thử nghiệm trên một thuộc tính, mỗi nhánh xác định một kết quả của thử nghiệm và mỗi nút lá (hoặc nút đầu cuối) ảnh hưởng đến một lớp nhãn. Nút cao nhất trong cây là nút gốc.

Nó định nghĩa khái niệm mua máy tính, tức là nó dự đoán liệu người dùng tại AllElectronics có khả năng mua máy tính hay không. Các nút bên trong được biểu thị bằng hình chữ nhật và các nút lá được biểu thị bằng hình bầu dục. Có nhiều thuật toán cây quyết định chỉ tạo cây nhị phân (trong đó mỗi nút bên trong phân nhánh chính xác đến hai nút khác), trong khi các thuật toán khác có thể tạo cây không nhị phân.

Cho trước một bộ, X, mà nhãn lớp liên quan là ẩn danh, các giá trị thuộc tính của bộ được kiểm tra dựa trên cây quyết định. Một hướng được truy tìm từ gốc đến nút lá, ảnh hưởng đến dự đoán lớp cho bộ tuple đó. Cây quyết định có thể được thay đổi thành quy tắc phân loại.

Việc phát triển bộ phân loại cây quyết định không cần một số kiến thức miền hoặc thiết lập tham số, do đó phù hợp cho việc khám phá kiến thức khám phá.

Cây quyết định có thể quản lý dữ liệu kích thước lớn. Mô tả của họ về kiến thức thu được ở dạng cây là trực quan và thường dễ hiểu đối với con người. Giai đoạn tìm hiểu và phân loại của quy nạp cây quyết định rất dễ dàng và nhanh chóng.

Nói chung, bộ phân loại cây quyết định có hiệu quả tốt. Tuy nhiên, việc sử dụng thành công có thể dựa trên dữ liệu trong tay. Các thuật toán cảm ứng cây quyết định đã được sử dụng để phân loại trong một số lĩnh vực ứng dụng, bao gồm y học, chế tạo và sản xuất, phân tích tiền tệ, thiên văn học và sinh học phân tử. Cây quyết định dựa trên nhiều hệ thống quy tắc thương mại.

Trong quá trình xây dựng cây, các biện pháp lựa chọn thuộc tính được sử dụng để chọn thuộc tính phân chia tốt nhất các bộ giá trị thành các lớp khác nhau. Khi cây quyết định được xây dựng, một số nhánh có thể phản ánh tiếng ồn hoặc ngoại lệ trong hồ sơ đào tạo. Tỉa cây cố gắng nhận ra và loại bỏ những cành như vậy, với mục đích cải thiện độ chính xác của phân loại trên dữ liệu chưa xem xét.

ID3, C4.5 và CART phê chuẩn một phương pháp tham lam (tức là không quay lui) trong đó cây quyết định được xây dựng theo phương pháp chia và chinh phục đệ quy từ trên xuống. Một số thuật toán để quy nạp cây quyết định cũng tuân theo phương pháp từ trên xuống như vậy, bắt đầu với một tập hợp các bộ giá trị đào tạo và các nhãn lớp liên quan của chúng. Tập hợp huấn luyện được phân chia đệ quy thành các tập con nhỏ hơn khi cây đang được xây dựng.