Computer >> Máy Tính >  >> Lập trình >> Lập trình

Đặc điểm của cảm ứng cây quyết định là gì?

Có nhiều đặc điểm khác nhau của quy nạp cây quyết định như sau -

Quy nạp cây quyết định là một phương pháp phi tham số để xây dựng các mô hình phân loại. Nói cách khác, nó không cần một số giả định trước đó về loại phân phối xác suất được thỏa mãn bởi lớp và các thuộc tính khác nhau.

Nó có thể được tìm thấy một cây quyết định tối ưu là một bài toán NP-đầy đủ. Nhiều thuật toán cây quyết định sử dụng cách tiếp cận dựa trên kinh nghiệm để hướng dẫn tìm kiếm của họ trong không gian giả thuyết rộng lớn.

Có nhiều kỹ thuật khác nhau được phát triển để xây dựng cây quyết định tính toán không tốn kém, giúp bạn có thể nhanh chóng xây dựng các mô hình ngay cả khi kích thước tập huấn luyện rất lớn. Hơn nữa, vì cây quyết định đã được phát triển, việc xác định dữ liệu thử nghiệm hoàn toàn nhanh chóng, với độ phức tạp trong trường hợp xấu nhất là O (w), trong đó w là độ sâu tối đa của cây.

Các cây quyết định, đặc biệt là các cây có kích thước nhỏ hơn, rất dễ thực hiện. Hiệu quả của cây cũng có thể so sánh với một số phương pháp phân loại cho một số tập dữ liệu.

Cây quyết định hỗ trợ mô tả biểu cảm để học các hàm có giá trị rời rạc. Nhưng chúng không khái quát hóa tốt cho một phương pháp cụ thể của các bài toán Boolean. Một thể hiện là hàm chẵn lẻ, có giá trị là 0 (1) khi có một số thuộc tính Boolean lẻ (chẵn) với giá trị True.

Sự hiện diện của các thuộc tính dư thừa không ảnh hưởng đến hiệu quả của cây quyết định. Một thuộc tính là dư thừa nếu nó có tương quan chặt chẽ với một thuộc tính khác trong dữ liệu. Không thể sử dụng hai thuộc tính thừa để chia vì thuộc tính khác đã được chọn.

Nhưng nếu tập dữ liệu bao gồm một số thuộc tính không liên quan, tức là các thuộc tính không có lợi cho dịch vụ phân loại, thì một số thuộc tính không liên quan có thể vô tình được chọn trong quá trình phát triển cây, dẫn đến cây quyết định lớn hơn mức cần thiết. Các kỹ thuật lựa chọn tính năng có thể giúp cải thiện độ chính xác của cây quyết định bằng cách loại bỏ các thuộc tính không liên quan trong quá trình tiền xử lý.

Bởi vì một số thuật toán cây quyết định sử dụng phương pháp phân vùng đệ quy từ trên xuống, nên nhiều dữ liệu trở nên nhỏ hơn khi nó có thể truyền xuống cây. Tại các nút lá, một số dữ liệu có thể quá nhỏ để tạo ra một quyết định có ý nghĩa thống kê về mô tả lớp của các nút. Đây được gọi là vấn đề phân mảnh dữ liệu. Một giải pháp khả thi là không cho phép chia tách nhiều hơn khi nhiều dữ liệu giảm xuống dưới một ngưỡng cụ thể.

Một cây con có thể được lặp lại nhiều lần trong cây quyết định. Điều này tạo ra cây quyết định khó hơn mức cần thiết và có thể phức tạp hơn để thực thi. Các tình huống khác nhau có thể tăng lên từ việc thực thi cây quyết định phụ thuộc vào một điều kiện kiểm tra thuộc tính duy nhất tại mọi nút bên trong.

Một số thuật toán cây quyết định cần phương pháp tiếp cận phân vùng chia để trị, điều kiện kiểm tra tương tự có thể được sử dụng cho nhiều phần của không gian thuộc tính, do đó, tôi cần giải quyết các vấn đề sao chép cây con.