Rừng ngẫu nhiên là gì?

Rừng ngẫu nhiên là một loại phương pháp tiếp cận tổng hợp được thiết kế đặc biệt cho các bộ phân loại cây quyết định. Nó tích hợp các dự đoán được thực hiện bởi một số cây quyết định, trong đó mỗi cây được tạo dựa trên các giá trị của một tập hợp các vectơ ngẫu nhiên riêng biệt.

Các vectơ ngẫu nhiên được tạo ra từ một phân phối xác suất không đổi, không giống như các phương pháp thích ứng được sử dụng trong AdaBoost, nơi mà phân phối xác suất là đa dạng cho các trường hợp mục tiêu khó phân loại.

Cây quyết định nhu cầu đóng túi là một trường hợp xác định của rừng ngẫu nhiên, trong đó tính ngẫu nhiên được đưa vào quy trình xây dựng mô hình bằng cách chọn ngẫu nhiên N mẫu, có phục hồi, từ tập huấn luyện ban đầu. Việc đóng bao cũng cần một phân phối xác suất đồng nhất tương tự để tạo ra các mẫu khởi động trong suốt giai đoạn xây dựng mô hình hoàn chỉnh.

Mỗi cây quyết định cần một vectơ ngẫu nhiên được tạo ra từ một số phân phối xác suất không đổi. Một vector ngẫu nhiên có thể được tích hợp vào quy trình trồng cây theo một số cách. Phương pháp đầu tiên là chọn ngẫu nhiên các đặc điểm đầu vào F để phân chia tại mỗi nút của cây quyết định.

Kết quả là, thay vì kiểm tra tất cả các tính năng có thể truy cập, quyết định phân chia một nút được quyết định từ các tính năng đã chọn này. Cây được phát triển toàn bộ mà không cần cắt tỉa. Điều này có thể giúp giảm độ lệch có trong cây sắp tới.

Bởi vì các cây đã được xây dựng, các dự đoán được kết nối với nhau bằng cách sử dụng thiết kế biểu quyết đa số. Cách tiếp cận này được gọi là Forest-Rl, trong đó RI xác định lựa chọn đầu vào ngẫu nhiên. Nó có thể cải thiện tính ngẫu nhiên, đóng bao có thể được sử dụng để tạo các mẫu bootstrap cho Forest-RI.

Độ bền và mối tương quan của các khu rừng ngẫu nhiên có thể dựa trên kích thước của F. Nếu F đủ nhỏ, do đó ảnh hưởng của cây trở nên ít tương quan hơn. Nói cách khác, sức mạnh của bộ phân loại cây ảnh hưởng đến việc tăng cường với một số tính năng cao hơn, F.

Nếu nhiều đối tượng gốc d quá nhỏ, do đó việc chọn một tập hợp các đối tượng ngẫu nhiên riêng biệt để xây dựng cây quyết định sẽ rất phức tạp. Có một phương pháp để tăng không gian đối tượng là tạo một tập hợp tuyến tính của các đối tượng đầu vào. Đặc biệt, tại mỗi nút, một tính năng mới được tạo ra bằng cách chọn ngẫu nhiên L của các tính năng đầu vào.

Các tính năng đầu vào được liên kết tuyến tính bằng cách sử dụng các hệ số được tạo ra từ sự phân bố đồng đều trong phạm vi [-1, 1]. Tại mỗi nút, F trong số các tính năng mới được kết hợp ngẫu nhiên như vậy được tạo ra, và điểm tốt nhất trong số đó cuối cùng được chọn để chia nút. Cách tiếp cận này được gọi là Forest-RC.