Các phương pháp để xây dựng Bộ phân loại Ensemble là gì?

Khái niệm là xây dựng nhiều bộ phân loại từ dữ liệu ban đầu và sau đó tổng hợp các dự đoán của chúng khi mô tả các ví dụ chưa biết. Nhóm các bộ phân loại có thể được xây dựng theo một số phương pháp như sau -

Bằng cách thao tác tập hợp đào tạo - Trong phương pháp này, nhiều tập huấn luyện được tạo ra bằng cách lấy mẫu lại dữ liệu ban đầu theo một số phân phối lấy mẫu. Phân bố lấy mẫu quyết định khả năng các cá thể sẽ được chọn để đào tạo và nó có thể thay đổi từ thử nghiệm này sang thử nghiệm khác. Một bộ phân loại được xây dựng từ mỗi tập huấn luyện bằng cách sử dụng một thuật toán học cụ thể. Đóng gói và tăng cường là các trường hợp của các phương pháp tổng hợp điều khiển các tập huấn luyện của chúng.

Bằng cách thao tác các tính năng đầu vào - Trong phương pháp này, một tập hợp con các tính năng đầu vào được chọn để tạo thành mọi tập huấn luyện. Tập hợp con có thể được chọn ngẫu nhiên hoặc tùy thuộc vào đề xuất của các chuyên gia tên miền. Một số nghiên cứu cho thấy rằng phương pháp này hoạt động rất tốt với các tập dữ liệu bao gồm các tính năng cực kỳ dư thừa. Rừng ngẫu nhiên là một kỹ thuật tổng hợp sử dụng các tính năng đầu vào của nó và cần cây quyết định làm bộ phân loại cơ sở của nó.

Bằng cách thao tác với nhãn lớp - Phương thức này có thể được sử dụng khi một số lớp đủ lớn. Dữ liệu huấn luyện được thay đổi thành một bài toán lớp nhị phân bằng cách chia nhỏ ngẫu nhiên các nhãn lớp thành hai tập con rời nhau, chẳng hạn như A0 và A1.

Các cá thể huấn luyện có nhãn lớp áp dụng cho tập hợp con A0 được định nghĩa cho lớp 0, trong khi các cá thể áp dụng cho tập con A1 được xác định cho lớp 1. Các cá thể được gắn nhãn lại được sử dụng để huấn luyện một bộ phân loại cơ sở. Bằng cách lặp lại nhiều lần, các bước xây dựng mô hình và gắn nhãn lớp lại nhiều lần, một tập hợp các bộ phân loại cơ sở sẽ được thu thập.

Khi một cá thể thử nghiệm được trình bày, mỗi bộ phân loại cơ sở Ci có thể dự đoán nhãn lớp của nó. Nếu các trường hợp thử nghiệm được dự đoán là lớp 0, thì tất cả các lớp áp dụng cho A0 sẽ nhận được phiếu bầu.

Bằng cách sử dụng thuật toán học tập - Một số thuật toán học tập có thể được thao tác theo phương pháp sao cho việc sử dụng thuật toán nhiều lần trên dữ liệu huấn luyện bằng nhau có thể dẫn đến nhiều mô hình. Ví dụ, một mạng nơ-ron nhân tạo có thể tạo ra một số mô hình bằng cách sửa đổi cấu trúc liên kết mạng của nó hoặc trọng số ban đầu của các kết nối giữa các nơ-ron. Tương tự, một nhóm cây quyết định có thể được tập hợp bằng cách đưa tính ngẫu nhiên vào quá trình trồng cây.

Ba phương pháp đầu tiên là các kỹ thuật chung phù hợp với một số bộ phân loại, trong khi phương pháp thứ tư dựa trên loại bộ phân loại được sử dụng. Các phương thức phân loại cơ sở có thể được tạo tuần tự (cái khác) hoặc song song (tất cả cùng một lúc).

Quá trình đầu tiên là tạo ra một tập huấn luyện từ dữ liệu ban đầu D. Nó dựa trên loại phương pháp tiếp cận tổng hợp được sử dụng, các tập huấn luyện chính xác hoặc chuyển đổi nhẹ thành D. Kích thước của tập huấn luyện được duy trì giống như dữ liệu ban đầu, nhưng việc phân phối các trường hợp không thể giống nhau, tức là một số trường hợp có thể xảy ra nhiều lần trong tập huấn luyện, trong khi những trường hợp khác không thể xảy ra dù chỉ một lần.