Computer >> Máy Tính >  >> Lập trình >> Lập trình

Phương pháp Tiếp cận Dựa trên Lấy mẫu là gì?

Lấy mẫu là một phương pháp được sử dụng rộng rãi để xử lý vấn đề mất cân bằng lớp. Khái niệm lấy mẫu là thay đổi sự phân bố của các ví dụ để lớp hiếm được xác định rõ trong tập huấn luyện. Có nhiều kỹ thuật lấy mẫu khác nhau như lấy mẫu dưới, lấy mẫu quá mức và kết hợp cả hai cách tiếp cận. Ví dụ:hãy xem xét một tập dữ liệu bao gồm 100 ví dụ tích cực và 1000 ví dụ tiêu cực.

Trong phương pháp lấy mẫu dưới, một mẫu ngẫu nhiên gồm 100 ví dụ tiêu cực được chọn để tạo thành tập huấn luyện trước với tất cả các ví dụ tích cực. Một vấn đề với phương pháp này là không thể chọn một số ví dụ phủ định hữu ích để đào tạo, do đó, dẫn đến mô hình thấp hơn mô hình tối ưu.

Phương pháp là để khắc phục vấn đề này là thực hiện lấy mẫu dưới nhiều lần và tạo ra nhiều bộ phân loại giống như cách tiếp cận Tìm hiểu tổng thể. Có thể sử dụng phương pháp lấy mẫu dưới tập trung, trong đó quá trình lấy mẫu tạo ra sự lựa chọn sáng suốt liên quan đến các ví dụ tiêu cực cần được loại bỏ, ví dụ:những ví dụ nằm xa ranh giới quyết định.

Lấy mẫu quá mức phản ánh các ví dụ tích cực cho đến khi tập huấn luyện có cùng số lượng các ví dụ tích cực và tiêu cực. Ảnh hưởng của việc lấy mẫu quá mức đối với sự phát triển của ranh giới quyết định bằng cách sử dụng bộ phân loại bao gồm cả cây quyết định. Ví dụ tích cực bị phân loại sai vì không có đủ các ví dụ để xác nhận việc hình thành ranh giới quyết định mới để độc lập giữa các trường hợp tích cực và tiêu cực.

Nhưng đối với thông tin nhiễu, việc lấy mẫu quá mức có thể tạo ra quá mức mô hình bởi vì một số ví dụ nhiễu có thể được sao chép nhiều lần. Lấy mẫu quá mức không chèn một số dữ liệu mới vào tập huấn luyện. Việc nhân rộng các ví dụ tích cực tránh cho thuật toán học tập cắt bỏ các phần cụ thể của mô hình xác định các vùng bao gồm một số ví dụ đào tạo (tức là các phần nhỏ). Các ví dụ tích cực hơn cũng ảnh hưởng đến việc nâng cao thời gian tính toán cho việc xây dựng mô hình.

Phương pháp kết hợp cần một tập hợp lấy mẫu dưới lớp đa số và lấy mẫu quá lớp hiếm để thực hiện phân phối lớp đồng nhất. Lấy mẫu dưới có thể được thực hiện bằng cách sử dụng lấy mẫu con ngẫu nhiên hoặc tập trung. Việc lấy mẫu quá mức có thể được thực hiện bằng cách nhân rộng các ví dụ tích cực hiện tại hoặc tạo ra các ví dụ tích cực mới trong vùng lân cận của các ví dụ tích cực hiện tại.