Máy hỗ trợ vector là gì?

Một cách tiếp cận phân loại đã nhận được sự giám sát đáng kể là máy vectơ hỗ trợ (SVM). Cách tiếp cận này có nguồn gốc từ lý thuyết học thống kê và đã cho thấy các kết quả thực nghiệm đầy hứa hẹn trong một số ứng dụng thực tế, từ nhận dạng chữ số viết tay đến phân loại văn bản.

SVM cũng hoạt động với dữ liệu chiều cao và ngăn chặn các vấn đề về kích thước. Yếu tố thứ hai của cách tiếp cận này là nó xác định ranh giới quyết định bằng cách sử dụng một tập hợp con của các cá thể huấn luyện, được gọi là các vectơ hỗ trợ.

SVM có thể được chuẩn bị để xem loại siêu phẳng này một cách rõ ràng trong dữ liệu có thể phân tách tuyến tính. Nó có thể đạt được bằng cách hiển thị cách phương pháp luận SVM có thể được tiếp tục đối với dữ liệu có thể phân tách phi tuyến tính. Tập dữ liệu có thể phân tách tuyến tính; tức là, nó có thể phát hiện ra một siêu phẳng bao gồm tất cả các hình vuông nằm trên một mặt của siêu phẳng và tất cả các hình tròn nằm ở các phía khác nhau.

Bộ phân loại nên chọn một trong các siêu mặt phẳng này để mô tả ranh giới quyết định của nó, tùy thuộc vào mức độ chúng được mong đợi để triển khai trên các trường hợp thử nghiệm. Hãy xem xét hai ranh giới quyết định, B1 và B2. Cả hai ranh giới quyết định đều có thể tách các cá thể huấn luyện thành các lớp cụ thể của chúng mà không thực hiện một số lỗi phân loại sai. Mỗi ranh giới quyết định Bi liên quan đến một cặp siêu máy bay, được biểu thị là bi1 và bi2, theo đó.

Bi1 có được bằng cách thay đổi một siêu phẳng song song ra khỏi ranh giới quyết định cho đến khi nó giao tiếp với (các) hình vuông gần nhất, trong khi bi2 có được bằng cách thay đổi siêu phẳng cho đến khi nó giao tiếp với (các) hình tròn gần nhất. Khoảng cách giữa hai siêu mặt phẳng này được gọi là lề của bộ phân loại.

Các ranh giới quyết định có biên độ cao ảnh hưởng đến sai số tổng quát hóa cao hơn so với các ranh giới có biên độ thấp. Nếu biên độ nhỏ, do đó, một số xáo trộn nhỏ đối với ranh giới quyết định có thể có tác động thiết yếu đến phân loại của nó.

Một mô tả thích hợp liên quan đến biên của bộ phân loại tuyến tính với lỗi tổng quát của nó được đưa ra bởi một nguyên tắc học thống kê được gọi là giảm thiểu rủi ro cấu trúc (SRM). Nguyên tắc này hỗ trợ giới hạn trên đối với lỗi tổng quát của bộ phân loại (R) về lỗi huấn luyện của nó (Re), số lượng ví dụ huấn luyện (N) và độ phức tạp của mô hình được gọi là dung lượng của nó (h). Phân loại hơn, với xác suất 1 - n, lỗi tổng quát hóa của trình phân loại có thể ở mức tồi tệ nhất

$$ \ mathrm {R \ leq \:R_e \:+ \ varphi (\ frac {h} {N}, \ frac {1og (n)} {N})} $$

trong đó φ là hàm tăng đơn điệu của công suất h. Bất đẳng thức trước có thể quen thuộc với độc giả vì nó mô phỏng nguyên tắc độ dài mô tả tối thiểu (MDL). SRM là một cách tiếp cận khác để xác định lỗi tổng quát hóa là sự cân bằng giữa lỗi huấn luyện và độ phức tạp của mô hình.