Một cách tiếp cận phân loại đã nhận được sự giám sát đáng kể là máy vectơ hỗ trợ (SVM). Cách tiếp cận này có nguồn gốc từ lý thuyết học thống kê và đã cho thấy các kết quả thực nghiệm đầy hứa hẹn trong một số ứng dụng thực tế, từ nhận dạng chữ số viết tay đến phân loại văn bản.
SVM cũng hoạt động với dữ liệu chiều cao và ngăn chặn các vấn đề về kích thước. Yếu tố thứ hai của cách tiếp cận này là nó xác định ranh giới quyết định bằng cách sử dụng một tập hợp con của các cá thể huấn luyện, được gọi là các vectơ hỗ trợ.
SVM có thể được chuẩn bị để xem loại siêu phẳng này một cách rõ ràng trong dữ liệu có thể phân tách tuyến tính. Nó có thể đạt được bằng cách hiển thị cách phương pháp luận SVM có thể được tiếp tục đối với dữ liệu có thể phân tách phi tuyến tính. Tập dữ liệu có thể phân tách tuyến tính; tức là, nó có thể phát hiện ra một siêu phẳng bao gồm tất cả các hình vuông nằm trên một mặt của siêu phẳng và tất cả các hình tròn nằm ở các phía khác nhau.
Năng lực của một mô hình tuyến tính tỷ lệ nghịch với lợi nhuận của nó. Các mô hình có tỷ suất lợi nhuận nhỏ có công suất lớn hơn vì chúng năng động và có thể phù hợp với một số bộ đào tạo, không giống như các mô hình có tỷ suất lợi nhuận cao. Theo nguyên tắc SRM, khi năng lực tăng cường, giới hạn lỗi tổng quát có thể tăng lên. Do đó, chúng tôi mong muốn tạo ra các bộ phân loại tuyến tính tối đa hóa biên của ranh giới quyết định của chúng để giảm các lỗi tổng quát trong trường hợp xấu nhất của chúng.
SVM tuyến tính là một bộ phân loại kiểm tra siêu phẳng có lợi nhuận cao nhất, được gọi là bộ phân loại lề tối đa. Nó có thể tìm hiểu cách SVM tìm hiểu ranh giới như vậy, nó có thể bắt đầu với một số phân tích sơ bộ về ranh giới quyết định và biên của bộ phân loại tuyến tính.
Có nhiều đặc điểm khác nhau của SVM như sau -
Vấn đề học tập SVM có thể được tổ chức như một vấn đề tối ưu hóa lồi, trong đó các thuật toán hiệu quả có thể truy cập để khám phá mức tối thiểu toàn cục của hàm mục tiêu. Có nhiều phương pháp phân loại khác nhau, bao gồm các bộ phân loại dựa trên quy tắc và mạng nơ-ron nhân tạo sử dụng cách tiếp cận dựa trên tham lam để tìm kiếm khu vực giả thuyết. Các phương pháp như vậy chỉ ảnh hưởng đến việc tìm kiếm các giải pháp tối ưu cục bộ.
SVM thực hiện kiểm soát công suất bằng cách mở rộng biên độ của ranh giới quyết định. Người dùng nên cung cấp một số tham số bao gồm loại hàm nhân sẽ sử dụng và hàm chi phí C để cung cấp mỗi biến slack.
SVM có thể được sử dụng để ghi phân loại bằng cách học các biến giả cho mỗi giá trị thuộc tính phân loại được hiển thị trong dữ liệu. Ví dụ:nếu tình trạng hôn nhân có ba giá trị như độc thân, đã kết hôn, đã ly hôn và nó có thể học một biến nhị phân cho mỗi giá trị thuộc tính.