Biểu diễn dựa trên phiên bản là gì?

Cấu trúc đơn giản nhất của việc học là học thuộc lòng hay còn gọi là học vẹt. Bởi vì một nhóm các trường hợp huấn luyện đã được ghi nhớ, khi gặp một trường hợp mới, bộ nhớ sẽ được điều tra để tìm ra trường hợp huấn luyện giống mạnh mẽ nhất đối với trường hợp mới.

Vấn đề duy nhất là làm thế nào để làm rõ sự giống nhau. Đầu tiên, đây là một phương pháp hoàn toàn khác để mô tả “kiến thức” được trích xuất từ một nhóm các cá thể - Nó lưu trữ bản thân các cá thể đó và hoạt động bằng cách liên kết các cá thể mới có lớp chưa biết với các cá thể hiện tại có lớp đã biết. Thay vì cố gắng đưa ra các quy tắc, hãy làm việc trực tiếp từ chính các phiên bản. Đây được gọi là học tập dựa trên phiên bản.

Trong học tập dựa trên cá thể, tất cả công việc thực tế được hoàn thành khi thời gian xuất hiện để xác định một cá thể mới thay vì khi tập huấn luyện được xử lý. Sự khác biệt giữa cách tiếp cận này và những cách khác mà có thể thấy là thời gian diễn ra “việc học”.

Học tập dựa trên phiên bản không hoạt động, trì hoãn công việc thực sự được coi là có thể, trong khi các phương pháp khác nhau rất háo hức, tổng quát hóa ngay sau khi dữ liệu được nhìn thấy. Trong phân loại dựa trên cá thể, mỗi cá thể mới được phân biệt với những cá thể hiện tại bằng cách sử dụng thước đo khoảng cách và cá thể hiện có gần nhất được sử dụng để tạo lớp thành mới. Đây được gọi là phương pháp phân loại láng giềng gần nhất.

Đôi khi nhiều hơn một láng giềng gần nhất được sử dụng và lớp đa số của k láng giềng gần nhất (hoặc trung bình có trọng số khoảng cách nếu lớp là số) được tạo cho phiên bản mới. Đây được định nghĩa là phương thức k-hàng xóm gần nhất.

Khi các thuộc tính danh nghĩa đang tồn tại, điều cần thiết là phải đưa ra “khoảng cách” giữa nhiều giá trị của thuộc tính đó. Các thuộc tính khác nhau sẽ có ý nghĩa quan trọng hơn các thuộc tính khác và nó thường được phản ánh trong chỉ số khoảng cách bằng một số loại trọng số thuộc tính. Thay đổi trọng số thuộc tính phù hợp từ nhóm đào tạo là một vấn đề thiết yếu trong học tập dựa trên phiên bản.

Một hạn chế rõ ràng đối với các biểu diễn dựa trên cá thể là chúng không tạo ra kiến trúc rõ ràng được học. Các phiên bản kết nối với số liệu khoảng cách để phân chia ranh giới thành các khu vực riêng biệt để phân tích lớp này với lớp khác và đây là một kiểu mô tả kiến thức rõ ràng.

Ví dụ, với một thể hiện duy nhất của mỗi lớp trong số hai lớp, quy tắc láng giềng gần nhất phân chia một cách hiệu quả khu vực thể hiện dọc theo đường phân giác vuông góc của đường nối các thể hiện. Với một số trường hợp của mọi lớp, không gian được phân chia bởi một tập hợp các đường xác định các đường phân giác vuông góc của các đường đã chọn liên kết một thể hiện của một lớp này với một lớp khác.