Đặc điểm của Bộ phân loại láng giềng gần nhất là gì?

Quy tắc Nearest Neighbor thường tạo ra hiệu suất cao mà không có các giả định trước đó về việc phân bổ mà từ đó các phiên bản đào tạo được rút ra. Nó bao gồm một tập hợp các trường hợp tích cực và tiêu cực. Một mẫu mới được xác định bằng cách tính toán khoảng cách đến trường hợp huấn luyện thuận tiện; sau đó dấu hiệu của điểm đó quyết định việc phân loại mẫu.

Bộ phân loại k-NN nâng cao khái niệm này bằng cách lấy k điểm gần nhất và tạo ra dấu của đa số. Thường chọn k nhỏ và lẻ để chia các quan hệ (thường là 1, 3 hoặc 5). Giá trị k lớn hơn giúp giảm ảnh hưởng của các điểm nhiễu bên trong tập dữ liệu huấn luyện và việc lựa chọn k được thực hiện thông qua xác nhận chéo.

Có một số đặc điểm của Nearest-Neighbor như sau -

Phân loại láng giềng gần nhất là một yếu tố của các phương pháp tiếp cận tổng quát hơn được gọi là học tập dựa trên cá thể. Nó cần các phiên bản đào tạo cụ thể để tạo ra các dự đoán mà không cần phải hỗ trợ một mô hình (hoặc mô hình) trừu tượng bắt nguồn từ dữ liệu.

Các thuật toán học tập dựa trên phiên bản cần một thước đo độ gần để quyết định mức độ giống nhau hoặc khoảng cách giữa các phiên bản và một hàm phân loại khôi phục lớp dự đoán của một phiên bản thử nghiệm tùy thuộc vào mức độ gần gũi của nó với các phiên bản khác.

Những người lười học bao gồm cả những người phân loại hàng xóm gần nhất không cần xây dựng mô hình. Nhưng việc xác định một ví dụ kiểm tra có thể khá rẻ vì nó được yêu cầu tính toán các giá trị lân cận riêng lẻ giữa các ví dụ kiểm tra và đào tạo. Ngược lại, những người ham học hỏi dành số lượng tài nguyên máy tính của họ để xây dựng mô hình. Bởi vì một mô hình đã được xây dựng, việc xác định một ví dụ thử nghiệm là hoàn toàn nhanh chóng.

Bộ phân loại láng giềng gần nhất tạo ra các dự đoán của chúng tùy thuộc vào dữ liệu cục bộ, trong khi cây quyết định và bộ phân loại dựa trên quy tắc cố gắng khám phá mô hình toàn cục phù hợp với toàn bộ không gian đầu vào. Do các quyết định phân loại được tạo cục bộ, các bộ phân loại láng giềng gần nhất bị ảnh hưởng bởi nhiễu.

Bộ phân loại láng giềng gần nhất có thể đưa ra các ranh giới quyết định được định hình tùy ý. Các ranh giới như vậy hỗ trợ một cách biểu diễn mô hình năng động hơn được phân biệt với cây quyết định và các bộ phân loại dựa trên quy tắc bị buộc phải tuyến tính các ranh giới quyết định.

Bộ phân loại láng giềng gần nhất có thể đưa ra dự đoán sai trừ khi thực hiện các giai đoạn tiền xử lý dữ liệu và đo lường vùng lân cận phù hợp. Ví dụ:hãy cân nhắc rằng cần phải xác định một nhóm người dựa trên các thuộc tính như chiều cao (đo bằng mét) và cân nặng (đo bằng pound).

Thuộc tính chiều cao có độ biến thiên thấp, nằm trong khoảng từ 1,5 m đến 1,85 m, trong khi thuộc tính trọng lượng có thể thay đổi từ 90 lb. đến 250 lb. Nếu quy mô của thuộc tính không được đưa vào ứng dụng, số đo khoảng cách có thể bị chi phối bởi sự khác biệt về trọng lượng của một người.