Phát hiện ngoại lệ là gì?

Ngoại lệ là một đối tượng dữ liệu khác biệt về cơ bản với phần còn lại của các đối tượng như thể nó được tạo ra bởi một số cơ chế. Đối với nội dung của phần trình diễn, nó có thể xác định các đối tượng dữ liệu không phải là ngoại lệ là dữ liệu “bình thường” hoặc dữ liệu mong đợi. Thông thường, nó có thể xác định các giá trị ngoại lai là dữ liệu "bất thường".

Các giá trị ngoại lai là các thành phần dữ liệu không thể được kết hợp trong một lớp hoặc cụm nhất định. Đây là các đối tượng dữ liệu có một số hành vi từ hành vi thông thường của các đối tượng dữ liệu khác nhau. Việc phân tích loại dữ liệu này có thể rất quan trọng để khai thác kiến thức.

Các giá trị ngoại lai rất hấp dẫn bởi vì chúng bị nghi ngờ là không được tạo ra bởi cùng một cấu trúc với phần còn lại của dữ liệu. Do đó, trong phát hiện ngoại lệ, điều cần thiết là phải giải thích lý do tại sao các ngoại lệ được xác định được tạo ra bởi một số cơ chế.

Phân loại một lớp được gọi là phát hiện ngoại lệ (hoặc tính mới) vì thuật toán học tập có thể được sử dụng để phân biệt giữa dữ liệu xảy ra bình thường và bất thường liên quan đến việc phân phối các bản ghi đào tạo.

Ví dụ:bằng cách quan sát một trang web truyền thông xã hội nơi có nội dung mới đang tiếp cận, việc phát hiện tính mới có thể xác định kịp thời các chủ đề và xu hướng mới. Các chủ đề tiểu thuyết ban đầu có thể xuất hiện dưới dạng ngoại lệ.

Phát hiện ngoại lệ và phát hiện tính mới có một số điểm tương đồng trong cách tiếp cận mô hình hóa và phát hiện. Nhưng một điểm khác biệt quan trọng giữa hai phương pháp này là trong phát hiện tính mới, khi các đối tượng mới được xác nhận, chúng thường được tích hợp vào mô hình hành vi chung để các trường hợp tiếp theo không bị coi là ngoại lệ nữa.

Một phương pháp thống kê chung để phân loại một lớp là nhận ra các trường hợp ngoại lệ là các trường hợp nằm xa hơn một khoảng d so với một phần trăm p nhất định của thông tin đào tạo. Hơn nữa, mật độ xác suất có thể được tính cho lớp mục tiêu bằng cách điều chỉnh phân phối thống kê, bao gồm Gaussian, với thông tin huấn luyện; một số trường hợp thử nghiệm có giá trị xác suất thấp có thể rõ ràng là các trường hợp ngoại lệ.

Các bộ phân loại đa kính có thể được điều chỉnh cho phù hợp với vị trí một lớp bằng cách điều chỉnh một ranh giới xung quanh dữ liệu tiêu điểm và coi các ví dụ nằm bên ngoài là ngoại lệ. Ranh giới có thể được tạo ra bằng cách cố định hoạt động bên trong của các bộ phân loại đa lớp hiện tại bao gồm cả các máy vectơ hỗ trợ.

Các phương pháp tiếp cận này dựa nhiều vào một tham số quyết định lượng thông tin mục tiêu có khả năng được xác định là các giá trị ngoại lai. Nếu nó được chọn quá thận trọng, dữ liệu trong lớp tiêu điểm sẽ bị loại bỏ một cách sai lầm. Nếu nó được lựa chọn quá tự do, mô hình sẽ trang bị quá mức và từ chối quá nhiều hồ sơ hợp pháp. Tốc độ từ chối nói chung không thể được sửa đổi trong quá trình thử nghiệm, vì một giá trị tham số thích hợp được yêu cầu phải được chọn tại thời điểm đào tạo.