Computer >> Máy Tính >  >> Lập trình >> Lập trình

Những thách thức của việc phát hiện Outlier là gì?

Ngoại lệ là một đối tượng dữ liệu lệch về cơ bản so với các đối tượng còn lại, như thể nó được tạo ra bởi một cấu trúc khác. Để dễ trình bày, nó có thể xác định các đối tượng dữ liệu không phải là ngoại lệ là thông tin “bình thường” hoặc thông tin mong đợi. Tương tự, nó có thể xác định các giá trị ngoại lai là dữ liệu "bất thường".

Các giá trị ngoại lai là các thành phần dữ liệu không thể được kết hợp trong một lớp hoặc cụm nhất định. Đây là các đối tượng dữ liệu có một số hành vi từ hành vi chung của các đối tượng dữ liệu khác nhau. Việc phân tích loại dữ liệu này có thể rất quan trọng để khai thác kiến ​​thức.

Có nhiều thách thức khác nhau của việc phát hiện ngoại lệ như sau -

Lập mô hình các đối tượng bình thường và các đối tượng ngoại lai một cách hiệu quả - Yếu tố phát hiện ngoại lệ phần lớn dựa trên việc mô hình hóa các đối tượng và ngoại lệ bình thường (nonoutlier). Điều này hơi phức tạp vì việc liệt kê một số hành vi bình thường có sẵn trong một ứng dụng rất phức tạp.

Biên giới giữa tính bình thường của dữ liệu và sự bất thường (ngoại lệ) không rõ ràng. Thay vào đó, có thể có một loạt các ứng dụng màu xám. Do đó, trong khi các kỹ thuật phát hiện ngoại lệ khác nhau gán cho mỗi đối tượng trong thông tin đầu vào đặt nhãn là “bình thường” hoặc “ngoại lệ”, thì cách tiếp cận khác gán cho mỗi đối tượng một điểm tính toán “ngoại lệ” của đối tượng.

Phát hiện ngoại lệ dành riêng cho ứng dụng - Việc lựa chọn độ tương đồng / thước đo khoảng cách và mô hình mối quan hệ để xác định các đối tượng dữ liệu là điều cần thiết trong việc phát hiện ngoại lệ. Thật không may, những lựa chọn như vậy phụ thuộc vào phần mềm. Có một số ứng dụng có thể có nhiều yêu cầu.

Xử lý tiếng ồn khi phát hiện ngoại lệ - Các yếu tố ngoại lai khác với tạp âm. Người ta biết rằng chất lượng của bộ thông tin thực có ảnh hưởng là rất kém. Cung cấp tiếng ồn không thể tránh khỏi tồn tại trong dữ liệu được thu thập trong một số ứng dụng. Nhiễu có thể được hiển thị dưới dạng sai lệch trong các giá trị thuộc tính hoặc làm cho các giá trị bị thiếu.

Chất lượng dữ liệu thấp và sự tồn tại của nhiễu là một thách thức lớn đối với việc phát hiện ra ngoại lệ. Chúng có thể đánh lừa thông tin, làm mờ đi sự khác biệt giữa các đối tượng bình thường và các đối tượng ngoại lai. Hơn nữa, nhiễu và thông tin bị thiếu có thể “che giấu” các điểm ngoại lệ và làm giảm hiệu quả của việc phát hiện ngoại lệ.

Tính dễ hiểu - Trong một số phương pháp ứng dụng, người dùng có thể được yêu cầu không chỉ phát hiện các ngoại lệ mà còn tìm hiểu lý do tại sao các đối tượng được phát hiện là ngoại lệ. Nó có thể kết hợp yêu cầu về tính dễ hiểu, kỹ thuật phát hiện ngoại lệ phải hỗ trợ một số lý do của việc phát hiện.

Ví dụ, một cách tiếp cận thống kê có thể được sử dụng để xác thực mức độ mà một đối tượng có thể là một ngoại lệ phụ thuộc vào khả năng đối tượng được tạo ra bởi cùng một cấu trúc đã tạo ra phần lớn các bản ghi. Khả năng xảy ra càng nhỏ, đối tượng càng không được tạo ra bởi cùng một cấu trúc và đối tượng đó càng có thể chấp nhận được là một ngoại lệ.