Computer >> Máy Tính >  >> Lập trình >> Lập trình

Những thách thức của Phát hiện ngoại lệ trong dữ liệu chiều cao là gì?

Có nhiều thách thức khác nhau của việc phát hiện ngoại lệ trong dữ liệu chiều cao như sau -

Giải thích các ngoại lệ - Họ phải có khả năng không chỉ xác định các ngoại lệ mà còn hỗ trợ giải thích các ngoại lệ. Bởi vì một số tính năng (hoặc kích thước) được chứa trong tập dữ liệu chiều cao, việc xác định các điểm ngoại lệ mà không hỗ trợ một số giải thích tại sao chúng là các điểm ngoại lệ không hữu ích lắm.

Việc giải thích các ngoại lệ có thể xuất hiện từ các không gian con xác định biểu hiện các ngoại lệ hoặc đánh giá liên quan đến “ngoại lệ” của các đối tượng. Việc giải thích như vậy có thể hỗ trợ người dùng tìm hiểu ý nghĩa và tầm quan trọng có thể có của các yếu tố ngoại lệ.

Dữ liệu thưa thớt - Các phương pháp phải có khả năng quản lý sự thưa thớt trong các khu vực có chiều cao. Khoảng cách giữa các đối tượng trở nên bị nhiễu chi phối rất nhiều khi kích thước được cải thiện. Do đó, dữ liệu trong các khu vực chiều cao rất thưa thớt.

Không gian con dữ liệu - Họ nên mô hình hóa các ngoại lệ một cách phù hợp, ví dụ, thích ứng với các không gian con biểu thị các ngoại lệ và nhận được hành vi cục bộ của thông tin. Có thể sử dụng ngưỡng khoảng cách cố định đối với một số không gian con để xác định các điểm khác biệt không phải là ý tưởng tốt nhất vì khoảng cách giữa hai đối tượng đơn điệu tăng lên khi kích thước tăng lên.

Khả năng mở rộng liên quan đến kích thước - Khi kích thước tăng lên, nhiều không gian con sẽ cải thiện theo cấp số nhân. Một phân tích tổng hợp đầy đủ về không gian tìm kiếm, bao gồm một số không gian con có thể có, không phải là một phương pháp có thể mở rộng.

Các phương pháp phát hiện ngoại lệ cho dữ liệu chiều cao có thể được chia thành ba phương pháp chính như sau -

Mở rộng khả năng phát hiện ngoại lệ thông thường - Một phương pháp để phát hiện giá trị ngoại lệ trong dữ liệu chiều cao cải thiện các phương pháp phát hiện giá trị ngoại lệ thông thường. Nó cần các mô hình ngoại lệ dựa trên vùng lân cận thông thường. Nó có thể khắc phục sự suy giảm của các thước đo độ gần trong không gian chiều cao, nó cần các thước đo thay thế hoặc xây dựng các không gian con và phát hiện các điểm ngoại lai ở đó.

Thuật toán HilOut là một ví dụ của phương pháp này. HilOut phát hiện ra các ngoại lệ dựa trên khoảng cách, nhưng cần cấp bậc của khoảng cách hơn là khoảng cách tuyệt đối trong phát hiện ngoại lệ. Đặc biệt, đối với mỗi đối tượng, o, HilOut phát hiện ra k-láng giềng gần nhất của o, được chỉ ra bởi nn 1 (o), ..., nn k (o), trong đó k là tham số phụ thuộc vào phần mềm.

Trọng lượng của vật o được biểu thị bằng

$$ \ mathrm {w (o) =\ displaystyle \ sum \ limit_ {i =1} ^ k dist (o, nn_ {i} (o))} $$

Tìm kiếm ngoại lệ trong không gian con - Phương pháp khác để phát hiện ngoại lệ trong dữ liệu chiều cao là tìm kiếm ngoại lệ trong một số không gian con. Một lợi ích cụ thể là, nếu một đối tượng được phát hiện là ngoại lệ trong không gian con có kích thước thấp hơn nhiều, không gian con hỗ trợ dữ liệu quan trọng để thực thi lý do và mức độ đối tượng là ngoại lệ. Điều này cực kỳ có giá trị trong các ứng dụng có dữ liệu chiều cao vì số lượng thứ nguyên quá lớn.

Lập mô hình ngoại lệ chiều cao - Một phương pháp thay thế cho các phương pháp phát hiện giá trị ngoại lệ trong dữ liệu chiều cao cố gắng tạo ra các mô hình mới cho các giá trị ngoại lệ chiều cao một cách chính xác.