Trong phát hiện bất thường, mục tiêu là phát hiện các đối tượng khác với nhiều đối tượng. Thông thường, các đối tượng dị thường được gọi là ngoại lai, bởi vì trên biểu đồ phân tán của dữ liệu, chúng nằm cách xa nhiều điểm dữ liệu. Phát hiện bất thường được gọi là phát hiện độ lệch, bởi vì các đối tượng bất thường có các giá trị thuộc tính về cơ bản khác với các giá trị thuộc tính chung hoặc được mong đợi, hoặc như khai thác ngoại lệ, bởi vì các điểm bất thường là đặc biệt theo một số nghĩa.
Trong toàn cầu, xã hội loài người hoặc miền của các nhóm dữ liệu, hầu hết các sự kiện và đối tượng, theo đại diện, khu vực chung hoặc quy mô lớn. Nhưng nó có thể có kiến thức sâu sắc về tính khả thi của các đối tượng khác biệt hoặc bất thường. Nội dung này chứa các mùa đặc biệt khô hoặc mưa, các vận động viên nổi tiếng hoặc một giá trị thuộc tính nhỏ hơn hoặc cao hơn nhiều so với các giá trị khác.
Có một số nguyên nhân gây ra dị thường như sau -
Dữ liệu từ các lớp khác nhau - Một đối tượng có thể khác với nhiều đối tượng chẳng hạn như dị thường, vì nó thuộc một loại hoặc nhiều lớp. Ví dụ:một người nào đó thực hiện hành vi gian lận thẻ tín dụng thuộc về nhiều người dùng thẻ tín dụng hơn những người cần thẻ tín dụng một cách chính xác.
Một số ví dụ được hiển thị như gian lận, xâm nhập, bùng phát dịch bệnh và kết quả xét nghiệm bất thường, là các trường hợp bất thường xác định một loại phần tử khác. Những điểm bất thường như vậy là mối quan tâm đáng kể và là mục tiêu của việc xác định sự bất thường trong lĩnh vực khai thác dữ liệu.
Biến thể tự nhiên - Một số tập dữ liệu có thể được mô hình hóa bằng phân phối thống kê, bao gồm phân phối chuẩn (Gaussian), trong đó xác suất của một đối tượng dữ liệu ngày càng giảm khi khoảng cách của đối tượng từ giữa phân phối tăng lên.
Nói cách khác, một số đối tượng ở gần trung tâm (đối tượng trung bình) và khả năng một đối tượng khác về cơ bản với đối tượng trung bình này là nhỏ. Ví dụ, một người cao đặc biệt không dị thường trong phương pháp đến từ một lớp đối tượng độc lập, mà chỉ trong phương pháp có giá trị hoàn chỉnh cho một đặc tính (chiều cao) được sử dụng bởi một số đối tượng. Các điểm bất thường xác định các biến thể nghiêm trọng hoặc không chắc là điều thú vị.
Lỗi thu thập và đo lường dữ liệu - Các lỗi trong tập dữ liệu hoặc quá trình đo lường là một nguyên nhân khác gây ra sự bất thường. Ví dụ:một phép đo có thể được ghi lại không chính xác do sự cố lỗi của con người với thiết bị máy tính hoặc sự hiện diện của tiếng ồn.
Mục tiêu là để loại bỏ những điểm bất thường như vậy, bởi vì chúng không hỗ trợ dữ liệu thú vị mà chỉ làm giảm tính năng của dữ liệu và phân tích dữ liệu tiếp theo. Thật vậy, việc xóa loại bất thường này là mục tiêu của quá trình xử lý trước dữ liệu, đặc biệt là làm sạch dữ liệu.