Ngoại lệ là một đối tượng dữ liệu khác biệt về cơ bản với các đối tượng còn lại, như thể nó được tạo ra bởi một số cơ chế. Để dễ trình bày, nó có thể xác định các đối tượng dữ liệu không phải là ngoại lệ là thông tin “bình thường” hoặc thông tin mong đợi. Thông thường, nó có thể xác định các giá trị ngoại lai là dữ liệu "bất thường".
Các giá trị ngoại lai là các thành phần dữ liệu không thể được kết hợp trong một lớp hoặc cụm nhất định. Đây là các đối tượng dữ liệu có một số hành vi từ hành vi thông thường của các đối tượng dữ liệu khác nhau. Việc phân tích loại dữ liệu này có thể rất quan trọng để khai thác kiến thức.
Thông tin ngoại lai khác với thông tin ồn ào. Nhiễu là một lỗi hoặc phương sai ngẫu nhiên trong một biến được tính toán. Nói chung, nhiễu không hấp dẫn trong phân tích dữ liệu, chẳng hạn như phát hiện ngoại lệ.
Ví dụ, trong phát hiện gian lận thẻ tín dụng, hành vi mua hàng của người dùng có thể được mô hình hóa như một biến ngẫu nhiên. Người dùng có thể thực hiện một số "giao dịch ồn ào" có thể xem như "lỗi ngẫu nhiên" hoặc "phương sai", bao gồm bằng cách mua một bữa trưa lớn hơn vào một ngày hoặc nhận thêm một tách cà phê so với bình thường.
Những giao dịch như vậy không nên được coi là ngoại lệ; do đó, công ty thẻ tín dụng có thể phải chịu chi phí lớn từ việc xác minh một số giao dịch. Công ty cũng có thể mất người dùng bằng cách làm phiền họ với một số cảnh báo sai. Như một số dịch vụ phân tích dữ liệu và khai thác dữ liệu, tiếng ồn phải được loại bỏ trước khi phát hiện ra ngoại lệ.
Một số cơ sở dữ liệu trong thế giới thực chứa dữ liệu ngoại lai hoặc dữ liệu bị thiếu, ẩn danh hoặc sai sót. Một số thuật toán phân nhóm có cường độ cao đối với dữ liệu như vậy và có thể bắt đầu tạo thành các cụm có chất lượng kém.
Các giá trị ngoại lai rất hấp dẫn bởi vì chúng bị nghi ngờ là không được tạo ra bởi cùng một cấu trúc với phần còn lại của dữ liệu. Do đó, trong phát hiện ngoại lệ, điều cần thiết là phải giải thích lý do tại sao các ngoại lệ được xác định được tạo ra bởi một số cơ chế.
Điều này đạt được bằng cách tạo ra các giả định khác nhau trên phần còn lại của thông tin và cho thấy rằng các trường hợp ngoại lệ được phát hiện vi phạm các giả định đó về cơ bản. Phát hiện ngoại lệ cũng liên quan đến phát hiện tính mới trong việc bao gồm các tập dữ liệu. Ví dụ:bằng cách quan sát trang web truyền thông xã hội nơi có nội dung mới đang tiếp cận, việc phát hiện tính mới có thể xác định kịp thời các chủ đề và xu hướng mới.
Các chủ đề tiểu thuyết ban đầu có thể xuất hiện dưới dạng ngoại lệ. Phát hiện ngoại lệ và phát hiện tính mới có một số điểm tương đồng trong các phương pháp tiếp cận phát hiện và mô hình hóa. Nhưng một điểm khác biệt quan trọng giữa hai phương pháp này là trong phát hiện tính mới, một khi các đối tượng mới được xác nhận, chúng thường được tích hợp vào mô hình hành vi chung để các trường hợp tiếp theo không bị coi là ngoại lệ nữa.