Sau đây là các lĩnh vực mà công nghệ khai thác dữ liệu có thể được sử dụng hoặc tạo ra khả năng phát hiện xâm nhập như sau -
Phát triển các thuật toán khai thác dữ liệu để phát hiện xâm nhập - Các thuật toán khai thác dữ liệu có thể được sử dụng để phát hiện lạm dụng và phát hiện bất thường. Khi phát hiện lạm dụng, thông tin đào tạo được gắn nhãn là “bình thường” hoặc “xâm nhập”. Sau đó, một bộ phân loại có thể được thay đổi để phát hiện các hành vi xâm nhập đã biết.
Có rất nhiều nghiên cứu trong lĩnh vực này bao gồm việc áp dụng các thuật toán phân loại, khai thác quy tắc kết hợp và mô hình hóa nhạy cảm với chi phí. Phát hiện bất thường xây dựng các mô hình về hành vi bình thường và tự động phát hiện các sai lệch đáng kể so với nó và có thể sử dụng phương pháp học có giám sát hoặc không giám sát.
Trong kỹ thuật được giám sát, mô hình được tạo dựa trên dữ liệu huấn luyện được coi là "bình thường". Trong một kỹ thuật không được giám sát, không có dữ liệu nào được đưa ra về dữ liệu đào tạo. Nghiên cứu phát hiện bất thường bao gồm việc áp dụng các thuật toán phân loại, phương pháp thống kê, phân nhóm và phân tích ngoại lệ. Các công nghệ được sử dụng để có hiệu quả và có thể mở rộng, đồng thời có khả năng quản lý dữ liệu mạng với khối lượng lớn, kích thước và tính không đồng nhất.
Phân tích liên kết và tương quan cũng như tổng hợp để giúp chọn và xây dựng các thuộc tính phân biệt - Khai thác liên kết và tương quan có thể được sử dụng để khám phá các mối quan hệ giữa các thuộc tính hệ thống xác định dữ liệu mạng. Dữ liệu như vậy có thể hỗ trợ thông tin chi tiết liên quan đến việc lựa chọn các thuộc tính hữu ích để phát hiện xâm nhập. Các thuộc tính mới được thay đổi từ dữ liệu tổng hợp cũng có thể hữu ích, bao gồm cả tổng số lưu lượng truy cập phù hợp với một mẫu cụ thể.
Phân tích dữ liệu luồng - Do các tính năng nhất thời và động của các cuộc xâm nhập và các cuộc tấn công độc hại, điều quan trọng là phải thực hiện phát hiện xâm nhập trong môi trường dòng dữ liệu. Hơn nữa, một sự kiện có thể là bình thường đối với nó, nhưng bị coi là độc hại nếu được xem như một phần tử của chuỗi sự kiện.
Do đó, điều quan trọng là phải nghiên cứu chuỗi hoạt động nào thường xuyên gặp nhau, khám phá các mô hình tuần tự và xác định các điểm ngoại lệ. Các kỹ thuật khai thác dữ liệu khác để tìm các cụm đang phát triển và xây dựng mô hình phân loại động trong các luồng dữ liệu cũng rất quan trọng để phát hiện xâm nhập theo thời gian thực.
Khai thác dữ liệu phân tán - Các cuộc xâm nhập có thể được phát hành từ nhiều khu vực và nhắm mục tiêu đến nhiều điểm đến khác nhau. Kỹ thuật khai thác dữ liệu phân tán có thể được sử dụng để phân tích dữ liệu mạng từ một số khu vực mạng nhằm phát hiện các cuộc tấn công phân tán này.
Công cụ trực quan hóa và truy vấn - Các công cụ trực quan hóa phải có thể truy cập được để xem bất kỳ mẫu bất thường nào được phát hiện. Các công cụ như vậy có thể liên quan đến các tính năng để xem các liên kết, cụm và ngoại lệ. Hệ thống phát hiện xâm nhập cũng phải có giao diện người dùng đồ họa cho phép các nhà phân tích bảo mật đặt ra các truy vấn liên quan đến dữ liệu mạng hoặc kết quả phát hiện xâm nhập.