Computer >> Máy Tính >  >> Lập trình >> Lập trình

Phương pháp thống kê là gì?

Các phương pháp tiếp cận thống kê là các phương pháp tiếp cận dựa trên mô hình chẳng hạn như một mô hình được tạo ra cho dữ liệu và các đối tượng được tính toán liên quan đến mức độ phù hợp của chúng với mô hình. Hầu hết các phương pháp tiếp cận thống kê để phát hiện ngoại lệ phụ thuộc vào việc phát triển mô hình phân phối xác suất và xem xét các đối tượng có khả năng nằm dưới mô hình đó như thế nào.

Ngoại lệ là một đối tượng có xác suất thấp liên quan đến mô hình phân phối xác suất của dữ liệu. Mô hình phân phối xác suất được tạo ra từ dữ liệu bằng cách tính toán các tham số của phân phối do người dùng xác định.

Nếu dữ liệu được coi là có phân phối Gaussian, thì giá trị trung bình và độ lệch chuẩn của phân phối cơ bản có thể được đo bằng cách tính giá trị trung bình và độ lệch chuẩn của dữ liệu. Có thể tính được xác suất của mọi đối tượng dưới phân phối.

Một phương pháp rộng rãi của các bài kiểm tra thống kê dựa trên đã được phát minh ra để xác định các giá trị ngoại lai, hoặc các quan sát trái ngược nhau, như chúng được biết đến như trong các tài liệu thống kê. Một số bài kiểm tra sự khác biệt này rất chuyên biệt và xem xét mức độ kiến ​​thức thống kê cao hơn nữa dung lượng của văn bản này.

Xác định phân phối cụ thể của tập dữ liệu - Trong khi một số loại dữ liệu có thể được xác định bởi một số lượng nhỏ các phân phối phổ biến, bao gồm Gaussian, Poisson hoặc nhị thức, các tập dữ liệu có phân phối không chuẩn là tương đối phổ biến. Tất nhiên, nếu mô hình được chọn sai, thì một đối tượng có thể bị nhận ra một cách sai lầm là một ngoại lệ.

Ví dụ:dữ liệu có thể được mô hình hóa như xuất hiện từ phân phối Gauss, nhưng có thể đến từ phân phối có xác suất lớn hơn (hơn phân phối Gauss) nhận các giá trị xa giá trị trung bình. Trong thực tế, các phân phối thống kê có loại hành vi này thường được gọi là phân phối có nhiều đuôi.

Số lượng thuộc tính được sử dụng - Một số kỹ thuật phát hiện ngoại lệ thống kê sử dụng cho một thuộc tính riêng lẻ, nhưng một số kỹ thuật đã được đại diện cho dữ liệu đa biến.

Hỗn hợp các bản phân phối - Dữ liệu có thể được mô hình hóa như một sự kết hợp của các phân phối và các kế hoạch phát hiện ngoại lệ có thể được tạo ra dựa trên các mô hình đó. Mặc dù có khả năng năng động hơn, nhưng các mô hình như vậy rất phức tạp, cả để học và sử dụng. Ví dụ:các phân phối cần thiết để được xác định các đối tượng trước đó có thể được xác định là các giá trị ngoại lai.

Các phương pháp tiếp cận thống kê để phát hiện ngoại lệ có một nền tảng vững chắc và được xây dựng dựa trên các kỹ thuật thống kê tiêu chuẩn, bao gồm cả việc tính toán các tham số của một phân phối. Khi có đầy đủ kiến ​​thức về dữ liệu và loại thử nghiệm phải được sử dụng, các thử nghiệm này có thể hiệu quả. Có nhiều phương pháp kiểm tra ngoại lệ thống kê cho các thuộc tính riêng lẻ. Ít tùy chọn hơn có thể truy cập được cho dữ liệu đa biến và các thử nghiệm này có thể triển khai kém đối với bản ghi chiều cao.