Có hai loại thuật toán dựa trên thống kê như sau -
-
Hồi quy - Các vấn đề hồi quy giải quyết việc đánh giá một giá trị đầu ra nằm trên các giá trị đầu vào. Khi được sử dụng để phân loại, giá trị đầu vào là giá trị từ cơ sở dữ liệu và giá trị đầu ra xác định các lớp. Hồi quy có thể được sử dụng để làm rõ các vấn đề phân loại, nhưng nó được sử dụng cho các ứng dụng khác nhau bao gồm cả dự báo. Dạng hồi quy cơ bản là hồi quy tuyến tính đơn giản chỉ bao gồm một dự báo và một dự đoán.
Hồi quy có thể được sử dụng để thực hiện phân loại bằng hai phương pháp khác nhau như sau -
-
Bộ phận - Dữ liệu được chia thành các vùng nằm trên lớp.
-
Dự đoán - Công thức được tạo để dự đoán giá trị của lớp đầu ra.
-
-
Phân loại Bayes - Các bộ phân loại thống kê được sử dụng để phân loại. Phân loại Bayes dựa trên định lý Bayes. Bộ phân loại Bayes xem hiệu quả và tốc độ cao khi được sử dụng cho cơ sở dữ liệu cao.
Định lý Bayes - Cho X là một bộ dữ liệu. Trong phương pháp Bayes, X được coi là “bằng chứng”. Gọi H là một số giả thuyết, bao gồm cả bộ dữ liệu X thuộc một lớp cụ thể C. Xác suất P (H | X) được quyết định để xác định dữ liệu. Xác suất P (H | X) này là xác suất mà ảnh hưởng của giả thuyết H đã đưa ra "bằng chứng" hoặc bộ dữ liệu được chú ý X.
P (H | X) là xác suất đặt sau của H với điều kiện X. Ví dụ:hãy xem xét bản chất của bộ dữ liệu được giới hạn ở những người dùng được xác định bởi độ tuổi thuộc tính và thu nhập, thông thường và X là người dùng 30 tuổi với Rs. Thu nhập 20.000. Giả sử rằng H là giả thuyết rằng người dùng sẽ mua một máy tính. Do đó P (H | X) đảo ngược xác suất người dùng X sẽ mua một máy tính khi tuổi và thu nhập của người dùng được công nhận.
P (H) là xác suất trước của H. Ví dụ, đây là xác suất mà bất kỳ người dùng nhất định nào sẽ mua một máy tính, bất kể tuổi tác, thu nhập hoặc một số dữ liệu khác. Xác suất sau P (H | X) nằm trên nhiều dữ liệu hơn xác suất trước P (H), không chứa X.
Tương tự như vậy, P (X | H) là xác suất đặt sau của X với điều kiện là H. Đó là xác suất người dùng X 30 tuổi và đạt được Rs. 20.000.
P (H), P (X | H), và P (X) có thể được đo từ thông tin đã cho. Định lý Bayes hỗ trợ một phương pháp tính xác suất hậu nghiệm P (H | X), từ P (H), P (X | H) và P (X). Nó được đưa ra bởi
$$ P (H | X) =\ frac {P (X | H) P (H)} {P (X)} $$