Bộ phân loại Bayes là bộ phân loại thống kê. Nó có thể dự đoán xác suất thành viên của lớp, chẳng hạn như xác suất mà một mẫu nhất định được áp dụng cho một lớp xác định. Các bộ phân loại Bayes cũng đã cho thấy hiệu quả và tốc độ lớn khi chúng có thể có cơ sở dữ liệu cao.
Bởi vì các lớp được định nghĩa, hệ thống phải suy ra các quy tắc giám sát việc phân loại, do đó hệ thống phải có khả năng phát hiện ra mô tả của mỗi lớp. Các mô tả phải xác định các thuộc tính dự đoán của tập huấn luyện để chỉ các trường hợp tích cực phải thỏa mãn mô tả, không phải các trường hợp tiêu cực. Một quy tắc được cho là đúng nếu mô tả của nó bao gồm tất cả các ví dụ tích cực và không có ví dụ tiêu cực nào về một lớp được đề cập.
Giả sử rằng các đóng góp của tất cả các thuộc tính là độc lập và mỗi thuộc tính đều đóng góp như nhau vào vấn đề phân loại, một sơ đồ phân loại đơn giản được gọi là phân loại Naïve Bayes.
Phân loại của Naïve Bayes được gọi là Naïve vì nó giả định tính độc lập có điều kiện của lớp. Việc triển khai một giá trị thuộc tính trên một lớp nhất định tách biệt với các giá trị của nhiều thuộc tính. Giả định này được thực hiện để giảm chi phí tính toán và do đó được coi là Ngây thơ.
Nhiều thuật toán tồn tại để hiểu cấu trúc liên kết mạng từ các bản ghi huấn luyện đưa ra các biến quan sát được. Vấn đề là tối ưu hóa rời rạc. Các chuyên gia con người thường nắm bắt tốt các phụ thuộc có điều kiện trực tiếp ảnh hưởng đến miền được phân tích, hỗ trợ thiết kế mạng. Các chuyên gia nên xác định xác suất có điều kiện cho các nút hoạt động phụ thuộc trực tiếp.
Các xác suất này có thể được sử dụng để đánh giá các giá trị xác suất còn lại. Nếu cấu trúc liên kết mạng được thừa nhận và các biến có thể quan sát được, thì việc huấn luyện mạng sẽ đơn giản. Nó bao gồm tính toán các mục nhập CPT, tương tự như được hoàn thành khi đánh giá các xác suất được bao gồm trong phân loại Bayes đơn thuần.
Có nhiều đặc điểm khác nhau của Bộ phân loại Naïve Bayes như sau -
Chúng mạnh mẽ đối với các điểm nhiễu cô lập vì các điểm này được tính trung bình khi ước tính xác suất có điều kiện từ dữ liệu. Nó cũng có thể quản lý các giá trị bị thiếu bằng cách xóa các phiên bản trong quá trình xây dựng và phân loại mô hình.
Chúng mạnh mẽ đối với các thuộc tính không liên quan. Nếu X i là một thuộc tính không phù hợp, do đó P (X i | Y) trở nên phân phối nhất quán. Xác suất có điều kiện của lớp cho X i không ảnh hưởng đến việc tính toán đầy đủ xác suất sau.
Các thuộc tính tương quan có thể làm giảm hiệu suất của các bộ phân loại Bayes ngây thơ vì giả định về tính độc lập có điều kiện không còn được áp dụng cho các thuộc tính đó. Ví dụ:hãy xem xét các xác suất sau -
P (A =0 | Y =0) =0,4, P (A =1 | Y =0) =0,6,
P (A =0 | Y =1) =0,6, P (A =1 | Y =1) =0,4,
trong đó A là một thuộc tính nhị phân và Y là một biến lớp nhị phân. Giả sử có một thuộc tính nhị phân khác B tương quan hoàn hảo với A khi Y =0, nhưng độc lập với A khi Y =1. Để tính toàn vẹn, hãy xem xét rằng xác suất có điều kiện lớp đối với B cũng bằng với A.