Phân loại là một cách tiếp cận khai thác dữ liệu được sử dụng để dự báo thành viên nhóm cho các cá thể dữ liệu. Đây là một thủ tục gồm hai bước. Trong bước đầu tiên, một mô hình được xây dựng xác định một tập hợp các lớp dữ liệu hoặc phương pháp tiếp cận được xác định trước. Mô hình được phát triển bằng cách xem xét các bộ dữ liệu cơ sở dữ liệu được xác định bởi các thuộc tính.
Nó có nhiệm vụ phân tích các tính năng của một đối tượng mới được trình bày và tạo nó thành một trong những tập hợp các lớp được xác định trước. Đối với các quy tắc phân loại học, hệ thống phải khám phá các quy tắc dự đoán lớp từ các thuộc tính dự đoán, do đó trước hết các điều kiện phải được đại diện cho mỗi lớp. Hệ thống phải được cung cấp một trường hợp hoặc bộ dữ liệu với các giá trị thuộc tính đã biết cụ thể để có thể dự đoán trường hợp này áp dụng cho lớp nào.
Khi các lớp được xác định, hệ thống phải suy ra các quy tắc chi phối việc phân loại, do đó hệ thống phải có khả năng phát hiện ra biểu diễn của mỗi lớp. Các mô tả chỉ nên xác định các thuộc tính dự đoán của tập huấn luyện để chỉ các ví dụ tích cực mới phải thỏa mãn việc mô tả đặc tính, không phải các ví dụ tiêu cực. Quy tắc là đúng nếu định nghĩa của nó bao gồm tất cả các ví dụ tích cực và không có ví dụ tiêu cực nào về một lớp được đề cập.
Phân loại Bayes - Bộ phân loại Bayes là bộ phân loại thống kê. Họ có thể dự đoán xác suất thành viên của lớp, bao gồm xác suất mà một mẫu nhất định thuộc về một lớp cụ thể. Bộ phân loại Bayes cũng đã cho thấy hiệu quả và tốc độ cao khi được sử dụng với cơ sở dữ liệu cao.
Các nhà phân loại Naïve Bayes coi rằng ảnh hưởng của một giá trị thuộc tính lên một lớp nhất định là tự trị đối với các giá trị của các thuộc tính khác nhau. Giả định này được gọi là sự độc lập có điều kiện của lớp. Nó được tạo ra để xác định đánh giá có và được coi là Naïve.
Định lý Bayes - Định lý Bayes - Cho X là một bộ dữ liệu. Trong phương pháp Bayes, X được coi là “bằng chứng”. Gọi H là một giả thuyết nào đó, bao gồm cả bộ dữ liệu X thuộc một lớp cụ thể C. Xác suất P (H | X) được xác định để xác định dữ liệu. Xác suất P (H | X) này là xác suất mà ảnh hưởng của giả thuyết H đã đưa ra "bằng chứng" hoặc bộ dữ liệu nhận thấy X.
P (H | X) là xác suất đặt sau của H với điều kiện X. Ví dụ:hãy xem xét bản chất của bộ dữ liệu được giới hạn ở những người dùng được xác định bởi độ tuổi thuộc tính và thu nhập, thường và X là người dùng 30 tuổi với Rs. Thu nhập 20.000. Giả sử rằng H là giả thuyết rằng người dùng sẽ mua một máy tính. Do đó P (H | X) đảo ngược xác suất người dùng X sẽ mua một máy tính khi tuổi và thu nhập của người dùng được công nhận.
P (H) là xác suất trước của H. Ví dụ, đây là xác suất mà bất kỳ người dùng nhất định nào sẽ mua một máy tính, bất kể tuổi tác, thu nhập hoặc một số dữ liệu khác. Xác suất sau P (H | X) nằm trên nhiều dữ liệu hơn xác suất trước P (H), không chứa X.
Tương tự như vậy, P (X | H) là xác suất đặt sau của X với điều kiện là H. Đó là xác suất người dùng X 30 tuổi và đạt được Rs. 20.000.
P (H), P (X | H), và P (X) có thể được đo từ thông tin đã cho. Định lý Bayes hỗ trợ một phương pháp tính xác suất hậu nghiệm P (H | X), từ P (H), P (X | H) và P (X). Nó được đưa ra bởi
$$ P (H | X) =\ frac {P (X | H) P (H)} {P (X)} $$