Phân loại là thủ tục khám phá một mô hình xác định và phân loại các lớp hoặc khái niệm dữ liệu. Mô hình dựa trên việc tìm kiếm một tập dữ liệu huấn luyện (tức là các đối tượng dữ liệu mà các nhãn lớp nổi tiếng). Mô hình có thể dự đoán nhãn lớp của các đối tượng mà nhãn lớp là ẩn danh.
Mô hình dẫn xuất có thể được biểu diễn dưới một số dạng, bao gồm các quy tắc phân loại (tức là các quy tắc IF-THEN), cây quyết định, công thức số hoặc mạng nơ-ron. Cây quyết định là một kiến trúc cây giống như lưu đồ, trong đó mỗi nút chỉ ra một thử nghiệm trên một giá trị thuộc tính, mỗi nhánh xác định kết quả của thử nghiệm và các lá cây mô tả các lớp hoặc phân phối lớp.
Cây quyết định có thể được chuyển đổi thành các quy tắc phân loại. Mạng nơron, khi được sử dụng để phân loại, nói chung là một tập hợp các đơn vị xử lý giống như nơron với các kết nối có trọng số giữa các đơn vị. Có một số phương pháp để xây dựng mô hình phân loại, bao gồm phân loại theo Bayesian, máy vectơ hỗ trợ và phân loại k-láng giềng gần nhất.
Phân loại dự báo nhãn phân loại (rời rạc, không có thứ tự), mô hình hồi quy các chức năng có giá trị liên tục. Hồi quy có thể dự đoán các giá trị dữ liệu thống kê bị thiếu hoặc không có sẵn thay vì các nhãn lớp (rời rạc).
Dự đoán xác định cả dự đoán số và dự đoán nhãn lớp. Phân tích hồi quy là một phương pháp thống kê được sử dụng để dự đoán số, mặc dù cũng có một số kỹ thuật. Hồi quy cũng bao gồm việc xác định các xu hướng phân phối phụ thuộc vào dữ liệu có sẵn.
Phân loại và hồi quy có thể được yêu cầu trước phân tích mức độ liên quan, phân tích này cố gắng nhận ra các thuộc tính có thể áp dụng đáng kể cho quá trình phân loại và hồi quy. Các thuộc tính như vậy sẽ được chọn cho quá trình phân loại và hồi quy. Có nhiều thuộc tính không liên quan, có thể không được phép xem xét.
Giả sử với tư cách là người quản lý bán hàng của AllElectronics, cần phải xác định một tập hợp lớn các mặt hàng trong cửa hàng, dựa trên ba loại phản hồi đối với chiến dịch bán hàng như phản hồi tốt, phản hồi nhẹ và không phản hồi.
Nó có thể lấy ra một mô hình cho mỗi trong số ba lớp này dựa trên các đặc điểm mô tả của các mặt hàng, bao gồm giá cả, thương hiệu, nơi sản xuất, loại và danh mục. Việc phân loại kết quả sẽ phân tích tối đa từng lớp từ những lớp khác, thể hiện một hình ảnh có tổ chức của tập dữ liệu.
Cây quyết định có thể xác định giá là yếu tố riêng lẻ giúp phân biệt tốt nhất ba loại. Cây có thể tiết lộ rằng giá cả, các tính năng khác hỗ trợ để phân biệt rõ hơn các đối tượng của từng lớp với nhau chứa nhãn hiệu và nơi sản xuất. Cây quyết định như vậy có thể giúp chúng tôi tìm hiểu tác động của chiến dịch bán hàng nhất định và thiết kế một chiến dịch hiệu quả hơn trong tương lai.