Phân loại dữ liệu là gì?

Phân loại là một cách tiếp cận khai thác dữ liệu được sử dụng để dự báo thành viên nhóm cho các cá thể dữ liệu. Đây là một thủ tục gồm hai bước. Trong bước đầu tiên, một mô hình được xây dựng xác định một tập hợp các lớp dữ liệu hoặc phương pháp tiếp cận được xác định trước. Mô hình được phát triển bằng cách xem xét các bộ dữ liệu cơ sở dữ liệu được xác định bởi các thuộc tính.

Mỗi tuple được coi là thuộc về một lớp được xác định trước, do một trong các thuộc tính quyết định, được gọi là thuộc tính nhãn lớp. Trong khuôn khổ phân loại, các bộ dữ liệu cũng được định nghĩa là các mẫu, ví dụ hoặc đối tượng. Các bộ dữ liệu được phân tích để phát triển mô hình cùng tạo thành tập dữ liệu đào tạo. Các bộ giá trị duy nhất tạo ra tập huấn luyện được định nghĩa là các mẫu huấn luyện và được chọn ngẫu nhiên từ tập hợp mẫu.

Vì nhãn lớp của mỗi mẫu đào tạo được hỗ trợ, quy trình này còn được gọi là học có giám sát. Trong học tập không có giám sát, trong đó nhãn lớp của các mẫu đào tạo là ẩn danh và nhiều lớp sẽ học có thể không được biết trước.

Mô hình đã học được mô tả trong cấu trúc của các quy tắc phân loại, cây quyết định hoặc công thức số. Ví dụ:với một cơ sở dữ liệu về dữ liệu tín dụng của người dùng, các quy tắc phân loại có thể được học để xác định người dùng có xếp hạng tín dụng tốt nhất hoặc công bằng. Các quy tắc có thể được sử dụng để phân loại các mẫu dữ liệu trong tương lai và hỗ trợ hiểu rõ về nội dung cơ sở dữ liệu.

Phương pháp lưu giữ là một kỹ thuật đơn giản áp dụng một tập hợp thử nghiệm các mẫu được gắn nhãn lớp. Các mẫu này được chọn ngẫu nhiên và là mẫu đào tạo tự trị. Hiệu quả của một mô hình trên một tập hợp thử nghiệm nhất định là tỷ lệ phần trăm các mẫu thử nghiệm được mô hình hạn chế thích hợp. Đối với mỗi mẫu thử nghiệm, nhãn lớp nổi tiếng được phân biệt với dự báo lớp của mô hình đã học cho mẫu đó.

Nếu hiệu quả của mô hình được ước tính phụ thuộc vào tập dữ liệu đào tạo, thì ước tính này có thể lạc quan vì mô hình đã học ảnh hưởng đến việc trang bị quá nhiều thông tin (cụ thể là nó có thể đã kết hợp một số điểm bất thường cụ thể của thông tin đào tạo không có trong toàn bộ dân số mẫu). Do đó, một tập hợp thử nghiệm được sử dụng.

Học tập - Thông tin đào tạo được phân tích bằng một thuật toán phân loại. Do đó, thuộc tính nhãn lớp là xếp hạng tín dụng và mô hình hoặc bộ phân loại đã học được mô tả trong cấu trúc của quy tắc phân loại.
Phân loại - Dữ liệu thử nghiệm được sử dụng để đo lường hiệu quả của các quy tắc phân loại. Nếu hiệu quả được xử lý ở mức chấp nhận được, các quy tắc có thể được sử dụng để phân loại các bộ dữ liệu mới.