Phân loại hoạt động như thế nào?

Phân loại là phương pháp tiếp cận khai thác dữ liệu chỉ định các phần tử cho một tập hợp dữ liệu để hỗ trợ các dự đoán và phân tích hiệu quả hơn. Phân loại thường được sử dụng khi có hai lớp đích được gọi là phân loại nhị phân.

Khi cao hơn hai lớp có thể được dự đoán, đặc biệt là trong các bài toán nhận dạng mẫu, điều này được định nghĩa là phân loại đa thức. Tuy nhiên, phân loại đa thức có thể được sử dụng cho dữ liệu phản hồi phân loại, trong đó người ta cần dự đoán loại nào trong số các phần tử khác nhau có các thể hiện với xác suất lớn nhất.

Phân loại dữ liệu là một giai đoạn hai bước. Trong giai đoạn đầu, một bộ phân loại được xây dựng để xác định tập hợp các lớp hoặc khái niệm dữ liệu được xác định trước. Đây là giai đoạn học tập (hoặc giai đoạn đào tạo), trong đó một thuật toán phân loại phát triển bộ phân loại bằng cách phân tích hoặc “hiểu từ” một tập hợp đào tạo tạo ra các bộ dữ liệu cơ sở dữ liệu và các nhãn lớp liên quan của chúng.

Một bộ, X, được mô tả bằng vectơ thuộc tính n-chiều, X =(x ₁ , x ₂ ,… X _n ), xác định n phép đo được tạo trên bộ từ n thuộc tính cơ sở dữ liệu, do đó, A ₁ , A ₂ , ... A _n .

Mọi tuple, X, được coi là thuộc về một lớp được xác định trước theo quyết định của một thuộc tính cơ sở dữ liệu khác được gọi là thuộc tính nhãn lớp. Thuộc tính nhãn lớp có giá trị rời rạc và không có thứ tự. Nó mang tính phân loại ở chỗ mọi giá trị được cung cấp dưới dạng một danh mục hoặc lớp học.

Các bộ giá trị duy nhất tạo ra tập huấn luyện được định nghĩa là các bộ huấn luyện và được chọn từ cơ sở dữ liệu đang được phân tích. Trong khuôn khổ phân loại, các bộ dữ liệu có thể được định nghĩa là các mẫu, phiên bản, điểm dữ liệu hoặc đối tượng.

Vì nhãn lớp của mọi bộ đào tạo được hỗ trợ, bước này được gọi là học có giám sát. Nó có thể so sánh với học không giám sát (hoặc phân cụm), trong đó nhãn lớp của mọi bộ đào tạo không phổ biến và không thể biết trước số lượng hoặc tập hợp các lớp cần hiểu.

Trong giai đoạn thứ hai, mô hình có thể được sử dụng để phân loại. Đầu tiên, dự đoán chính xác của bộ phân loại. Nếu nó có thể sử dụng tập hợp đào tạo để tính toán độ chính xác của trình phân loại, thì ước tính này có thể lạc quan, vì trình phân loại có xu hướng trang bị quá nhiều các bản ghi (nghĩa là trong quá trình học, nó có thể kết hợp một số điểm bất thường cụ thể của các bản ghi đào tạo không có trong tập dữ liệu chung đã hoàn thành).

Do đó, một tập hợp thử nghiệm được sử dụng, tạo ra các bộ thử nghiệm và các nhãn lớp liên quan của chúng. Các bộ giá trị này được chọn ngẫu nhiên từ tập dữ liệu chung. Chúng tách biệt với các bộ đào tạo, xác định rằng chúng không được sử dụng để tạo bộ phân loại.