Phân loại
Phân loại là một cách tiếp cận khai thác dữ liệu cho phép cấp cho một tập hợp dữ liệu để hỗ trợ các dự đoán và phân tích hiệu quả hơn. Phân loại là một trong một số phương pháp được xác định trước để làm cho việc phân tích các tập dữ liệu cao trở nên hiệu quả.
"Phân loại" thường được sử dụng khi có chính xác hai lớp đích được gọi là phân loại nhị phân. Khi cao hơn hai lớp có thể được dự đoán, đặc biệt là trong các vấn đề nhận dạng mẫu, điều này được định nghĩa là phân loại đa thức. Tuy nhiên, phân loại đa thức cũng được sử dụng cho dữ liệu phản hồi cuối cùng, trong đó người ta được yêu cầu dự đoán danh mục nào trong số nhiều danh mục có các trường hợp với xác suất lớn nhất.
Phân loại là yếu tố quan trọng nhất trong khai thác dữ liệu. Nó định nghĩa một quá trình gán nhãn lớp được xác định trước cho các cá thể tùy thuộc vào thuộc tính của chúng. Có một sự giống nhau giữa phân loại và phân cụm, nó xem tương tự, nhưng nó khác nhau. Sự khác biệt chính giữa phân loại và phân nhóm là phân loại chứa cấp độ của các mục theo tư cách thành viên của chúng trong các nhóm được xác định trước.
Phân cụm
Quá trình kết hợp một tập hợp các đối tượng vật lý hoặc trừu tượng thành các lớp của các đối tượng giống nhau được gọi là phân cụm. Cụm là một tập hợp các đối tượng dữ liệu giống nhau trong cùng một cụm và khác biệt với các đối tượng trong các cụm khác. Một nhóm các đối tượng dữ liệu có thể được coi là một nhóm trong một số ứng dụng. Phân tích cụm là một hoạt động thiết yếu của con người.
Phân tích cụm được sử dụng để tạo thành các nhóm hoặc cụm của các bản ghi giống nhau tùy thuộc vào các biện pháp khác nhau được thực hiện trên các bản ghi này. Thiết kế quan trọng là xác định các cụm theo những cách có thể hữu ích cho mục tiêu của phân tích. Dữ liệu này đã được sử dụng trong một số lĩnh vực, chẳng hạn như thiên văn học, khảo cổ học, y học, hóa học, giáo dục, tâm lý học, ngôn ngữ học và xã hội học.
Có một cách sử dụng nổi tiếng của phân tích cụm trong tiếp thị là để phân khúc thị trường:người dùng được phân khúc dựa trên dữ liệu nhân khẩu học và lịch sử giao dịch, đồng thời các kỹ thuật tiếp thị được điều chỉnh cho phù hợp với từng phân khúc.
Phân tích cụm có thể được sử dụng cho một lượng lớn dữ liệu. Ví dụ, các công cụ tìm kiếm trên Internet sử dụng phương pháp phân cụm để phân cụm các truy vấn mà người dùng gửi. Sau đó, chúng có thể được sử dụng để phát triển các thuật toán tìm kiếm.
Nói chung, dữ liệu cơ bản được sử dụng để phân cụm là một bảng các phép đo trên các biến khác nhau, trong đó mỗi cột xác định một biến và một hàng xác định một bản ghi. Mục đích là tạo thành các nhóm dữ liệu để các bản ghi giống nhau nằm trong cùng một nhóm. Số lượng cụm có thể được chỉ định trước hoặc quyết định từ dữ liệu.