Hiệu suất của phân tích phân biệt là gì?

Phương pháp phân tích phân biệt dựa trên hai giả định chính để xuất hiện tại các điểm phân loại - Thứ nhất, phương pháp này coi rằng các phép đo dự đoán trong một số lớp xuất hiện từ phân phối chuẩn đa biến. Khi giả thuyết này được tập hợp hợp lý, phân tích phân biệt là một công cụ năng động hơn các phương pháp phân loại khác, bao gồm cả hồi quy logistic.

Nó được hiển thị rằng phân tích phân biệt hiệu quả hơn 30% so với hồi quy logistic nếu dữ liệu là đa biến bình thường, nó cần ít bản ghi hơn 30% để đạt được kết quả bằng nhau. Nó đã được hiển thị rằng phương pháp này tương đối mạnh mẽ để rời khỏi tính bình thường theo nghĩa là các yếu tố dự đoán có thể là các biến không bình thường và thậm chí là giả.

Điều này đúng khi xem xét lớp nhỏ nhất là đủ lớn (khoảng hơn 20 bản ghi). Cách tiếp cận này cũng được coi là nhạy cảm với các ngoại lệ trong cả lĩnh vực đơn biến của các yếu tố dự báo riêng lẻ và trong lĩnh vực đa biến. Phân tích thăm dò nên được sử dụng để xác định các phương pháp cực đoan và quyết định xem chúng có thể được loại bỏ hay không.

Giả định thứ hai sau phân tích phân biệt là cấu trúc tương quan giữa nhiều yếu tố dự đoán bên trong một lớp là giống nhau giữa các lớp. Điều này có thể được kiểm tra bằng cách tính toán ma trận tương quan giữa các yếu tố dự đoán một cách riêng biệt cho mọi lớp và so sánh các ma trận.

Nếu các mối tương quan tương phản đáng kể giữa các lớp, bộ phân loại sẽ ảnh hưởng để xác định các bản ghi vào lớp có độ thay đổi cao nhất. Khi cấu trúc tương quan khác nhau về cơ bản và tập dữ liệu cao, một giải pháp thay thế là cần phân tích phân biệt bậc hai.

Một cách tiếp cận vừa phải là tính toán một số phân tích khám phá liên quan đến tính chuẩn và tương quan, đào tạo và tính toán một mô hình, sau đó, dựa trên độ chính xác của phân loại và những gì nó học được từ khám phá ban đầu, quay lại và khám phá thêm xem liệu các ngoại lệ có phải được kiểm tra hay lựa chọn công cụ dự đoán các biến được xem lại.

Đối số tương tự để sử dụng nhóm xác thực cho hiệu suất máy tính vẫn mang. Ví dụ, trong các họ máy cắt cỏ 1, 13 và 17 được phân loại sai. Điều này có nghĩa là mô hình mang lại tỷ lệ lỗi là 12,5% cho các bản ghi này.

Tỷ lệ này là một thước đo thiên vị - nó là lạc quan vì nó có thể được sử dụng dữ liệu như nhau để điều chỉnh các chức năng phân loại và để tính toán sai số. Do đó, giống như với một số mô hình, nó có thể kiểm tra hiệu suất trên một tập hợp xác thực có chứa dữ liệu không được bao gồm trong việc tính toán các chức năng phân loại.

Nó có thể thu được ma trận nhầm lẫn từ một phân tích phân biệt, nó có thể cần chính xác điểm phân loại hoặc xu hướng (xác suất ghi danh vào lớp) được tính toán từ điểm phân loại. Trong cả hai trường hợp, nó được xác định trên lớp của mỗi bản ghi phụ thuộc vào điểm hoặc xác suất lớn nhất. Nó có thể so sánh các phân loại này với tư cách thành viên lớp thực của những dữ liệu này. Điều này tạo ra ma trận nhầm lẫn.