Một vấn đề thường gặp trong khai thác dữ liệu là việc sử dụng phương trình hồi quy để dự báo giá trị của một biến phụ thuộc khi nó có thể có sẵn một số biến để chọn làm yếu tố dự đoán trong mô hình này.
Một sự cân nhắc khác thiên về sự bao hàm của nhiều biến số với hy vọng rằng một mối quan hệ ẩn trước đây sẽ xuất hiện. Ví dụ:một công ty nhận thấy rằng những khách hàng đã mua lớp bảo vệ chống va quệt cho chân ghế và bàn có rủi ro tín dụng thấp hơn.
Có một số lý do để thực hiện thận trọng trước khi đưa tất cả các biến có thể vào một mô hình.
-
Việc thiết lập bổ sung đầy đủ các yếu tố dự đoán cho các dự đoán được mong đợi có thể được định giá cao hoặc không khả thi.
-
Nó có thể tính toán ít yếu tố dự đoán chính xác hơn (ví dụ:trong các cuộc khảo sát).
-
Càng nhiều yếu tố dự đoán, khả năng thiếu giá trị trong dữ liệu càng cao. Nếu chúng tôi xóa hoặc áp đặt các bản ghi có giá trị bị thiếu, nhiều yếu tố dự đoán sẽ dẫn đến tỷ lệ xóa hoặc sửa bản ghi cao hơn.
-
Parsimony là một tính năng cần thiết của các mô hình tốt. Chúng tôi có được cái nhìn sâu sắc hơn về ảnh hưởng của các yếu tố dự đoán trong các mô hình có ít tham số.
-
Các ước tính của hệ số hồi quy có thể không rõ ràng, vì tính đa cộng tuyến trong các mô hình có một số biến. (Đa cộng tuyến là sự hiện diện của hai hoặc nhiều yếu tố dự báo có cùng mối quan hệ tuyến tính với biến kết quả.)
-
Hệ số hồi quy rất mạnh đối với các mô hình phân tích. Một nguyên tắc cơ bản là có một số bản ghi n lớn hơn 5 (p + 2), trong đó p là số lượng các yếu tố dự đoán.
-
Có thể thấy rằng việc sử dụng các yếu tố dự đoán không tương quan với biến số kết quả sẽ làm tăng phương sai của các dự đoán.
-
Có thể chỉ ra rằng việc bỏ các yếu tố dự đoán có tương quan với biến kết quả có thể làm tăng sai số trung bình (độ chệch) của các dự đoán.
Hai điểm cuối cùng xác định rằng có sự đánh đổi giữa quá ít và quá nhiều yếu tố dự đoán. Nói chung, chấp nhận một số thành kiến có thể làm giảm phương sai trong các dự đoán. Sự cân bằng độ lệch-phương sai này đặc biệt cần thiết đối với nhiều yếu tố dự báo bởi vì có khả năng có những biến trong mô hình có hệ số nhỏ tương ứng với độ lệch chuẩn của nhiễu và cũng xem xét mối tương quan ít nhất vừa phải với các biến khác.
Việc loại bỏ các biến như vậy sẽ cải thiện các dự đoán, vì nó làm giảm phương sai dự đoán. Loại cân bằng phương sai lệch này là một yếu tố thiết yếu của quy trình khai thác dữ liệu để dự đoán và phân loại.