Lựa chọn tập hợp con thuộc tính làm giảm kích thước tập dữ liệu bằng cách loại bỏ các thuộc tính (hoặc thứ nguyên) không liên quan hoặc dư thừa. Lựa chọn tập hợp con thuộc tính nhằm mục đích khám phá một tập hợp tối thiểu các thuộc tính sao cho phân phối xác suất kết quả của các lớp dữ liệu càng gần càng tốt đối với truy cập phân phối ban đầu bằng cách sử dụng tất cả các thuộc tính. Khai thác dữ liệu trên một tập hợp các thuộc tính được giảm bớt có một lợi ích bổ sung. Nó làm giảm nhiều thuộc tính xảy ra trong các mẫu đã phát hiện, cung cấp để tạo các mẫu đơn giản hơn để hiểu.
Đối với n thuộc tính, có 2 n các tập hợp con có thể có. Việc tìm kiếm toàn diện cho tập hợp con các thuộc tính tối ưu có thể rất tốn kém, đặc biệt là khi n và nhiều lớp dữ liệu tăng lên. Do đó, các phương pháp heuristic khám phá không gian tìm kiếm thu nhỏ thường được sử dụng để lựa chọn tập hợp con thuộc tính.
Các phương thức này thường tham lam ở chỗ trong khi tìm kiếm thông qua không gian thuộc tính, chúng luôn tạo ra những gì có vẻ là lựa chọn tốt hơn vào thời điểm đó. Chiến lược của họ là đưa ra một lựa chọn tối ưu cục bộ với hy vọng rằng điều này sẽ dẫn đến một giải pháp tối ưu trên toàn cầu. Các phương pháp tiếp cận tham lam như vậy có hiệu quả trong thực tế và có thể tiến gần đến việc ước tính một giải pháp tối ưu.
Các thuộc tính tốt nhất và xấu nhất thường được xác định bằng cách sử dụng các thử nghiệm có ý nghĩa thống kê, coi rằng các thuộc tính này tách biệt với nhau. Một số biện pháp đánh giá thuộc tính khác có thể được sử dụng, bao gồm cả thước đo thu thập thông tin được sử dụng trong việc xây dựng cây quyết định để phân loại.
Có các phương pháp chọn tập hợp con thuộc tính như sau -
-
Lựa chọn tiến từng bước - Quá trình bắt đầu với một tập hợp các thuộc tính null là tập hợp giảm. Các thuộc tính ban đầu tốt nhất được xác định và thêm vào tập hợp đã rút gọn. Ở mỗi lần lặp lại hoặc bước tiếp theo, các thuộc tính gốc tốt nhất còn lại sẽ được chèn vào tập hợp.
-
Loại bỏ ngược từng bước - Thủ tục bắt đầu với tập hợp đầy đủ các thuộc tính. Ở mỗi bước, nó loại bỏ thuộc tính xấu nhất còn lại trong tập hợp.
-
Kết hợp giữa lựa chọn chuyển tiếp và loại bỏ lùi lại - Phương pháp lựa chọn tiến từng bước và phương pháp loại bỏ lùi lại có thể được kết nối để ở mỗi bước, quy trình chọn thuộc tính tốt nhất và loại bỏ thuộc tính xấu nhất trong số các thuộc tính còn lại.
-
Quy nạp cây quyết định - Các thuật toán cây quyết định bao gồm ID3, C4.5 và CART, ban đầu được thiết kế để phân loại. Quy nạp cây quyết định xây dựng một cấu trúc giống như lưu đồ trong đó mỗi nút bên trong (không phải lá) biểu thị một bài kiểm tra trên một thuộc tính, mỗi nhánh tương ứng với một kết quả của bài kiểm tra và mỗi nút bên ngoài (lá) biểu thị một dự đoán lớp. Tại mỗi nút, thuật toán chọn thuộc tính "tốt nhất" để phân vùng dữ liệu thành các lớp riêng lẻ.