Làm thế nào chúng ta có thể tìm thấy một tập hợp con tốt của các thuộc tính ban đầu?

Lựa chọn tập hợp con thuộc tính làm giảm kích thước tập dữ liệu bằng cách loại bỏ các thuộc tính (hoặc thứ nguyên) không liên quan hoặc dư thừa. Mục tiêu của lựa chọn tập hợp con thuộc tính là phát hiện ra một tập hợp tối thiểu các thuộc tính sao cho phân phối xác suất tiếp theo của các lớp dữ liệu càng gần càng khả thi với phân phối ban đầu thu được bằng cách sử dụng tất cả các thuộc tính.

Đối với n thuộc tính, có thể có 2n tập hợp con. Một tìm kiếm toàn diện cho tập con tối ưu của các thuộc tính có thể cực kỳ tốn kém, cụ thể là khi n và số lượng lớp dữ liệu tăng lên. Do đó, các phương pháp tiếp cận theo kinh nghiệm khám phá một không gian tìm kiếm giảm thiểu thường được sử dụng để lựa chọn tập hợp con thuộc tính.

Những cách tiếp cận này thường tham lam ở chỗ trong khi tìm kiếm trong không gian thuộc tính, họ liên tục đưa ra những chế độ xem nào là lựa chọn tốt vào thời điểm đó. Phương pháp của họ là phát triển một lựa chọn tối ưu cục bộ với hy vọng rằng điều này sẽ dẫn đến một giải pháp tối ưu trên toàn thế giới. Những kỹ thuật tham lam như vậy rất hiệu quả trong thực tế và có thể gần như tính toán được một giải pháp tối ưu.

Các thuộc tính "tốt nhất" và "kém nhất" thường được quyết định bằng cách sử dụng các thử nghiệm có ý nghĩa thống kê, coi các thuộc tính này tách biệt với nhau. Một số biện pháp đánh giá thuộc tính khác nhau có thể được sử dụng, bao gồm cả thước đo thu thập thông tin được sử dụng trong việc xây dựng cây quyết định để phân loại.

Có các phương pháp heuristic cơ bản để lựa chọn tập hợp con thuộc tính bao gồm các kỹ thuật sau đây như sau -

Lựa chọn tiến từng bước - Quá trình bắt đầu với một tập hợp các thuộc tính rỗng là tập hợp đã giảm. Các thuộc tính ban đầu tốt nhất được quyết định và chèn vào tập hợp đã giảm. Ở mỗi bước hoặc lần lặp tiếp theo, các thuộc tính ban đầu còn lại sẽ được chèn vào tập hợp.

Loại bỏ ngược từng bước - Quá trình bắt đầu với bộ thuộc tính hoàn chỉnh. Ở mỗi giai đoạn, nó loại bỏ thuộc tính xấu nhất còn lại trong tập hợp.

Kết hợp giữa lựa chọn chuyển tiếp và loại bỏ lùi lại - Kỹ thuật lựa chọn tiến từng bước và kỹ thuật loại bỏ lùi lại có thể được kết hợp để ở mỗi giai đoạn, quá trình chọn thuộc tính tốt nhất và loại bỏ thuộc tính xấu nhất giữa các thuộc tính còn lại.

Quy nạp cây quyết định - Các thuật toán cây quyết định, bao gồm ID3, C4.5 và CART, ban đầu được thiết kế để phân loại. Quy nạp cây quyết định xây dựng một cấu trúc giống như lưu đồ trong đó mỗi nút bên trong (không phải lá) biểu thị một bài kiểm tra trên một thuộc tính, mỗi nhánh tương ứng với một kết quả của bài kiểm tra và mỗi nút bên ngoài (lá) biểu thị một dự đoán lớp. Tại mỗi nút, thuật toán chọn thuộc tính "tốt nhất" để phân vùng thông tin thành các lớp đơn.

Khi quy nạp cây quyết định được sử dụng để lựa chọn tập hợp con thuộc tính, cây sẽ được xây dựng từ thông tin đã cho. Tất cả các thuộc tính không xuất hiện trong cây được coi là không liên quan. Nhóm thuộc tính xuất hiện trong cây tạo thành tập hợp con giảm dần của các thuộc tính.