Các biện pháp lựa chọn thuộc tính là gì?

Phép đo lựa chọn thuộc tính là một phép thử để chọn bài kiểm tra phân tách “tốt nhất” phân tách một phân vùng dữ liệu nhất định, D, của các bộ đào tạo được gắn nhãn lớp thành các lớp đơn.

Nếu nó có thể chia D thành các phân vùng nhỏ hơn theo kết quả của tiêu chí phân tách, thì lý tưởng là mọi phân vùng đều có thể thuần túy (tức là một số bộ dữ liệu rơi vào một phân vùng nhất định có thể thuộc cùng một lớp).

Về mặt khái niệm, tiêu chí tách “tốt nhất” là kết quả gần đúng nhất trong một phương pháp như vậy. Các biện pháp lựa chọn thuộc tính được gọi là quy tắc phân tách vì chúng quyết định cách phân chia các bộ giá trị tại một nút nhất định.

Phép đo lựa chọn thuộc tính hỗ trợ xếp hạng cho mọi thuộc tính xác định các bộ giá trị đào tạo đã cho. Thuộc tính có phương pháp tốt nhất cho phép đo được chọn làm thuộc tính phân tách cho các bộ giá trị nhất định.

Nếu thuộc tính tách có giá trị không đổi hoặc nếu thuộc tính này bị hạn chế đối với cây nhị phân, do đó, điểm tách hoặc tập hợp con tách cũng phải được quyết định như một phần tử của tiêu chí tách.

Nút cây được tạo cho phân vùng D được gắn nhãn với tiêu chí tách, các nhánh tăng lên cho mỗi kết quả của tiêu chí và các bộ giá trị được phân lập tương ứng. Có ba biện pháp lựa chọn thuộc tính nổi tiếng bao gồm mức tăng thông tin, tỷ lệ khuếch đại và chỉ số gini.

Thông tin thu được - Mức tăng thông tin được sử dụng để quyết định các tính năng / thuộc tính tốt nhất hiển thị dữ liệu tối đa về một lớp. Nó tuân theo phương pháp entropy trong khi nhằm mục đích giảm mức entropy, bắt đầu từ nút gốc đến các nút lá.

Cho phép nút N xác định hoặc giữ các bộ giá trị của phân vùng D. Thuộc tính có mức tăng thông tin lớn nhất được chọn làm thuộc tính phân tách cho nút N. tạp chất ”trong các phần nhỏ này.

Tỷ lệ tăng - Biện pháp thu thập thông tin là các thử nghiệm tiếp cận thiên vị với một số kết quả. Nó có thể chọn các thuộc tính có số lượng giá trị cao. Ví dụ:hãy coi một thuộc tính tạo điều kiện làm số nhận dạng duy nhất, bao gồm cả ID sản phẩm.

Việc phân chia ID sản phẩm có thể dẫn đến một số lượng lớn các phân vùng, mỗi phân vùng chỉ bao gồm một bộ dữ liệu. Bởi vì mỗi phân vùng là xác thực, dữ liệu cần thiết để xác định tập dữ liệu D dựa trên phân vùng này sẽ là Thông tin _{product_ID} (D) =0.

Chỉ mục Gini - Chỉ số Gini có thể được sử dụng trong CART. Chỉ số Gini tính toán tạp chất của D, một phân vùng dữ liệu hoặc tập hợp các bộ giá trị đào tạo, như

$$ \ mathrm {Gini (D) =1- \ displaystyle \ sum \ limit_ {i =1} ^ m p_i ^ 2} $$

nơi p _i là xác suất mà một bộ trong D thuộc lớp C _i và được tính bằng | C _i , _D | / | D |.