Tiết kiệm dựa trên Entropy là gì?

Tùy ý hóa dựa trên Entropy là một phương pháp chia tách từ trên xuống có giám sát. Nó khám phá dữ liệu phân phối lớp trong quá trình tính toán và bảo toàn các điểm phân tách (giá trị dữ liệu để phân tách một phạm vi thuộc tính). Nó có thể tách biệt một thuộc tính thống kê, A, phương pháp chọn giá trị của A có entropy nhỏ nhất làm điểm phân tách và chia đệ quy các khoảng kết quả để xuất hiện theo thứ tự phân cấp.

Sự tùy biến cụ thể tạo thành một hệ thống phân cấp khái niệm cho A. Cho D bao gồm các bộ dữ liệu được mô tả bởi một nhóm thuộc tính và một thuộc tính nhãn lớp. Thuộc tính nhãn lớp hỗ trợ dữ liệu lớp trên mỗi bộ. Phương pháp cơ bản để tùy biến dựa trên entropy của một thuộc tính A bên trong tập hợp như sau -

Mỗi giá trị của A có thể được coi như một ranh giới khoảng tiềm năng hoặc điểm phân tách (điểm phân tách được chỉ định) để phân chia khu vực của A. Nghĩa là, một điểm phân tách cho A có thể chia các bộ giá trị trong D thành hai tập con thỏa mãn các điều kiện A. ≤ điểm phân tách và điểm phân tách A> tương ứng, do đó tạo ra sự tùy ý nhị phân.

Tùy ý dựa trên Entropy sử dụng dữ liệu liên quan đến nhãn lớp của các bộ giá trị. Nó có thể xác định trực giác sau khi tùy ý dựa trên entropy, cần xem xét phân loại. Giả sử cần phải xác định các bộ giá trị trong D bằng cách phân vùng trên thuộc tính A và một số điểm phân tách.

Ví dụ, nếu chúng ta có hai lớp, có thể hy vọng rằng một số bộ giá trị, chẳng hạn, lớp C1 sẽ giảm thành một phân vùng và một số bộ giá trị của lớp C2 sẽ giảm xuống phân vùng khác. Nhưng điều này khó xảy ra. Ví dụ, phân vùng đầu tiên có thể bao gồm một số bộ giá trị của C1, nhưng cũng có thể bao gồm một số bộ giá trị của C2. Số lượng này được gọi là yêu cầu dữ liệu dự kiến để xác định một bộ giá trị trong D dựa trên phân vùng theo A. Nó được đưa ra bởi

$$ \ mathrm {Info_A (D) \:=\:\ frac {\ mid \:D_1 \:\ mid} {\ mid \:D \:\ mid} Entrophy (D_1) \:+ \:\ frac { \ mid \:D_2 \:\ mid} {\ mid \:D \:\ mid} Vòng thi (D_2)} $$

trong đó D ₁ và D ₂ tương ứng với các bộ giá trị trong D làm mới các điều kiện A ≤ điểm phân tách và A> điểm phân tách, theo đó; | D | là số bộ giá trị trong D, v.v. Dịch vụ entropy cho một tập hợp nhất định được tính dựa trên phân phối lớp của các bộ giá trị trong tập hợp đó.

Ví dụ, cho trước m lớp, C1, C2 ... Cm, entropy của D1 là

$$ \ mathrm {Entrophy (D_1)} \:=\:- \ displaystyle \ sum \ limit_ {i =1} ^ m P_i {\ log_ {2} (P_i)} $$

Giai đoạn quyết định điểm phân tách được sử dụng đệ quy cho từng phân vùng có được, cho đến khi đáp ứng một số tiêu chí dừng, bao gồm khi yêu cầu dữ liệu tối thiểu trên tất cả các điểm phân tách của sinh viên nhỏ hơn ngưỡng nhỏ, ε hoặc khi bội số cao hơn vượt quá ngưỡng, max_interval.