Biến nhị phân là gì?

Một biến nhị phân chỉ có hai trạng thái như 0 hoặc 1, trong đó 0 xác định rằng biến không có và 1 xác định rằng nó có mặt. Ví dụ, với biến số người hút thuốc xác định một bệnh nhân, 1 biểu thị rằng bệnh nhân hút thuốc, trong khi 0 biểu thị rằng bệnh nhân không hút thuốc. Có thể coi các biến nhị phân như thể chúng được chia tỷ lệ theo khoảng có thể dẫn đến kết quả phân cụm gây hiểu lầm. Do đó, các phương thức xác định cho dữ liệu nhị phân là điều cần thiết để tính toán các điểm khác biệt.

Có một phương pháp liên quan đến việc tính toán một ma trận khác biệt từ dữ liệu nhị phân đã cho. Nếu một số biến nhị phân được coi là có trọng số tương tự, nó có thể có bảng dự phòng 2 x 2, trong đó q là số biến tương tự với 1 cho cả hai đối tượng i và j, r là số biến giống 1 đối với đối tượng i nhưng khác 0 đối với đối tượng j, s là số biến giống 0 đối với đối tượng i nhưng tương tự như 1 đối với đối tượng j và t là số biến giống 0 đối với cả hai đối tượng i và j. Tổng số biến là p, trong đó p =q + r + s + t.

Một biến nhị phân là đối xứng nếu cả hai trạng thái của nó đều có giá trị như nhau và có trọng lượng bằng nhau; tức là, không có ưu tiên nào về việc kết quả phải được mã hóa là 0 hoặc 1. Sự không giống nhau phụ thuộc vào các biến nhị phân đối xứng được gọi là sự khác biệt nhị phân đối xứng.

Một biến nhị phân là không đối xứng nếu kết quả của các trạng thái không quan trọng, bao gồm cả kết quả dương tính và âm tính của xét nghiệm bệnh. Theo quy ước, chúng tôi sẽ mã hóa kết quả cơ bản, thường là kết quả hiếm nhất, bằng 1 (ví dụ:HIV dương tính) và kết quả khác là 0 (ví dụ:HIV âm tính).

Với hai biến nhị phân không đối xứng, sự đồng nhất của hai số 1 (kết hợp dương) được coi là quan trọng hơn sự đồng ý của hai số 0 (so khớp âm). Do đó, các biến nhị phân như vậy được coi là "đơn nguyên" (như thể có một trạng thái).

Sự khác biệt dựa trên các biến như vậy được gọi là sai lệch nhị phân không đối xứng, trong đó một số kết quả phủ định, t, được coi là không quan trọng và do đó bị bỏ qua trong tính toán, như được hiển thị trong phương trình

$$ \ mathrm {d (i, j) =\:\ frac {r + s} {q + r + s}} $$

Nó có thể tính toán khoảng cách giữa hai biến nhị phân phụ thuộc vào khái niệm tương tự hơn là khác biệt. Ví dụ:sự giống nhau nhị phân không đối xứng giữa các đối tượng i và j, hoặc sim (i, j), có thể được tính bằng,

$$ \ mathrm {sim (i, j) =\:\ frac {q} {q + r + s} =1-d (i, j)} $$.

Hệ số sim (i, j) được gọi là hệ số Jaccard.