Các biến tỷ lệ theo khoảng là dữ liệu liên tục của một tỷ lệ xấp xỉ tuyến tính. Một ví dụ như trọng lượng và chiều cao, tọa độ vĩ độ và kinh độ (ví dụ:khi nhóm nhà) và nhiệt độ thời tiết. Đơn vị đo lường được sử dụng có thể ảnh hưởng đến phân tích phân nhóm.
Ví dụ:thay đổi đơn vị dữ liệu từ mét sang inch cho chiều cao hoặc từ kilôgam sang pound cho trọng lượng, có thể dẫn đến một số cấu trúc phân cụm. Nói chung, việc xác định một biến theo các đơn vị nhỏ hơn sẽ dẫn đến phạm vi cao hơn cho biến đó và do đó sẽ ảnh hưởng lớn hơn đến kiến trúc phân nhóm kết quả.
Nó có thể ngăn chặn sự phụ thuộc vào việc lựa chọn đơn vị dữ liệu, dữ liệu phải được chuẩn hóa. Việc chuẩn hóa các phép đo cố gắng cung cấp cho tất cả các biến một trọng số như nhau. Điều này đặc biệt hữu ích khi không có kiến thức về dữ liệu trước đó. Nhưng trong một số ứng dụng, người dùng có thể cố ý cần cung cấp nhiều trọng số hơn cho một tập hợp các biến cụ thể hơn so với các biến khác. Ví dụ:khi nhóm các ứng cử viên cầu thủ bóng rổ, nó có thể thích cung cấp nhiều trọng lượng hơn cho chiều cao thay đổi.
Nó có thể được tiêu chuẩn hóa dữ liệu, một lựa chọn là sửa đổi dữ liệu ban đầu thành đơn vị ít biến hơn. Đã cho các phép đo cho một biến f, điều này có thể được thực hiện như sau -
Tính độ lệch tuyệt đối trung bình, s f -
$$ \ mathrm {s_ {f} \:=\:\ frac {1} {n} (| x_ {1f} -m_ {f} | + | x_ {2f} -m_ {f} | + \ cdot \ cdot \ cdot + | x_ {nf} -m_ {f} |)} $$
trong đó x 1f … X nf là n số đo của f và m f là giá trị trung bình của f, nghĩa là $ \ mathrm {m_ {f} \:=\:\ frac {1} {n} (| x_ {1f} | + | x_ {2f} | + \ cdot \ cdot \ cdot + | x_ {nf} |)} $
Tính toán số đo được tiêu chuẩn hóa, hoặc điểm số z -
$$ \ mathrm {z_ {if} \:=\:\ frac {x_ {if} -m_ {f}} {s_ {f}}} $$
Độ lệch tuyệt đối trung bình, s f , có tác động mạnh đối với các giá trị ngoại lệ so với độ lệch chuẩn, $ \ mathrm {\ sigma_ {f}} $. Khi tính toán độ lệch tuyệt đối trung bình, độ lệch so với giá trị trung bình $ \ mathrm {(| x_ {1f} -m_ {f} |)} $ không được bình phương.
Do đó, ảnh hưởng của các yếu tố ngoại lai bị giảm đi. Có các biện pháp phân tán mạnh mẽ, bao gồm cả độ lệch tuyệt đối trung vị. Lợi ích của việc sử dụng độ lệch tuyệt đối trung bình là điểm số z của các giá trị ngoại lệ không quá nhỏ; do đó, các giá trị ngoại lai vẫn có thể phát hiện được.
Tiêu chuẩn hóa có thể hữu ích hoặc không trong một ứng dụng cụ thể. Do đó, việc lựa chọn có hay không và làm thế nào để thực hiện tiêu chuẩn hóa phải được để cho người dùng. Sau khi chuẩn hóa hoặc không chuẩn hóa trong các ứng dụng cụ thể, sự không giống nhau (hoặc sự giống nhau) giữa các đối tượng được xác định bởi các biến tỷ lệ theo khoảng thường được tính dựa trên khoảng cách giữa mỗi nhóm đối tượng.
Thước đo khoảng cách nổi tiếng là khoảng cách Euclide, được biểu thị bằng
$$ \ mathrm {d (i, j) =\ sqrt {(X_ {i1} -X_ {j1}}) ^ 2 + {(X_ {i2} -X_ {j2}}) ^ 2 + ... + {(X_ {in} -X_ {jn}}) ^ 2} $$
nơi tôi =(x i1 , x i2 ,… X trong ) và j =(x j1 , x j2 ,… X jn ) là hai đối tượng dữ liệu n chiều. Một số liệu nổi tiếng khác là khoảng cách Manhattan (hoặc khối thành phố), được mô tả là
$$ \ mathrm {d (i, j) =| X_ {i1} -X_ {j1} | + | (X_ {i2} -X_ {j2} | + ... + | (X_ {in} -X_ { jn} |} $$
Cả khoảng cách Euclide và khoảng cách Manhattan đều thỏa mãn các yêu cầu số sau của hàm khoảng cách -
-
d (i, j) ≥ 0:Khoảng cách là một số không âm.
-
d (i, i) =0:Khoảng cách của một đối tượng đến chính nó là 0.
-
d (i, j) =d (j, i):Khoảng cách là một hàm đối xứng.
-
d (i, j) ≤ d (i, h) + d (h, j):Việc đi trực tiếp từ đối tượng i đến đối tượng j trong không gian không hơn là đi đường vòng qua bất kỳ đối tượng h nào khác (bất đẳng thức tam giác).