Một phép biến đổi định nghĩa một phép biến đổi được sử dụng cho một số giá trị của một biến. Nói cách khác, đối với mọi đối tượng, cách mạng được sử dụng với giá trị của biến cho đối tượng đó. Ví dụ:nếu chỉ ý nghĩa của một biến là cần thiết, thì các giá trị của biến có thể được thay đổi bằng cách tạo giá trị tuyệt đối.
Có hai loại phép biến đổi:biến đổi chức năng đơn giản và biến đổi chuẩn hóa.
Chức năng đơn giản
Một hàm toán học đơn giản được sử dụng cho từng giá trị một cách độc lập. Nếu r là một biến, thì các ví dụ về các phép biến đổi đó bao gồm x k , logx, e x , $ \ sqrt {x} $, $ \ frac {1} {x} $, sinx hoặc | x |. Trong thống kê, các phép biến đổi biến, đặc biệt là sqrt, log và 1 / x, được áp dụng để biến đổi bản ghi không có phân phối Gaussian (chuẩn) thành thông tin có. Mặc dù điều này có thể là cần thiết, nhưng một số lý do có thể được ưu tiên trong quá trình khai thác dữ liệu.
Hãy xem xét biến quan tâm là một số byte dữ liệu trong một phiên và một số byte nằm trong khoảng từ 1 đến 1 tỷ. Đây là một phạm vi lớn và có thể có lợi nếu nén nó bằng cách sử dụng phép biến đổi log10. Trong trường hợp này, các phiên đã chuyển 10 8 và 10 9 các byte sẽ giống với nhau hơn các phiên chuyển 10 và 1000 byte (9 - 8 =1 so với 3 - 1 =2).
Các phép biến đổi phải được áp dụng một cách thận trọng vì chúng thay đổi bản chất của dữ liệu. Có thể có vấn đề nếu tính năng của chuyển đổi không được tôn trọng hoàn toàn. Ví dụ:phép biến đổi 1 / x làm giảm ý nghĩa của các giá trị 1 hoặc cao hơn nhưng làm tăng ý nghĩa của các giá trị từ 0 đến 1.
Chuẩn hóa hoặc Chuẩn hóa
Một dạng biến đổi phổ biến khác là tiêu chuẩn hóa hoặc chuẩn hóa một biến. Mục tiêu của tiêu chuẩn hóa hoặc bình thường hóa là tạo ra toàn bộ nhóm giá trị có một thuộc tính cụ thể. Một ví dụ phổ biến là "chuẩn hóa một biến" trong thống kê. Nếu x ’ là giá trị trung bình (trung bình) của các giá trị thuộc tính và s x , là độ lệch chuẩn của chúng, sau đó là phép biến đổi x ’ =(x –x ’ ) / s x ) tạo một biến mới có giá trị trung bình là 0 và độ lệch chuẩn là 1.
Nếu các biến khác nhau được kết hợp theo một cách nào đó, thì việc chuyển đổi như vậy thường là cần thiết để tránh việc một biến có giá trị lớn chi phối kết quả của phép tính.
Giá trị trung bình và độ lệch chuẩn bị ảnh hưởng mạnh bởi các giá trị ngoại lai, do đó, phép biến đổi trên thường được sửa đổi. Đầu tiên, giá trị trung bình được thay thế bằng giá trị trung bình, tức là giá trị trung bình. Thứ hai, độ lệch chuẩn được thay thế bằng độ lệch chuẩn tuyệt đối. Cụ thể, nếu r là một biến, thì độ lệch chuẩn tuyệt đối của r được cho bởi $ \ mathrm {\ sigma_ {A} =\ displaystyle \ sum \ limit_ {i =1} ^ m | X_ {i} - \ mu | } $ trong đó x i là tôi thứ giá trị của biến, m là số đối tượng và μ là giá trị trung bình hoặc giá trị trung bình.