Trong chuyển đổi dữ liệu, dữ liệu được chuyển đổi hoặc kết hợp thành các dạng phù hợp để khai thác. Việc chuyển đổi dữ liệu có thể liên quan đến những điều sau -
Làm mịn - Nó có thể hoạt động để loại bỏ nhiễu khỏi dữ liệu. Các phương thức như vậy chứa binning, regression và clustering.
Tổng hợp - Trong tổng hợp, nơi mà các phép toán tổng hợp hoặc tổng hợp được áp dụng cho dữ liệu. Ví dụ:dữ liệu bán hàng hàng ngày có thể được tổng hợp để tính tổng số tiền hàng tháng và hàng năm. Giai đoạn này thường được sử dụng để tạo khối dữ liệu để phân tích dữ liệu ở nhiều mức độ chi tiết.
Tổng quát hóa - Trong Tổng quát hóa, nơi dữ liệu cấp thấp hoặc “nguyên thủy” (thô) được khôi phục bởi các khái niệm cấp lớn hơn thông qua việc sử dụng phân cấp khái niệm. Ví dụ:các thuộc tính phân loại, chẳng hạn như đường phố, có thể được khái quát hóa thành các khái niệm cấp lớn hơn, chẳng hạn như thành phố hoặc quốc gia. Tương tự, các giá trị cho các thuộc tính số, chẳng hạn như tuổi, có thể được ánh xạ tới các khái niệm cấp cao hơn, như thanh niên, trung niên và cao niên.
Chuẩn hóa - Trong chuẩn hóa, khi dữ liệu thuộc tính được chia tỷ lệ để nằm trong một phạm vi xác định nhỏ, chẳng hạn như −1,0 đến 1,0 hoặc 0,0 đến 1,0.
Cấu trúc thuộc tính - Trong xây dựng thuộc tính, nơi các thuộc tính mới được phát triển và thêm vào từ tập hợp các thuộc tính đã cho để tạo thuận lợi cho quá trình khai thác.
Làm mịn là một hình thức làm sạch dữ liệu và đã được giải quyết trong quá trình làm sạch dữ liệu, nơi người dùng chỉ định các phép biến đổi để sửa các điểm không nhất quán của dữ liệu. Tổng hợp và tổng quát hóa cung cấp như các hình thức giảm dữ liệu. Một thuộc tính được chuẩn hóa bằng cách điều chỉnh tỷ lệ các giá trị của nó để chúng giảm trong một thứ tự cụ thể nhỏ, bao gồm từ 0,0 đến 1,0.
Chuẩn hóa đặc biệt hữu ích cho các thuật toán phân loại có chứa mạng nơ-ron, hoặc các phép đo khoảng cách như phân loại láng giềng gần nhất và phân nhóm. Nếu sử dụng thuật toán lan truyền ngược mạng nơ-ron để khai thác phân loại, việc chuẩn hóa các giá trị đầu vào cho từng thuộc tính được đo trong các bộ đào tạo sẽ giúp tăng tốc giai đoạn học tập.
Đối với các phương pháp dựa trên khoảng cách, chuẩn hóa giúp ngăn các thuộc tính có phạm vi lớn ban đầu (ví dụ:thu nhập) khỏi các thuộc tính lớn hơn các thuộc tính có phạm vi nhỏ hơn ban đầu (ví dụ:thuộc tính nhị phân). Có nhiều phương pháp để chuẩn hóa dữ liệu như sau -
Chuẩn hóa tối đa - Nó thực hiện một phép biến đổi tuyến tính trên dữ liệu ban đầu. Giả sử rằng min A và tối đa A là các giá trị tối thiểu và tối đa của một thuộc tính, A. Chuẩn hóa tối đa ánh xạ một giá trị, v, của A thành v ’ trong phạm vi [new_min A , new_max A ] bằng máy tính
$$ v '=\ frac {v-min_ {A}} {max_ {A} -min_ {A}} (new \ _max_ {A} - new \ _min_ {A}) + new \ _min_ {A} $$
Chuẩn hóa điểm Z - Trong chuẩn hóa điểm số z (hoặc chuẩn hóa trung bình bằng 0), các giá trị cho một thuộc tính, A, được chuẩn hóa dựa trên giá trị trung bình và độ lệch chuẩn của A. Giá trị v của A được chuẩn hóa thành v ' bằng máy tính
$$ v '=\ frac {v-A ^ {'}} {\ sigma_ {A}} $$
trong đó A và σ A lần lượt là giá trị trung bình và độ lệch chuẩn của thuộc tính A. Phương pháp chuẩn hóa này hữu ích khi giá trị tối thiểu và tối đa thực tế của thuộc tính A là không xác định hoặc khi có các giá trị ngoại lệ chi phối quá trình chuẩn hóa tối thiểu.
Tỷ lệ thập phân - Chuẩn hóa bằng cách chia tỷ lệ thập phân chuẩn hóa bằng cách thay đổi dấu thập phân của các giá trị thuộc tính A. Số điểm thập phân được di chuyển dựa trên giá trị tuyệt đối lớn nhất của A. Giá trị v của A được chuẩn hóa thành v ′ bằng máy tính
$$ v '=\ frac {v} {10 ^ {j}} $$
Trong đó j là số nguyên nhỏ nhất sao cho Max (| v ′ |) <1.