Trong quá trình chuyển đổi dữ liệu, dữ liệu được chuyển đổi hoặc liên kết thành các dạng có thể áp dụng cho việc khai thác. Chuyển đổi dữ liệu có thể chứa những điều sau -
-
Làm mịn - Nó có thể hoạt động để loại bỏ nhiễu khỏi dữ liệu. Các kỹ thuật này bao gồm phân loại, hồi quy và phân cụm.
-
Tổng hợp - Trong tổng hợp, nơi các phép toán tổng hợp hoặc tóm tắt được áp dụng cho dữ liệu.
-
Tổng quát hóa - Trong Tổng quát hóa, nơi dữ liệu cấp thấp hoặc “nguyên thủy” (thô) được khôi phục bởi các khái niệm cấp lớn hơn thông qua nhu cầu phân cấp khái niệm.
Có nhiều dịch vụ chuyển đổi dữ liệu khác nhau như sau -
Tích hợp - Tích hợp bao gồm tạo khóa thay thế, ánh xạ khóa từ lược đồ này sang lược đồ khác và ánh xạ chương trình thành các mô tả hoàn chỉnh. Có một cơ quan ngầm định hỗ trợ bảng tra cứu khóa chính đằng sau sự chuyển đổi này.
Bảo trì thứ nguyên thay đổi từ từ - Có thể xác định các giá trị đã thay đổi và tạo các khóa thay thế là một quá trình phức tạp, nhưng nó không phải là toán học làm cong không gian. Nếu bạn mua một công cụ phân chia dữ liệu, nó phải được tích hợp sẵn các thuật toán để quản lý các thứ nguyên thay đổi chậm.
Chuẩn hóa và chuẩn hóa lại - Bất chuẩn hóa một hệ thống phân cấp của các bảng riêng biệt thành một thứ nguyên là một quá trình chuyển đổi kho tiêu chuẩn. Một số công cụ phân tích dữ liệu cung cấp tính năng giản đồ hình sao tự động thực hiện chức năng này. Hơn nữa, một số quá trình không chuẩn hóa diễn ra trong giai đoạn bảng dữ kiện.
Ví dụ:một giản đồ tài chính có thể có thứ nguyên là loại số tiền, với các giá trị Thực tế, Ngân sách hoặc Dự báo. Tùy thuộc vào mức độ chi tiết mà các bản ghi này chứa đựng, có thể rất hợp lý khi xoay cột này thành một hàng duy nhất với ba cột số tiền, mỗi cột cho mỗi loại số tiền.
Làm sạch, khử trùng, hợp nhất / thanh lọc - Đây là một vấn đề lớn đối với nhiều kho dữ liệu, đặc biệt là những kho dữ liệu liên quan đến các thực thể bên ngoài như khách hàng, doanh nghiệp, bác sĩ và bệnh nhân. Đây là một quá trình phức tạp, nhưng một số nhà cung cấp cung cấp các công cụ và dịch vụ dành riêng cho vấn đề này.
Chuyển đổi loại dữ liệu - Điều này liên quan đến các phép biến đổi cấp thấp hơn chuyển đổi một kiểu dữ liệu hoặc định dạng sang một kiểu dữ liệu hoặc định dạng khác. Điều này bao gồm việc chuyển đổi bộ ký tự máy tính lớn của IBM EBCDIC thành ASCII, đến việc chuyển đổi các biểu diễn ngày, số và ký tự từ cơ sở dữ liệu này sang cơ sở dữ liệu khác.
Tính toán, lấy, phân bổ - Đây là những chuyển đổi để sử dụng các quy tắc kinh doanh mà nó được thừa nhận trong giai đoạn yêu cầu. Đảm bảo rằng công cụ mà nó có thể chọn có sẵn một bộ chức năng hoàn chỉnh, bao gồm thao tác chuỗi, số học ngày và giờ, câu lệnh điều kiện và toán học cơ bản.
Tổng hợp - Việc tổng hợp có thể được quản lý trong một số yếu tố của quá trình tải, dựa trên tài nguyên nào có thể truy cập được ở giai đoạn nào. Nếu nó có thể tính toán tổng hợp như một phần tử của quá trình trích xuất hoặc chuyển đổi, thì có thể sử dụng các công cụ như Syncsort trực tiếp vào các bản ghi phẳng. Các tiện ích này được phát triển để phân loại và báo cáo và hoàn toàn tốt.