Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các Quy trình của Kho Dữ liệu là gì?

Giai đoạn dữ liệu là một quá trình chính bao gồm các quá trình con sau đây như sau -

Đang giải nén - Bước trích xuất là giai đoạn đầu tiên của việc đưa thông tin vào môi trường kho dữ liệu. Việc trích xuất xác định việc đọc và học dữ liệu nguồn, đồng thời sao chép các phần tử được yêu cầu vào vùng tổ chức dữ liệu để thực hiện nhiều công việc hơn.

Chuyển đổi - Bởi vì dữ liệu được trích xuất vào vùng dữ liệu, có thể có một số quá trình chuyển đổi, như sau -

  • Nó có thể là làm sạch dữ liệu bằng cách sửa lỗi chính tả, giải quyết xung đột miền (bao gồm tên thành phố không phù hợp với mã bưu điện), xử lý các thành phần dữ liệu bị thiếu và xác định thành các định dạng chuẩn.

  • Nó có thể được sử dụng để xóa các trường đã chọn khỏi các bản ghi kế thừa không có lợi cho kho dữ liệu.

  • Nó có thể là kết hợp các nguồn dữ liệu, bằng cách tương ứng chính xác trên các giá trị khóa hoặc bằng cách triển khai các đối sánh mờ trên các thuộc tính không phải khóa, chẳng hạn như tìm kiếm văn bản giống nhau của mã hệ thống kế thừa

  • Nó có thể được tạo khóa thay thế cho từng dữ liệu thứ nguyên để tránh phụ thuộc vào các khóa được xác định cũ, trong đó quá trình tạo khóa thay thế thực hiện tính toàn vẹn tham chiếu giữa bảng thứ nguyên và bảng dữ kiện.

  • Nó có thể được sử dụng để xây dựng các tập hợp nhằm thúc đẩy hành động của các truy vấn phổ biến.

Đang tải và lập chỉ mục - Cuối giai đoạn biến đổi, dữ liệu nằm trong thiết kế ảnh dữ liệu tải. Việc tải trong môi trường kho dữ liệu thường ở dạng phản ánh các bảng kích thước và bảng dữ liệu và đưa các bảng này vào các phương tiện tải kích thước của mỗi kho dữ liệu người nhận.

Kiểm tra đảm bảo chất lượng - Khi mỗi data mart đã được tải và lập chỉ mục và cung cấp các tổng hợp phù hợp, bước cuối cùng trước khi quảng cáo là bước đảm bảo chất lượng. Đảm bảo chất lượng có thể được kiểm tra bằng cách vận hành một tài liệu ngoại lệ toàn diện trên toàn bộ tập dữ liệu mới được tải.

Tất cả các yếu tố báo cáo phải có mặt và tất cả các số lượng và tổng số phải đầy đủ. Tất cả các giá trị được báo cáo phải đáng tin cậy với trình tự thời gian của cùng các giá trị dự đoán chúng. Tài liệu ngoại lệ được tạo bằng phương tiện viết tài liệu cho người dùng cuối của data mart.

Phát hành / Xuất bản - Khi mỗi kho dữ liệu hiện đã được tải và đảm bảo chất lượng, cộng đồng người dùng sẽ được thông báo rằng bản ghi mới đã sẵn sàng. Việc xuất bản cũng kết nối bản chất của bất kỳ thay đổi nào đã xuất hiện trong các chiều cơ bản và các giả định mới đã được đưa vào các dữ kiện được đo lường hoặc tính toán.

Truy vấn - Truy vấn là một thuật ngữ rộng bao gồm tất cả các hoạt động yêu cầu thông tin từ trung tâm dữ liệu, chẳng hạn như truy vấn đột xuất bởi người dùng cuối, viết tài liệu, ứng dụng hỗ trợ quyết định phức tạp, yêu cầu từ mô hình và khai thác dữ liệu phức tạp.