Computer >> Máy Tính >  >> Lập trình >> Lập trình

Data Staging là gì?

Trong quá trình lưu trữ dữ liệu, khu vực tổ chức dữ liệu được thu thập của phần mềm máy chủ tổ chức dữ liệu và kho lưu trữ dữ liệu (kho) kết quả của hoạt động trích xuất, chuyển đổi và tải.

Máy chủ phần mềm tổ chức dữ liệu tạm thời lưu và thay đổi dữ liệu được trích xuất từ ​​nguồn dữ liệu OLTP và kho lưu trữ lưu trữ dữ liệu và thuộc tính đã được làm sạch, chuyển đổi để tải vào các kho dữ liệu và kho dữ liệu.

Quá trình dàn dựng dữ liệu nhập thông tin dưới dạng luồng hoặc tệp, thay đổi thông tin, tạo dữ liệu tích hợp, được làm sạch và phân đoạn để tải vào kho dữ liệu, kho dữ liệu hoặc Kho dữ liệu hoạt động.

Công cụ phân chia dữ liệu có thể truy cập được và dữ liệu nằm trong cơ sở dữ liệu. Luồng dữ liệu bắt đầu để nó xuất hiện ngoài hệ thống nguồn, thay đổi thông qua công cụ chuyển đổi và chuyển thành cơ sở dữ liệu giai đoạn.

Trong phương pháp thứ hai, nó có thể bắt đầu với hệ thống kế thừa của máy tính lớn và sau đó trích xuất các bản ghi đang tìm kiếm thành một tệp phẳng, thay đổi tệp thành máy chủ dàn, chuyển đổi nội dung của nó và tải thông tin đã chuyển đổi vào cơ sở dữ liệu dàn.

Khu vực tổ chức kho dữ liệu là khu vực tạm thời nơi dữ liệu từ các hệ thống nguồn được tái tạo. Nói chung cần có một khu vực tổ chức trong Kiến trúc Kho dữ liệu vì lý do thời gian. Tóm lại, tất cả thông tin bắt buộc phải có sẵn trước khi dữ liệu có thể được thống nhất vào Kho dữ liệu.

Do các chu kỳ kinh doanh, chu kỳ xử lý dữ liệu, phần cứng và giới hạn tài nguyên mạng cũng như các yếu tố địa lý khác nhau, không thể áp dụng để trích xuất chính xác tất cả thông tin từ tất cả các cơ sở dữ liệu Hoạt động cùng một lúc.

Ví dụ - Việc trích xuất dữ liệu bán hàng hàng ngày có thể là hợp lý, nhưng việc trích xuất hàng ngày không thể phù hợp với thông tin tài chính cần thủ tục đối chiếu cuối tháng. Tương tự, nó có thể phù hợp để trích xuất dữ liệu “khách hàng” từ cơ sở dữ liệu ở Singapore vào buổi trưa theo giờ chuẩn miền đông, nhưng điều này không thể phù hợp với dữ liệu “khách hàng” trong cơ sở dữ liệu Chicago.

Dữ liệu trong Kho dữ liệu có thể tồn tại lâu dài (tức là tồn tại trong một thời gian dài) hoặc tạm thời (tức là chỉ tồn tại tạm thời). Không phải tất cả các doanh nghiệp đều cần một khu vực tổ chức kho dữ liệu. Đối với nhiều doanh nghiệp, việc sử dụng ETL để sao chép dữ liệu trực tiếp từ cơ sở dữ liệu hoạt động vào Kho dữ liệu là phù hợp.

Ưu điểm và nhược điểm của phân chia dữ liệu

Ưu điểm

  • Quá trình dàn dựng được kiểm soát song song với quá trình chuyển đổi.

  • I / O của đĩa bị giảm một nửa vì bảng dàn chỉ được ghi vào, chống lại được ghi vào và sau đó được trích xuất từ ​​lại.

Nhược điểm

  • Nếu quá trình chuyển đổi suy giảm, thì quá trình tổ chức cũng sẽ dừng lại.