Computer >> Máy Tính >  >> Lập trình >> Lập trình

Kho dữ liệu là gì?

Kho dữ liệu là một kỹ thuật chủ yếu được sử dụng để thu thập và quản lý dữ liệu từ nhiều nguồn khác nhau để cung cấp cho doanh nghiệp một cái nhìn sâu sắc về kinh doanh có ý nghĩa. Kho dữ liệu được thiết kế đặc biệt để hỗ trợ các quyết định quản lý.

Nói một cách dễ hiểu, kho dữ liệu xác định cơ sở dữ liệu được duy trì độc lập với cơ sở dữ liệu hoạt động của tổ chức. Hệ thống kho dữ liệu cho phép tích hợp nhiều hệ thống ứng dụng. Chúng cung cấp khả năng xử lý dữ liệu bằng cách cung cấp một nền tảng vững chắc gồm thông tin lịch sử, hợp nhất để phân tích.

Kho dữ liệu tổng quát hóa và tập trung dữ liệu trong không gian đa chiều. Việc xây dựng kho dữ liệu bao gồm làm sạch dữ liệu, tích hợp dữ liệu và chuyển đổi dữ liệu và có thể được xem như một bước tiền xử lý quan trọng để khai thác dữ liệu.

Nó cung cấp các công cụ xử lý phân tích trực tuyến (OLAP) để phân tích tương tác dữ liệu đa chiều với các mức độ chi tiết khác nhau, tạo điều kiện cho việc khai thác dữ liệu và tổng quát hóa dữ liệu hiệu quả. Có một số chức năng khai thác dữ liệu, bao gồm liên kết, phân loại, dự đoán và phân cụm có thể được tích hợp với các hoạt động OLAP để xây dựng hoạt động khai thác kiến ​​thức tương tác ở các cấp độ trừu tượng khác nhau.

Có ba loại Kho dữ liệu chính như sau -

Kho dữ liệu doanh nghiệp (EDW) - Kho Dữ liệu Doanh nghiệp là kho tập trung. Nó được sử dụng để tổ chức và đại diện cho dữ liệu. Với sự trợ giúp của EDW, người dùng có thể phân loại dữ liệu dựa trên chủ đề.

Lưu trữ dữ liệu hoạt động - Trong Kho Dữ liệu Hoạt động, Kho Dữ liệu được làm mới theo thời gian thực. Do đó, nó thường được sử dụng cho các hoạt động thường ngày bao gồm lưu trữ hồ sơ, v.v.

Data Mart - Một data mart có thể được định nghĩa là một tập con của kho dữ liệu. Nó được thiết kế cho bán hàng, tài chính, v.v.

Đặc điểm của Kho dữ liệu

Có nhiều đặc điểm khác nhau của kho dữ liệu như sau -

  • Hướng theo chủ đề - Kho dữ liệu nhắm mục tiêu mô hình hóa và phân tích thông tin cho những người ra quyết định. Do đó, kho dữ liệu thường cung cấp một cái nhìn đơn giản và ngắn gọn về các vấn đề cụ thể bằng cách loại trừ thông tin không có lợi trong quá trình hỗ trợ quyết định.

  • Tích hợp - Vì kho dữ liệu thường được xây dựng bằng cách tích hợp nhiều nguồn không đồng nhất, chẳng hạn như cơ sở dữ liệu quan hệ, tệp phẳng và hồ sơ giao dịch trực tuyến, nên các kỹ thuật làm sạch dữ liệu và tích hợp dữ liệu cần được sử dụng để cung cấp tính nhất quán trong quy ước đặt tên, cơ chế mã hóa, các biện pháp thuộc tính , v.v.

  • Biến thể thời gian - Dữ liệu được lưu để cung cấp dữ liệu từ góc độ lịch sử (ví dụ:5-10 năm qua). Mỗi cơ chế chính trong kho dữ liệu bao gồm, ngầm định hoặc rõ ràng, một yếu tố thời gian.

  • Không biến động - Kho dữ liệu luôn là nơi lưu trữ dữ liệu độc lập về mặt vật lý được biến đổi từ dữ liệu phần mềm được tìm thấy trong môi trường hoạt động. Do sự tách biệt này, một kho dữ liệu không cần cấu trúc xử lý giao dịch, khôi phục và kiểm soát đồng thời. Nó thường chỉ yêu cầu hai thao tác khi truy cập dữ liệu - tải dữ liệu ban đầu và truy cập dữ liệu.