Kho dữ liệu là một kỹ thuật chủ yếu được sử dụng để thu thập và quản lý dữ liệu từ nhiều nguồn khác nhau để cung cấp cho doanh nghiệp một cái nhìn sâu sắc về kinh doanh có ý nghĩa. Kho dữ liệu được thiết kế đặc biệt để hỗ trợ các quyết định quản lý.
Nói một cách dễ hiểu, kho dữ liệu đề cập đến một cơ sở dữ liệu được duy trì tách biệt với các cơ sở dữ liệu hoạt động của một tổ chức. Hệ thống kho dữ liệu cho phép tích hợp một số hệ thống ứng dụng. Chúng cung cấp khả năng xử lý dữ liệu bằng cách hỗ trợ một nền tảng vững chắc gồm thông tin lịch sử, hợp nhất để phân tích.
Các truy vấn của Kho dữ liệu rất phức tạp vì chúng chứa đựng sự tính toán của các nhóm thông tin khổng lồ ở các cấp tóm tắt. Nó có thể yêu cầu sử dụng kỹ thuật tổ chức, truy cập và triển khai dữ liệu riêng biệt tùy thuộc vào các quan điểm đa chiều.
Một lý do chính cho sự tách biệt như vậy là để giúp thúc đẩy hiệu suất cao của cả hai hệ thống. Cơ sở dữ liệu hoạt động được tạo và điều chỉnh từ các hàm và khối lượng công việc đã biết, bao gồm lập chỉ mục và băm bằng các khóa chính, tìm kiếm các bản ghi cụ thể và tối ưu hóa các truy vấn "soạn sẵn".
Mặt khác, các truy vấn kho dữ liệu thường phức tạp. Chúng bao gồm việc tính toán các nhóm thông tin khổng lồ ở các mức tóm tắt và có thể yêu cầu sử dụng các phương pháp tổ chức, truy cập và triển khai dữ liệu cụ thể phụ thuộc vào các quan điểm đa chiều. Việc xử lý các truy vấn OLAP trong cơ sở dữ liệu hoạt động sẽ làm giảm đáng kể hiệu suất của các tác vụ hoạt động.
Hơn nữa, một cơ sở dữ liệu hoạt động cung cấp việc xử lý đồng thời nhiều giao dịch. Cần có các cơ chế kiểm soát và khôi phục đồng thời, bao gồm khóa và ghi nhật ký để cung cấp tính nhất quán và mạnh mẽ của các giao dịch. Truy vấn OLAP thường yêu cầu quyền truy cập chỉ đọc vào các bản ghi dữ liệu để tóm tắt và tổng hợp.
Các cơ chế kiểm soát và khôi phục đồng thời, nếu được áp dụng cho các hoạt động OLAP như vậy, có thể gây nguy hiểm cho việc thực hiện các giao dịch đồng thời và do đó làm giảm đáng kể thông lượng của hệ thống OLTP.
Cuối cùng, sự tách biệt của cơ sở dữ liệu hoạt động từ các kho dữ liệu được đặt trên nhiều cấu trúc, nội dung và cách sử dụng thông tin trong hai hệ thống này. Hỗ trợ quyết định thông tin lịch sử cần thiết, trong khi cơ sở dữ liệu hoạt động thường không duy trì thông tin lịch sử.
Hỗ trợ quyết định đòi hỏi sự hợp nhất bao gồm tổng hợp và tóm tắt thông tin từ các nguồn không đồng nhất, dẫn đến chất lượng cao, thông tin sạch và tích hợp. Ngược lại, cơ sở dữ liệu hoạt động chỉ bao gồm dữ liệu thô chi tiết, bao gồm cả các giao dịch, được yêu cầu hợp nhất trước khi phân tích.
Bởi vì hai hệ thống cung cấp các chức năng khá khác nhau và yêu cầu các loại dữ liệu khác nhau, nên hiện nay cần duy trì các cơ sở dữ liệu riêng biệt. Tuy nhiên, có nhiều nhà cung cấp hệ thống quản lý cơ sở dữ liệu quan hệ hoạt động đang bắt đầu tối ưu hóa các hệ thống này để hỗ trợ các truy vấn OLAP. Khi xu hướng này tiếp tục, sự tách biệt giữa các hệ thống OLTP và OLAP dự kiến sẽ giảm xuống.