Kho dữ liệu là một cách tiếp cận có thể thu thập và xử lý dữ liệu từ một số nguồn để cung cấp cho doanh nghiệp cái nhìn sâu sắc về kinh doanh có ý nghĩa. Kho dữ liệu được thiết kế đặc biệt để hỗ trợ các quyết định quản lý.
Nói một cách dễ hiểu, kho dữ liệu xác định cơ sở dữ liệu được duy trì độc lập với cơ sở dữ liệu hoạt động của tổ chức. Hệ thống kho dữ liệu cho phép tích hợp nhiều hệ thống ứng dụng. Chúng cung cấp khả năng xử lý dữ liệu bằng cách cung cấp một nền tảng vững chắc gồm thông tin lịch sử, hợp nhất để phân tích.
Kho dữ liệu tổng quát hóa và tập trung dữ liệu trong không gian đa chiều. Việc xây dựng kho dữ liệu bao gồm làm sạch dữ liệu, tích hợp dữ liệu và chuyển đổi dữ liệu và có thể được xem như một bước tiền xử lý quan trọng để khai thác dữ liệu.
Nó cung cấp các công cụ xử lý phân tích trực tuyến (OLAP) để phân tích tương tác dữ liệu đa chiều với các mức độ chi tiết khác nhau, tạo điều kiện cho việc khai thác dữ liệu và tổng quát hóa dữ liệu hiệu quả. Có một số chức năng khai thác dữ liệu, bao gồm liên kết, phân loại, dự đoán và phân cụm có thể được tích hợp với các hoạt động OLAP để xây dựng hoạt động khai thác kiến thức tương tác ở các cấp độ trừu tượng khác nhau.
OLAP là một thuật ngữ rộng cũng bao quanh việc lưu trữ dữ liệu. Trong mô hình này, dữ liệu được lưu ở định dạng cho phép tạo ra hiệu quả các tài liệu / khai thác dữ liệu. Thiết kế OLAP phải phù hợp với việc lập tài liệu trên các tập bản ghi lớn với sự suy giảm nhỏ về hiệu quả hoạt động.
Thuật ngữ đầy đủ có thể xác định việc lấy cấu trúc dữ liệu trong cấu trúc OLTP và ảnh hưởng đến cùng dữ liệu trong cấu trúc OLAP là "Mô hình thứ nguyên" Đây là khối xây dựng cơ bản của Kho dữ liệu.
Việc điều chỉnh kho dữ liệu có thể được thực hiện để cải thiện hiệu suất. Kho dữ liệu là điểm vào hệ thống, và nó cung cấp cơ hội đầu tiên để cải thiện hiệu suất. Nếu việc kiểm tra được thực hiện trên hệ thống kho dữ liệu, trước hoặc sau khi dữ liệu được tải, thì nó sẽ ảnh hưởng trực tiếp đến dung lượng và hiệu suất của hệ thống.
Ví dụ:nếu dữ liệu là các bản ghi cuộc gọi điện thoại, có thể kiểm tra xem mỗi cuộc gọi có một mã định danh khách hàng hợp lệ hay không. Nếu dữ liệu là thông tin bán hàng thì có thể kiểm tra xem hàng hóa đang được bán có số nhận dạng sản phẩm hợp lệ hay không.
Việc tải một lượng lớn dữ liệu hoặc thực hiện một thao tác I / O nặng nề, có thể tốn nhiều CPU khi có rất nhiều kiểm tra và biến đổi được áp dụng cho mỗi bản ghi. Tốc độ tải có thể được cải thiện bằng cách sử dụng các kỹ thuật tải trực tiếp. Nó cũng có thể được cải thiện bằng cách sử dụng song song.
Các bước sau cung cấp phương pháp tốt nhất để điều chỉnh kho dữ liệu -
- Điều chỉnh các quy tắc kinh doanh.
- Điều chỉnh thiết kế dữ liệu.
- Điều chỉnh thiết kế ứng dụng.
- Điều chỉnh cấu trúc logic của cơ sở dữ liệu.
- Điều chỉnh các hoạt động của cơ sở dữ liệu.
- Điều chỉnh các đường dẫn truy cập.
- Điều chỉnh I / O và cấu trúc vật lý.
- Điều chỉnh tranh chấp về tài nguyên.
- Điều chỉnh mẫu cơ bản.