Kho dữ liệu là một kỹ thuật chủ yếu được sử dụng để thu thập và quản lý dữ liệu từ nhiều nguồn khác nhau để cung cấp cho doanh nghiệp một cái nhìn sâu sắc về kinh doanh có ý nghĩa. Kho dữ liệu được thiết kế đặc biệt để hỗ trợ các quyết định quản lý.
Nói một cách dễ hiểu, kho dữ liệu đề cập đến một cơ sở dữ liệu được duy trì tách biệt với các cơ sở dữ liệu hoạt động của một tổ chức. Hệ thống kho dữ liệu cho phép tích hợp nhiều hệ thống ứng dụng. Chúng cung cấp khả năng xử lý dữ liệu bằng cách hỗ trợ một nền tảng vững chắc gồm thông tin lịch sử, hợp nhất để phân tích.
Kho dữ liệu tổng quát hóa và hợp nhất thông tin trong khu vực đa chiều. Việc xây dựng kho dữ liệu bao gồm làm sạch dữ liệu, tích hợp dữ liệu, chuyển đổi dữ liệu và có thể được coi là bước tiền xử lý thiết yếu để khai thác dữ liệu. Các công cụ và tiện ích này liên quan đến các chức năng sau -
Trích xuất dữ liệu
Làm sạch dữ liệu - Làm sạch dữ liệu có nghĩa là làm sạch dữ liệu bằng cách điền vào các giá trị còn thiếu, làm mịn dữ liệu bị nhiễu, xác định và loại bỏ các ngoại lệ cũng như loại bỏ các điểm không nhất quán trong dữ liệu.
Các loại làm sạch dữ liệu
-
Giá trị bị thiếu - Các giá trị còn thiếu được điền bằng các giá trị thích hợp. Sau đây là các cách tiếp cận để điền các giá trị.
-
Dữ liệu nhiễu - Nhiễu là một sai số ngẫu nhiên hoặc phương sai trong một biến đo được. Sau đây là các kỹ thuật làm mịn để xử lý nhiễu như sau -
-
Thùng rác - Các kỹ thuật này làm mịn một giá trị dữ liệu đã được sắp xếp bằng cách đưa ra thông báo về “vùng lân cận” của nó, cụ thể là các giá trị về dữ liệu nhiễu. Các giá trị đã sắp xếp được gán vào nhiều nhóm hoặc thùng. Bởi vì các phương thức binning tham khảo vùng lân cận của các giá trị, chúng thực hiện làm mịn cục bộ.
-
Hồi quy - Dữ liệu có thể được làm mịn bằng cách phù hợp các bản ghi với một hàm, bao gồm cả với hồi quy. Hồi quy tuyến tính liên quan đến việc tìm dòng "tốt nhất" để phù hợp với hai thuộc tính (hoặc biến) để một thuộc tính có thể được sử dụng để dự đoán thuộc tính kia. Hồi quy nhiều tuyến tính là phần tiếp theo của hồi quy tuyến tính, trong đó nhiều hơn hai thuộc tính được bao gồm và dữ liệu phù hợp với bề mặt đa chiều.
-
Phân nhóm - Phân cụm giúp xác định các ngoại lệ. Các giá trị tương tự được tổ chức thành các cụm và những giá trị nằm ngoài cụm được gọi là giá trị ngoại lai.
-
Chuyển đổi dữ liệu - Trong chuyển đổi dữ liệu, dữ liệu được chuyển đổi hoặc hợp nhất thành các dạng thích hợp để khai thác. Việc chuyển đổi dữ liệu có thể liên quan đến những điều sau -
-
Làm mịn - Nó có thể hoạt động để loại bỏ nhiễu khỏi dữ liệu. Các kỹ thuật này bao gồm phân loại, hồi quy và phân cụm.
-
Tổng hợp - Trong tổng hợp, nơi các phép toán tóm tắt hoặc tổng hợp được áp dụng cho dữ liệu.
-
Tổng quát hóa - Trong Tổng quát hóa, nơi dữ liệu cấp thấp hoặc “nguyên thủy” (thô) được khôi phục bằng các khái niệm cấp lớn hơn thông qua việc sử dụng phân cấp khái niệm.
Tải - Nó có thể sắp xếp, tóm tắt, hợp nhất, tính toán các chế độ xem, kiểm tra tính toàn vẹn và xây dựng các chỉ mục và phân vùng
Làm mới - Nó có thể truyền các bản cập nhật từ các nguồn dữ liệu đến kho dữ liệu.