Tích hợp dữ liệu là quy trình hợp nhất dữ liệu từ một số nguồn khác nhau. Trong khi thực hiện tích hợp dữ liệu, nó phải giải quyết vấn đề dư thừa dữ liệu, không nhất quán, trùng lặp, v.v. Trong khai thác dữ liệu, tích hợp dữ liệu là một phương pháp xử lý trước bản ghi bao gồm hợp nhất dữ liệu từ một vài nguồn dữ liệu không đồng nhất thành dữ liệu nhất quán để giữ lại và cung cấp một thống nhất quan điểm của dữ liệu.
Tích hợp dữ liệu đặc biệt quan trọng trong ngành chăm sóc sức khỏe. Dữ liệu tích hợp từ một số hồ sơ bệnh nhân và phòng khám hỗ trợ bác sĩ lâm sàng xác định các bệnh và rối loạn y tế bằng cách tích hợp thông tin từ một số hệ thống vào một góc nhìn thông tin hữu ích duy nhất mà từ đó có thể thu được những hiểu biết hữu ích.
Việc thu thập và tích hợp dữ liệu hiệu quả cũng cải thiện độ chính xác của quá trình xử lý yêu cầu bảo hiểm y tế và đảm bảo rằng tên bệnh nhân và thông tin liên hệ được ghi lại một cách nhất quán và chính xác. Khả năng tương tác đề cập đến việc chia sẻ thông tin trên các hệ thống khác nhau.
Khi chúng ta có dữ liệu ở dạng khác với nhu cầu, thì các phương pháp tổng hợp có thể được áp dụng cho các thuộc tính để có được các thuộc tính mong muốn. Ví dụ:một cửa hàng có dữ liệu bao gồm doanh số bán hàng quý trong năm 2010 đến năm 2012. Dữ liệu có sẵn ở dạng hàng quý nhưng cần phải truy xuất doanh số hàng năm của cửa hàng. Vì vậy, cần phải tổng hợp dữ liệu để tìm ra kết quả mong muốn.
Quý | Bán hàng | Quý | Bán hàng | Quý | Bán hàng | Năm | Bán hàng |
---|---|---|---|---|---|---|---|
Năm 2010 | Năm 2011 | Năm 2012 | Doanh số bán hàng trong năm | ||||
Q1 | Rs.10000 | Q1 | .8000 Rs | Q1 | 15000 Rs | 2010 | 1,30,000 Rs |
Quý 2 | 50000 Rs | Quý 2 | 15000 Rs | Quý 2 | Rs.20000 | 2011 | 53000 Rs |
Quý 3 | 40000 Rs | Quý 3 | Rs.10000 | Quý 3 | 40000 Rs | 2012 | 1,05,000 Rs |
Q4 | .30000 Rs | Q4 | Rs.20000 | Q4 | .30000 Rs |
Doanh số bán hàng mỗi quý từ năm 2010 đến năm 2012 được tổng hợp thành một hồ sơ bán hàng hàng năm.
Phân cấp khái niệm có thể tồn tại cho mỗi thuộc tính, cho phép phân tích dữ liệu ở nhiều cấp độ trừu tượng. Ví dụ, một hệ thống phân cấp cho một chi nhánh có thể cho phép các chi nhánh được nhóm thành các vùng, dựa trên địa chỉ của chúng. Các khối dữ liệu hỗ trợ truy cập nhanh vào dữ liệu tóm tắt, được tính toán trước, do đó mang lại lợi ích cho việc xử lý phân tích trực tuyến và khai thác dữ liệu.
Hình khối được tạo ra ở mức trừu tượng thấp nhất được định nghĩa là hình khối cơ sở. Hình khối cơ sở phải tương ứng với một thực thể được quan tâm, bao gồm cả doanh số bán hàng hoặc khách hàng. Nói cách khác, mức thấp nhất phải có thể sử dụng được hoặc hữu ích cho việc phân tích. Hình lập phương ở mức trừu tượng cao nhất là hình lập phương đỉnh.
Các khối dữ liệu được tạo cho một số cấp độ trừu tượng được định nghĩa là hình khối để thay vào đó, một khối dữ liệu có thể xác định một mạng hình khối. Mỗi mức trừu tượng lớn hơn sẽ làm giảm kích thước dữ liệu kết quả hơn nữa. Khi trả lời các yêu cầu khai thác dữ liệu, nên sử dụng khối lập phương nhỏ nhất có liên quan đến nhiệm vụ đã cho.