Computer >> Máy Tính >  >> Lập trình >> Lập trình

Tích hợp dữ liệu là gì?

Tích hợp dữ liệu là giai đoạn kết hợp dữ liệu từ nhiều nguồn khác nhau. Trong khi triển khai tích hợp dữ liệu, nó phải giải quyết vấn đề dư thừa dữ liệu, không nhất quán, trùng lặp, v.v. Trong khai thác dữ liệu, tích hợp dữ liệu là một kỹ thuật xử lý trước dữ liệu có chứa dữ liệu hợp nhất từ ​​nhiều nguồn dữ liệu không đồng nhất thành dữ liệu nhất quán để giữ lại và hỗ trợ quan điểm hợp nhất của thông tin.

Nó kết hợp dữ liệu từ nhiều nguồn khác nhau thành một kho dữ liệu nhất quán, bao gồm cả trong kho dữ liệu. Các nguồn này có thể liên quan đến nhiều cơ sở dữ liệu, khối dữ liệu hoặc tệp phẳng, v.v. Có nhiều vấn đề cần xem xét trong quá trình tích hợp dữ liệu.

  • Tích hợp lược đồ và đối sánh đối tượng có thể phức tạp. Ví dụ:khớp với nhận dạng thực thể (emp_id trong một cơ sở dữ liệu và emp_no trong cơ sở dữ liệu khác), các vấn đề như vậy có thể được ngăn chặn bằng cách sử dụng siêu dữ liệu.

  • Dự phòng là một vấn đề khác. Ví dụ:một thuộc tính bao gồm doanh thu hàng năm có thể dư thừa nếu nó có thể được bắt nguồn từ một thuộc tính hoặc tập hợp các thuộc tính khác. Sự không nhất quán trong cách đặt tên thuộc tính hoặc thứ nguyên cũng có thể tạo ra dư thừa trong tập dữ liệu xuất hiện.

  • Một số điểm dư thừa có thể được phát hiện bằng phân tích tương quan. Với hai thuộc tính, phân tích như vậy có thể tính toán mức độ mạnh mẽ của một thuộc tính bao hàm thuộc tính kia, dựa trên dữ liệu có sẵn. Đối với thuộc tính số, nó có thể đánh giá mối tương quan giữa hai thuộc tính A và B bằng cách tính toán hệ số tương quan (còn được gọi là hệ số mô men sản phẩm của Pearson, được đặt theo tên người phát minh ra nó, Karl Pearson). Đây là

$$ r_ {A, B} =\ frac {\ sum_ {i =1} ^ {n} (a_ {i} -A ^ {'}) (b_ {i} -B ^ {'})} {N \ sigma _ {A} \ sigma _ {B}} =\ frac {\ sum_ {i =1} ^ {n} (a_ {i} b_ {i}) - NA ^ {'} B ^ {'}} {N \ sigma _ {A} \ sigma _ {B}} $$

trong đó N là số bộ giá trị, a i và b i là các giá trị tương ứng của A và B trong tuple i, A và B là các giá trị trung bình tương ứng của A và B, σ A và σ B là độ lệch chuẩn tương ứng của A và B và Σ (a i b i ) là tổng của tích chéo AB, đối với mỗi bộ, giá trị của A được nhân với giá trị của B trong bộ đó.

Tương quan không bao hàm quan hệ nhân quả. Có nghĩa là, nếu A và B có tương quan, điều này không nhất thiết ngụ ý rằng A gây ra B hoặc B gây ra A. Ví dụ:khi phân tích cơ sở dữ liệu nhân khẩu học, nó có thể tìm thấy rằng các thuộc tính xác định nhiều bệnh viện và một số vụ trộm xe trong một khu vực có tương quan. Điều này không xác định rằng cái này gây ra cái kia. Cả hai thường được kết nối với một thuộc tính thứ ba, chẳng hạn như dân số.

Một vấn đề quan trọng thứ ba trong tích hợp dữ liệu là phát hiện và giải quyết xung đột giá trị dữ liệu. Ví dụ:đối với cùng một thực thể trong thế giới thực, các giá trị thuộc tính từ nhiều nguồn có thể khác nhau. Điều này có thể là do sự khác biệt về đại diện, tỷ lệ hoặc mã hóa.