Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các vấn đề khác nhau liên quan đến khai thác dữ liệu là gì?

Khai phá dữ liệu là quy trình tìm kiếm các mối tương quan, các mẫu và xu hướng mới hữu ích bằng cách chia sẻ thông qua một lượng lớn dữ liệu được lưu trong các kho lưu trữ, sử dụng các công nghệ nhận dạng mẫu bao gồm các kỹ thuật thống kê và toán học. Đó là việc phân tích các tập dữ liệu thực tế để phát hiện ra các mối quan hệ không đáng nghi ngờ và để tóm tắt các bản ghi theo các phương pháp mới vừa hợp lý vừa hữu ích cho chủ sở hữu dữ liệu.

Có nhiều vấn đề khác nhau liên quan đến khai thác dữ liệu như sau -

  • Vấn đề về quyền riêng tư - Đây là vấn đề cơ bản không gắn với kinh doanh công nghệ mà là vấn đề xã hội. Đó là vấn đề của quyền riêng tư duy nhất. Khai thác dữ liệu tạo ra nó có thể áp dụng để phân tích các giao dịch kinh doanh thông thường và thu thập một lượng dữ liệu thiết yếu về thói quen và sở thích mua đơn lẻ.

  • Vấn đề về tính toàn vẹn của dữ liệu - Thách thức thực hiện chính là hợp nhất thông tin xung đột hoặc dư thừa từ nhiều nguồn. Ví dụ, một ngân hàng có thể bảo vệ tài khoản thẻ tín dụng trên các cơ sở dữ liệu khác nhau. Địa chỉ của từng chủ thẻ có thể khác nhau ở mỗi địa chỉ. Phần mềm phải dịch dữ liệu từ hệ thống này sang hệ thống khác và chọn địa chỉ được nhập nhiều nhất.

  • Cấu trúc cơ sở dữ liệu quan hệ hoặc cơ sở dữ liệu đa chiều - Vấn đề kỹ thuật là khởi động cấu trúc cơ sở dữ liệu quan hệ hay đa chiều sẽ tốt hơn. Trong cấu trúc quan hệ, dữ liệu được lưu trong các bảng, cho phép truy vấn Adhoc. Trong một cấu trúc nhiều chiều, các tập hợp hình khối được liên kết trong các mảng, với các tập hợp con được tạo ra theo thể loại. Trong khi cấu trúc đa chiều hỗ trợ khai thác dữ liệu đa chiều, cấu trúc quan hệ đã triển khai tốt hơn nhiều trong môi trường máy khách / máy chủ.

  • Chi phí - Các truy vấn khai thác dữ liệu càng hiệu quả, tiện ích của thông tin được thu thập từ dữ liệu càng lớn và áp lực tăng lượng dữ liệu được thu thập và duy trì, điều này cải thiện áp lực cho các truy vấn khai thác dữ liệu nhanh hơn, mạnh mẽ hơn. Điều này làm tăng áp lực cho các hệ thống lớn hơn, nhanh hơn, có giá cao hơn.

  • Chất lượng dữ liệu - Đó là một trong những thách thức lớn nhất đối với việc khai thác dữ liệu. Chất lượng dữ liệu xác định tính chính xác và tính toàn vẹn của dữ liệu. Chất lượng dữ liệu cũng có thể được quan tâm bởi cấu trúc và tính nhất quán của thông tin được phân tích. Sự hiện diện của dữ liệu trùng lặp, không có tiêu chuẩn dữ liệu, cập nhật kịp thời và lỗi của con người có thể tự động ảnh hưởng đến hiệu quả của các kỹ thuật khai thác dữ liệu phức tạp hơn.

  • Khả năng tương tác - Nó xác định khả năng của một hệ thống máy tính hoặc dữ liệu để hoạt động với các hệ thống hoặc dữ liệu khác bằng cách sử dụng các tiêu chuẩn và quy trình trung bình. Đối với khai thác dữ liệu, khả năng tương tác của cơ sở dữ liệu và phần mềm là điều cần thiết để cho phép tìm kiếm và phân tích một số cơ sở dữ liệu đồng thời và cung cấp khả năng tương thích của các hoạt động khai thác dữ liệu của nhiều cơ quan.