Computer >> Máy Tính >  >> Lập trình >> Lập trình

Những thách thức của khai thác dữ liệu là gì?

Có nhiều thách thức khác nhau của việc khai thác dữ liệu như sau -

Hiệu quả và khả năng mở rộng của các thuật toán khai thác dữ liệu - Nó có thể trích xuất dữ liệu một cách hiệu quả từ một lượng lớn dữ liệu trong cơ sở dữ liệu, các thuật toán khám phá tri thức phải hiệu quả và có thể mở rộng đến các cơ sở dữ liệu khổng lồ. Cụ thể, thời gian chạy của một thuật toán khai thác dữ liệu phải có thể dự đoán được và có thể chấp nhận được trong cơ sở dữ liệu khổng lồ. Các thuật toán có độ phức tạp đa thức bậc mũ hoặc thậm chí theo thứ tự kênh sẽ không được sử dụng hiệu quả.

Tính hữu ích, chắc chắn và tính biểu cảm của kết quả khai thác dữ liệu - Kiến thức đã xác định phải mô tả chính xác nội dung của cơ sở dữ liệu và có lợi cho các ứng dụng cụ thể. Sự không hoàn hảo phải được xác định bằng các thước đo độ không đảm bảo, dưới dạng các quy tắc gần đúng hoặc các quy tắc định lượng.

Tiếng ồn và dữ liệu đặc biệt phải được quản lý một cách tinh tế trong các hệ thống khai thác dữ liệu. Điều này cũng kích thích việc nghiên cứu có hệ thống để đo lường chất lượng của kiến ​​thức đã khám phá, chẳng hạn như tính thú vị và độ tin cậy, bằng cách phát triển các mô hình và công cụ thống kê, phân tích và mô phỏng.

Biểu hiện của nhiều loại kết quả khai thác dữ liệu khác nhau - Một số loại kiến ​​thức có thể được khám phá từ một lượng lớn dữ liệu. Nó cũng có thể kiểm tra kiến ​​thức đã khám phá từ nhiều chế độ xem và hiển thị chúng ở các dạng khác nhau.

Điều này cần chúng tôi xác định cả các yêu cầu khai thác dữ liệu và kiến ​​thức được khám phá bằng ngôn ngữ cấp cao hoặc giao diện người dùng đồ họa để những người không phải chuyên gia có thể xác định nhiệm vụ khai thác dữ liệu và kiến ​​thức được khám phá có thể hiểu được và cung cấp chính xác cho người dùng. Điều này cũng cần hệ thống khám phá để lựa chọn các kỹ thuật biểu diễn tri thức diễn đạt.

Kiến thức khai thác tương tác ở nhiều cấp độ trừu tượng - Bởi vì việc dự đoán chính xác những gì có thể được khám phá từ cơ sở dữ liệu là rất phức tạp, một truy vấn khai thác dữ liệu cấp cao phải được coi là một thăm dò có thể tiết lộ một số dấu vết thú vị để khám phá thêm.

Khám phá tương tác phải được khuyến khích, cho phép người dùng tương tác tinh chỉnh yêu cầu khai thác dữ liệu, thay đổi động lực tập trung vào dữ liệu, đào sâu dần quy trình khai thác dữ liệu và xem thông tin và kết quả khai thác dữ liệu một cách linh hoạt ở một số cấp độ trừu tượng và từ nhiều góc độ.

Khai thác thông tin từ các nguồn dữ liệu khác nhau - Mạng máy tính cục bộ và diện rộng khả dụng rộng rãi, chẳng hạn như Internet, và có thể kết nối nhiều nguồn dữ liệu khác nhau và tạo thành cơ sở dữ liệu phân tán, không đồng nhất khổng lồ. Khai thác kiến ​​thức từ nhiều nguồn thông tin được định dạng hoặc chưa được định dạng với ngữ nghĩa dữ liệu đa dạng đặt ra một yêu cầu mới đối với việc khai thác dữ liệu.

Mặt khác, khai thác dữ liệu có thể giúp tiết lộ các quy tắc dữ liệu cấp cao trong cơ sở dữ liệu không đồng nhất mà hầu như không thể phát hiện ra bởi các hệ thống truy vấn đơn giản. Hơn nữa, kích thước khổng lồ của cơ sở dữ liệu, sự phân bố rộng rãi của dữ liệu và độ phức tạp tính toán của một số phương pháp khai thác dữ liệu thúc đẩy sự phát triển của các thuật toán khai thác dữ liệu song song và phân tán.