Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các ứng dụng của khai thác dữ liệu là gì?


Khai phá dữ liệu là quá trình khám phá các mối tương quan, mẫu và xu hướng mới có ý nghĩa bằng cách chọn lọc một lượng lớn dữ liệu được lưu trữ trong kho lưu trữ, sử dụng công nghệ nhận dạng mẫu cũng như các kỹ thuật thống kê và toán học.

Đó là việc phân tích các tập dữ liệu quan sát để phát hiện ra các mối quan hệ không được nghi ngờ và tóm tắt các bản ghi bằng các kỹ thuật mới vừa dễ hiểu vừa có lợi cho chủ sở hữu dữ liệu. Có nhiều ứng dụng khác nhau của khai thác dữ liệu như sau -

Kho dữ liệu và xử lý trước dữ liệu - Kho dữ liệu rất cần thiết cho việc trao đổi thông tin và khai thác dữ liệu. Trong lĩnh vực dữ liệu không gian địa lý, nhưng không có kho dữ liệu không gian địa lý thực sự nào hiện tồn tại.

Có thể tạo ra một kho như vậy đòi hỏi phải tìm ra các phương tiện để giải quyết sự không tương thích về dữ liệu địa lý và thời gian, chẳng hạn như đối chiếu ngữ nghĩa, hệ thống tham chiếu, hình học, độ chính xác và độ chính xác.

Đối với phần mềm toán học nói chung, cần có các phương pháp để tích hợp thông tin từ các nguồn không đồng nhất (bao gồm dữ liệu bao gồm các khoảng thời gian khác nhau) và để xác định các hoạt động. Ví dụ, đối với dữ liệu về khí hậu và hệ sinh thái (theo không gian và thời gian), vấn đề là có quá nhiều sự kiện trong miền không gian và quá ít trong miền thời gian.

Khai thác các kiểu dữ liệu phức tạp - Tập dữ liệu khoa học có bản chất không đồng nhất, thường chứa dữ liệu bán cấu trúc và dữ liệu phi cấu trúc, bao gồm dữ liệu đa phương tiện và dữ liệu luồng tham chiếu địa lý. Cần có các phương pháp mạnh mẽ để xử lý dữ liệu công nghệ không gian, phân cấp khái niệm liên quan và các mối quan hệ địa lý phức tạp (ví dụ:khoảng cách không phải Euclidian).

Khai thác dựa trên đồ thị - Thường khó hoặc không thể mô hình hóa một số hiện tượng và quá trình vật lý do những hạn chế của các phương pháp mô hình hóa hiện có. Ngoài ra, các đồ thị được gắn nhãn có thể được sử dụng để xác định một số đặc điểm không gian, tôpô, hình học và các đặc điểm quan hệ khác có trong tập dữ liệu số.

Trong mô hình đồ thị, mọi dữ liệu được khai thác được mô tả bằng một đỉnh trong đồ thị và các cạnh giữa các đỉnh mô tả mối quan hệ giữa các đối tượng. Ví dụ:đồ thị có thể được sử dụng để mô hình hóa cấu trúc hóa học và dữ liệu được tạo ra bằng phép số hóa, chẳng hạn như mô phỏng dòng chất lỏng.

Tuy nhiên, sự thành công của mô hình biểu đồ phụ thuộc vào những cải tiến về khả năng mở rộng và hiệu quả của nhiều tác vụ khai thác dữ liệu cổ điển, chẳng hạn như phân loại, khai thác mẫu thường xuyên và phân cụm.

Công cụ trực quan hóa và kiến ​​thức về miền cụ thể - Các giao diện người dùng đồ họa cấp cao và các công cụ trực quan hóa là cần thiết cho các hệ thống khai thác dữ liệu số. Chúng phải được thống nhất với các hệ thống dữ liệu và hệ thống cơ sở dữ liệu theo miền cụ thể hiện có để hướng dẫn các nhà nghiên cứu và người dùng nói chung tìm kiếm các thiết kế, diễn giải và hình dung các thiết kế đã khám phá cũng như sử dụng kiến ​​thức đã khám phá trong quá trình ra quyết định của họ.