Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các thành phần của khai thác dữ liệu là gì?

Khai thác dữ liệu là quy trình lựa chọn, thăm dò và mô hình hóa lượng thông tin lớn để tìm ra các quy định hoặc mối quan hệ mà thoạt đầu chưa biết để thu được kết quả rõ ràng và có lợi cho chủ sở hữu cơ sở dữ liệu.

Khai phá dữ liệu là một lĩnh vực liên ngành, tập hợp của một loạt các lĩnh vực, chẳng hạn như hệ thống cơ sở dữ liệu, thống kê, học máy, trực quan hóa và khoa học dữ liệu. Nó dựa trên các phương pháp khai thác dữ liệu được sử dụng, có thể sử dụng các phương pháp tiếp cận từ các lĩnh vực khác, bao gồm mạng nơ-ron, lý thuyết tập mờ và thô, biểu diễn tri thức, lập trình logic quy nạp hoặc máy tính hiệu suất cao.

Nó được thiết lập trên các loại dữ liệu được khai thác hoặc trên ứng dụng khai thác dữ liệu nhất định, hệ thống khai thác dữ liệu cũng có thể tích hợp các phương pháp từ phân tích dữ liệu không gian, truy xuất dữ liệu, nhận dạng mẫu, phân tích hình ảnh, xử lý tín hiệu, đồ họa máy tính, công nghệ mạng, kinh tế, kinh doanh, tin sinh học hoặc tâm lý học.

Ngôn ngữ truy vấn khai thác dữ liệu có thể được thiết kế để kết hợp các nguyên thủy này, cho phép người dùng kết nối linh hoạt với các hệ thống khai thác dữ liệu. Một ngôn ngữ truy vấn khai thác dữ liệu hỗ trợ một cơ quan mà trên đó có thể xây dựng các giao diện đồ họa thân thiện với người dùng. Điều này thúc đẩy giao tiếp của hệ thống khai thác dữ liệu với các hệ thống dữ liệu khác và tích hợp của nó với môi trường xử lý dữ liệu hoàn chỉnh.

Nó đang thiết kế một ngôn ngữ khai thác dữ liệu toàn diện là một thách thức vì khai thác dữ liệu bảo vệ nhiều chức năng, từ mô tả đặc tính dữ liệu đến phân tích tiến hóa. Mỗi nhiệm vụ có một số yêu cầu. Việc thiết kế một ngôn ngữ truy vấn khai thác dữ liệu hiệu quả cần được học rộng rãi về sức mạnh, giới hạn và cấu trúc cơ bản của các loại nhiệm vụ khai thác dữ liệu khác nhau.

Các chức năng khai phá dữ liệu được sử dụng để xác định loại mẫu phải được phát hiện trong các tác vụ khai thác dữ liệu. Nhìn chung, các tác vụ khai thác dữ liệu có thể được phân thành hai loại bao gồm mô tả và dự đoán. Các tác vụ khai thác mô tả xác định các đặc điểm chung của dữ liệu trong cơ sở dữ liệu và các tác vụ khai thác dự đoán hành động suy luận về thông tin hiện tại để phát triển các dự đoán.

Các thành phần chính của khai thác dữ liệu như sau -

  • Cơ sở dữ liệu - Đây là một hoặc một tập hợp cơ sở dữ liệu, kho dữ liệu, bảng tính và một loại kho dữ liệu khác, nơi có thể triển khai các kỹ thuật làm sạch và tích hợp dữ liệu.
  • Máy chủ kho dữ liệu - Thành phần này tìm nạp các bản ghi có liên quan dựa trên yêu cầu của người dùng từ kho dữ liệu.
  • Cơ sở kiến ​​thức - Đây là một miền kiến ​​thức được sử dụng để khám phá các mô hình thú vị.
  • Công cụ khai thác dữ liệu - Nó sử dụng một mô-đun chức năng được sử dụng để thực hiện các tác vụ bao gồm phân loại, liên kết, phân tích cụm, v.v.
  • Mô-đun đánh giá mẫu - Thành phần này sử dụng các thước đo mức độ thú vị giao tiếp với cấu trúc khai thác dữ liệu để nhắm mục tiêu tìm kiếm theo các mẫu thú vị.
  • Giao diện người dùng - Giao diện này cho phép người dùng tương tác với hệ thống bằng cách mô tả chức năng khai thác dữ liệu hoặc truy vấn thông qua giao diện người dùng đồ họa.