Computer >> Máy Tính >  >> Lập trình >> Lập trình

KDD là gì?

KDD đại diện cho Khám phá tri thức trong Cơ sở dữ liệu. Nó xác định quá trình rộng lớn của việc khám phá kiến ​​thức trong dữ liệu và nhấn mạnh các ứng dụng cấp cao của các kỹ thuật khai thác dữ liệu xác định. Đây là một lĩnh vực được các nhà nghiên cứu trong một số lĩnh vực quan tâm, chẳng hạn như trí tuệ nhân tạo, học máy, nhận dạng mẫu, cơ sở dữ liệu, thống kê, thu thập kiến ​​thức cho các hệ thống chuyên nghiệp và trực quan hóa dữ liệu.

Mục tiêu chính của quá trình KDD là trích xuất dữ liệu từ thông tin trong bối cảnh cơ sở dữ liệu khổng lồ. Nó thực hiện điều này bằng cách sử dụng các thuật toán Khai phá dữ liệu để nhận ra những gì được coi là kiến ​​thức. Khám phá Tri thức trong Cơ sở dữ liệu được coi như một phân tích khám phá, được lập trình và mô hình hóa các kho dữ liệu khổng lồ. KDD là một quá trình có tổ chức nhằm nhận ra thiết kế hợp lệ, hữu ích và dễ hiểu từ các tập dữ liệu lớn và khó.

KDD là một thủ tục không quan trọng để xác định các thiết kế hợp lệ, mới lạ, có thể hữu ích và về cơ bản là hợp lý trong dữ liệu. Quy trình chỉ ra rằng KDD bao gồm nhiều bước, bao gồm chuẩn bị dữ liệu, tìm kiếm các mẫu, đánh giá kiến ​​thức và sàng lọc, tất cả đều được lặp lại trong nhiều lần lặp lại. Không tầm thường, nó có nghĩa là một số tìm kiếm hoặc suy luận được chứa; cụ thể là, nó không phải là một phép tính dễ dàng các đại lượng được xác định trước như tính giá trị trung bình của một tập hợp số.

Khai phá dữ liệu là gốc của thủ tục KDD, chẳng hạn như suy ra các thuật toán điều tra các bản ghi, phát triển mô hình và khám phá các mẫu chưa biết trước đây. Mô hình được sử dụng để trích xuất kiến ​​thức từ thông tin, phân tích thông tin và dự đoán thông tin.

Khai phá dữ liệu là một bước trong quy trình KDD bao gồm việc áp dụng các thuật toán phân tích và khám phá dữ liệu, dưới các giới hạn về hiệu quả tính toán có thể chấp nhận được, đưa ra một danh sách cụ thể của các mẫu (hoặc mô hình) trên dữ liệu.

Trường mẫu thường là vô hạn và việc liệt kê các mẫu chứa một số dạng tìm kiếm trong không gian này. Các ràng buộc tính toán thực tế đặt ra các giới hạn nghiêm trọng đối với không gian con có thể được phân tích bằng thuật toán khai thác dữ liệu.

Quy trình KDD bao gồm việc sử dụng cơ sở dữ liệu cùng với một số lựa chọn cần thiết, xử lý trước, lấy mẫu con và biến đổi nó; sử dụng các phương pháp khai thác dữ liệu (thuật toán) để liệt kê các mẫu từ nó; và tính toán các sản phẩm của khai thác dữ liệu để nhận ra tập hợp con của các mẫu liệt kê được coi là kiến ​​thức.

Thành phần khai thác dữ liệu của quy trình KDD liên quan đến phương pháp thuật toán mà các mẫu được trích xuất và liệt kê từ các bản ghi. Quy trình KDD hoàn chỉnh bao gồm việc đánh giá và giải thích có thể có các mẫu đã khai thác để quyết định mẫu nào có thể được xử lý bằng kiến ​​thức mới.