KDD đại diện cho Khám phá tri thức trong Cơ sở dữ liệu. Nó xác định quy trình rộng lớn của việc khám phá kiến thức trong dữ liệu và nhấn mạnh các ứng dụng cấp cao của các kỹ thuật khai thác dữ liệu xác định. Đây là một lĩnh vực được các nhà nghiên cứu trong một số lĩnh vực quan tâm, chẳng hạn như trí tuệ nhân tạo, học máy, nhận dạng mẫu, cơ sở dữ liệu, thống kê, thu thập kiến thức cho các hệ thống chuyên nghiệp và trực quan hóa dữ liệu.
Mục tiêu chính của quá trình KDD là trích xuất dữ liệu từ thông tin trong bối cảnh cơ sở dữ liệu khổng lồ. Nó thực hiện điều này bằng cách sử dụng các thuật toán Khai phá dữ liệu để nhận ra những gì được coi là kiến thức.
Khám phá tri thức trong Cơ sở dữ liệu được coi như một phân tích khám phá, lập trình và mô hình hóa các kho dữ liệu khổng lồ. KDD là quá trình có tổ chức nhằm xác định các thiết kế hợp lệ, hữu ích và dễ hiểu từ các tập dữ liệu lớn và khó.
Khai phá dữ liệu là gốc của thủ tục KDD, chẳng hạn như suy ra các thuật toán điều tra các bản ghi, phát triển mô hình và khám phá các mẫu chưa biết trước đây. Mô hình được sử dụng để trích xuất kiến thức từ thông tin, phân tích thông tin và dự đoán thông tin.
Khai thác dữ liệu là một bước trong quy trình KDD bao gồm việc áp dụng các thuật toán phân tích và khám phá dữ liệu, dưới các giới hạn về hiệu quả tính toán có thể chấp nhận được, đưa ra một danh sách cụ thể của các mẫu (hoặc mô hình) trên dữ liệu.
Quy trình KDD bao gồm việc sử dụng cơ sở dữ liệu cùng với một số lựa chọn cần thiết, xử lý trước, lấy mẫu con và biến đổi nó; sử dụng các phương pháp khai thác dữ liệu (thuật toán) để liệt kê các mẫu từ nó; và tính toán các sản phẩm của khai thác dữ liệu để nhận ra tập hợp con của các mẫu liệt kê được coi là kiến thức.
Các bước liên quan đến quá trình khám phá tri thức như sau -
- Lựa chọn - Dữ liệu cần thiết cho quá trình khai thác dữ liệu được thu thập từ nhiều nguồn khác nhau. Do đó, bước đầu tiên là chọn một tập dữ liệu hoặc tập trung vào một tập hợp con các biến hoặc mẫu dữ liệu để triển khai khám phá.
- Làm sạch và xử lý trước dữ liệu - Dữ liệu được sử dụng bởi quá trình có thể chứa các giá trị bị thiếu hoặc không chính xác, do đó các hoạt động cơ bản bao gồm loại bỏ nhiễu, thu thập thông tin cần thiết để lập mô hình hoặc tính toán nhiễu, quyết định kỹ thuật xử lý các trường dữ liệu bị thiếu và tính toán theo trình tự thời gian thông tin, được hoàn thành trong bước thứ hai của quy trình KDD.
- Chuyển đổi dữ liệu - Bước này bao gồm việc tìm kiếm các tính năng hữu ích để biểu diễn dữ liệu tùy thuộc vào mục tiêu của nhiệm vụ. Với các phương pháp tiếp cận biến đổi hoặc giảm kích thước, số lượng hiệu quả của biến đang được xem xét có thể được giảm bớt hoặc có thể phát hiện ra biểu diễn bất biến cho dữ liệu.
- Khai thác dữ liệu - Dựa trên tác vụ khai thác dữ liệu đang được thực hiện, bước này áp dụng một thuật toán cho dữ liệu được biến đổi, tìm kiếm các mẫu quan tâm trong một dạng biểu diễn cụ thể hoặc một tập hợp các biểu diễn cụ thể, bao gồm các quy tắc phân loại hoặc cây, hồi quy và phân cụm.
- Diễn giải các mẫu đã khai thác - Bước này cũng có thể liên quan đến việc trực quan hóa các mẫu và mô hình được trích xuất hoặc trực quan hóa dữ liệu được cung cấp trong các mô hình được trích xuất.