Computer >> Máy Tính >  >> Lập trình >> Lập trình

Quy trình KDD là gì?

KDD đại diện cho Khám phá tri thức trong Cơ sở dữ liệu. Nó xác định quy trình rộng lớn của việc khám phá kiến ​​thức trong dữ liệu và nhấn mạnh các ứng dụng cấp cao của các kỹ thuật khai thác dữ liệu xác định. Đây là một lĩnh vực được các nhà nghiên cứu trong một số lĩnh vực quan tâm, chẳng hạn như trí tuệ nhân tạo, học máy, nhận dạng mẫu, cơ sở dữ liệu, thống kê, thu thập kiến ​​thức cho các hệ thống chuyên nghiệp và trực quan hóa dữ liệu.

Quá trình khám phá kiến ​​thức là lặp đi lặp lại và tương tác, bao gồm chín bước. Quá trình lặp đi lặp lại ở mọi giai đoạn, ngụ ý rằng việc chuyển đổi trở lại các hành động trước đó có thể được yêu cầu. Quy trình có một số phương pháp tưởng tượng theo nghĩa là người ta không thể trình bày một công thức hoặc tạo ra một phân loại khoa học hoàn chỉnh để đưa ra quyết định chính xác cho từng bước và loại ứng dụng. Do đó, cần phải hiểu quy trình và nhiều yêu cầu và khả năng trong từng giai đoạn.

  • Phát triển sự hiểu biết - Đây là bước sơ bộ cơ bản. Nó tạo ra bối cảnh để tìm hiểu những gì nên làm với một số quyết định như chuyển đổi, thuật toán, biểu diễn, v.v. Các cá nhân phụ trách liên doanh KDD được yêu cầu tìm hiểu và mô tả các mục tiêu của người dùng cuối và môi trường trong mà quá trình khám phá kiến ​​thức sẽ xuất hiện (liên quan đến kiến ​​thức có liên quan trước đó).

  • Tạo tập dữ liệu mục tiêu - Nó có thể là chọn một tập dữ liệu hoặc nhắm mục tiêu một tập hợp con của các biến hoặc mẫu dữ liệu, trên đó khám phá sẽ được triển khai. Quá trình này là cần thiết vì Khai thác dữ liệu học và tìm thấy từ dữ liệu có thể truy cập được. Đây là cơ sở bằng chứng để xây dựng các mô hình. Nếu thiếu một số thuộc tính quan trọng, tại thời điểm đó, thì toàn bộ nghiên cứu có thể không thành công về mặt này, càng có nhiều thuộc tính được xem xét.

  • Làm sạch và xử lý trước dữ liệu - Làm sạch dữ liệu định nghĩa để làm sạch dữ liệu bằng cách điền vào các giá trị còn thiếu, làm mịn dữ liệu bị nhiễu, xác định và loại bỏ các ngoại lệ cũng như loại bỏ các điểm không nhất quán trong dữ liệu.

  • Phân tích khám phá và lựa chọn mô hình và giả thuyết - Nó có thể là lựa chọn (các) thuật toán khai thác dữ liệu và chọn (các) phương pháp được sử dụng để tìm kiếm các mẫu dữ liệu. Quá trình này bao gồm việc quyết định những mô hình và thông số nào có thể phù hợp và phù hợp với một phương pháp khai thác dữ liệu cụ thể với các tiêu chí dài hạn của quy trình KDD.

  • Khai thác dữ liệu - Nó được sử dụng để tìm kiếm các mẫu quan tâm trong một dạng biểu diễn cụ thể hoặc một tập hợp các biểu diễn đó, liên quan đến các quy tắc phân loại hoặc cây, hồi quy và phân cụm. Người dùng có thể trợ giúp đáng kể phương pháp khai thác dữ liệu bằng cách triển khai chính xác các bước trước đó.

  • Hành động dựa trên kiến ​​thức đã khám phá - Nó đang sử dụng trực tiếp kiến ​​thức, bao gồm cả kiến ​​thức vào một hệ thống khác để thực hiện hành động bổ sung, hoặc chỉ đơn giản là ghi lại nó và báo cáo cho các bên quan tâm. Quá trình này cũng bao gồm việc kiểm tra và giải quyết các xung đột tiềm ẩn với kiến ​​thức đã được chấp nhận (hoặc trích xuất) trước đó.