Khai phá dữ liệu đề cập đến việc trích xuất hoặc khai thác kiến thức từ một lượng lớn dữ liệu. Khai thác dữ liệu thường được sử dụng ở những nơi lưu trữ và xử lý một lượng lớn dữ liệu.
Khai phá dữ liệu là một lĩnh vực liên ngành, tập hợp của một loạt các lĩnh vực, chẳng hạn như hệ thống cơ sở dữ liệu, thống kê, học máy, trực quan hóa và khoa học dữ liệu. Tùy thuộc vào phương pháp khai thác dữ liệu được sử dụng, các kỹ thuật từ các lĩnh vực khác có thể được áp dụng, chẳng hạn như mạng nơ-ron, lý thuyết tập hợp mờ và / hoặc thô, biểu diễn tri thức, lập trình logic quy nạp hoặc tính toán hiệu suất cao.
Nó được thiết lập trên các loại dữ liệu được khai thác hoặc trên ứng dụng khai thác dữ liệu nhất định, hệ thống khai thác dữ liệu cũng có thể tích hợp các phương pháp từ phân tích dữ liệu không gian, truy xuất dữ liệu, nhận dạng mẫu, phân tích hình ảnh, xử lý tín hiệu, đồ họa máy tính, công nghệ mạng, kinh tế, kinh doanh, tin sinh học hoặc tâm lý học.
Việc phân loại khai thác dữ liệu như sau -
Phân loại theo loại cơ sở dữ liệu được khai thác - Một hệ thống khai thác dữ liệu có thể được phân loại theo các loại cơ sở dữ liệu được khai thác. Các hệ thống cơ sở dữ liệu có thể được phân loại theo nhiều tiêu chí khác nhau (bao gồm các mô hình dữ liệu, hoặc các loại dữ liệu hoặc ứng dụng có trong đó), mỗi hệ thống có thể cần kỹ thuật khai thác dữ liệu của nó.
Ví dụ:nếu phân loại theo mô hình dữ liệu, nó có thể có hệ thống khai thác quan hệ, giao dịch, quan hệ đối tượng hoặc kho dữ liệu. Nếu phân loại theo các kiểu xử lý dữ liệu đặc biệt, chúng ta có thể có hệ thống khai thác dữ liệu không gian, chuỗi thời gian, văn bản, luồng, hệ thống khai thác dữ liệu đa phương tiện hoặc hệ thống khai thác World Wide Web.
Phân loại theo loại kiến thức được khai thác - Các hệ thống khai thác dữ liệu có thể được phân loại theo loại kiến thức mà chúng khai thác được. Nó dựa trên các chức năng khai thác dữ liệu, bao gồm phân tích đặc điểm, phân biệt, liên kết và tương quan, phân loại, dự đoán, phân cụm, phân tích ngoại lệ và phân tích tiến hóa. Hệ thống khai thác dữ liệu thường hỗ trợ nhiều chức năng khai thác dữ liệu tích hợp và đa dạng.
Phân loại theo các loại kỹ thuật được sử dụng - Các hệ thống khai thác dữ liệu có thể được phân loại theo các kỹ thuật khai thác dữ liệu cơ bản được sử dụng. Các kỹ thuật này có thể được mô tả theo mức độ tương tác của người dùng liên quan đến các hệ thống tự trị, hệ thống khám phá tương tác, hệ thống theo hướng truy vấn hoặc các phương pháp phân tích dữ liệu được sử dụng.
Phân loại theo các ứng dụng được điều chỉnh - Các hệ thống khai thác dữ liệu cũng có thể được phân loại theo các ứng dụng mà chúng thích ứng. Ví dụ:các hệ thống khai thác dữ liệu có thể được điều chỉnh theo từng loại cho tài chính, viễn thông, DNA, thị trường chứng khoán, e-mail, v.v. Có nhiều ứng dụng thường cần tích hợp các phương pháp dành riêng cho ứng dụng.