Có một số lý thuyết làm cơ sở cho việc khai thác dữ liệu bao gồm:-
Giảm dữ liệu - Theo lý thuyết này, cơ sở của khai phá dữ liệu là giảm bớt sự biểu diễn dữ liệu. Việc giảm thiểu dữ liệu mang lại sự chắc chắn về tốc độ để đáp ứng nhu cầu có được câu trả lời gần đúng nhanh chóng cho các truy vấn trên cơ sở dữ liệu khổng lồ.
Các phương pháp giảm dữ liệu bao gồm phân rã giá trị đơn lẻ (thành phần thúc đẩy phân tích các thành phần chính), wavelets, hồi quy, mô hình log-tuyến tính, biểu đồ, phân cụm, lấy mẫu và phát triển cây chỉ mục.
Nén dữ liệu - Theo lý thuyết này, cơ sở của khai phá dữ liệu là nén thông tin đã cho bằng cách mã hóa dưới dạng bit, luật kết hợp, cây quyết định, cụm, v.v.
Khám phá mẫu - Theo lý thuyết này, cơ sở của khai phá dữ liệu là tìm các mẫu xuất hiện trong cơ sở dữ liệu, bao gồm các liên kết, mô hình phân loại, các mẫu tuần tự, v.v. Có nhiều lĩnh vực khác nhau bao gồm học máy, mạng nơ ron, khai thác liên kết, khai thác mẫu tuần tự, phân cụm, và một số trường con khác nhau đóng góp vào lý thuyết này.
Lý thuyết xác suất - Điều này dựa trên lý thuyết thống kê. Theo lý thuyết này, cơ sở của khai thác dữ liệu là tìm các phân phối xác suất chung của các biến ngẫu nhiên, ví dụ, mạng niềm tin Bayes hoặc mô hình Bayes phân cấp.
Quan điểm kinh tế vi mô - Quan điểm kinh tế vi mô coi khai thác dữ liệu là dịch vụ phát hiện ra các mẫu hấp dẫn chỉ trong phạm vi mà chúng có thể được sử dụng trong quy trình ra quyết định của một số doanh nghiệp (ví dụ:liên quan đến các phương pháp tiếp thị và kế hoạch sản xuất).
Chế độ xem này là một trong những dịch vụ, trong đó các mẫu được coi là thú vị nếu chúng có thể được dựa trên. Doanh nghiệp được coi là đối mặt với các vấn đề tối ưu hóa, trong đó đối tượng là tối đa hóa dịch vụ hoặc giá trị của một quyết định. Theo lý thuyết này, khai thác dữ liệu trở thành một vấn đề tối ưu hóa phi tuyến.
Cơ sở dữ liệu quy nạp - Theo lý thuyết này, một lược đồ cơ sở dữ liệu bao gồm dữ liệu và các mẫu được lưu trong cơ sở dữ liệu. Khai phá dữ liệu là vấn đề thực hiện quy nạp trên cơ sở dữ liệu, trong đó chức năng là truy vấn thông tin và lý thuyết (tức là các mẫu) của cơ sở dữ liệu. Quan điểm này nổi tiếng giữa một số nhà nghiên cứu về hệ thống cơ sở dữ liệu.
Những lý thuyết này không cùng loại trừ. Ví dụ, khám phá mẫu cũng có thể được xem như một thiết kế giảm dữ liệu hoặc nén dữ liệu. Lý tưởng nhất, một khung lý thuyết phải có khả năng mô hình hóa các tác vụ khai thác dữ liệu điển hình (bao gồm liên kết, phân loại và phân cụm), có các tính năng xác suất, có thể quản lý một số dạng dữ liệu và xử lý bản chất lặp đi lặp lại và tương tác của khai thác dữ liệu. Hơn nữa, cần có những nỗ lực hướng tới việc thiết lập một cấu trúc được xác định rõ ràng để khai thác dữ liệu, đáp ứng các yêu cầu này.