Khai thác dữ liệu được áp dụng cho dữ liệu đã chọn trong cơ sở dữ liệu số lượng lớn. Khi việc phân tích và khai thác dữ liệu được thực hiện trên một lượng lớn dữ liệu thì sẽ mất rất nhiều thời gian để xử lý, điều này làm cho nó không thực tế và không khả thi. Nó có thể làm giảm thời gian xử lý phân tích dữ liệu, các kỹ thuật giảm dữ liệu được sử dụng để giảm bớt sự biểu diễn của tập dữ liệu có khối lượng nhỏ hơn nhiều bằng cách duy trì tính toàn vẹn của dữ liệu gốc. Bằng cách giảm dữ liệu, hiệu quả của quá trình khai thác dữ liệu được cải thiện, tạo ra kết quả phân tích tương tự.
Việc giảm dữ liệu nhằm mục đích xác định nó một cách gọn gàng hơn. Khi kích thước dữ liệu nhỏ hơn, việc áp dụng các thuật toán phức tạp và mang tính tính toán cao sẽ đơn giản hơn. Việc giảm dữ liệu có thể là về số lượng hàng (bản ghi) hoặc về số lượng cột (kích thước).
Có nhiều chiến lược khác nhau để giảm dữ liệu như sau -
Tổng hợp khối dữ liệu - Trong phương pháp này, nơi các phép toán tổng hợp được sử dụng cho dữ liệu trong việc xây dựng một khối dữ liệu. Dữ liệu này bao gồm doanh số bán hàng của Tất cả các thiết bị điện tử mỗi quý, trong các năm từ 2002 đến 2004. Nó quan tâm đến doanh số hàng năm (tổng mỗi năm), hơn là tổng mỗi quý. Do đó, dữ liệu có thể được tổng hợp để dữ liệu kết quả tóm tắt tổng doanh số bán hàng mỗi năm thay vì mỗi quý. Tập dữ liệu kết quả có dung lượng nhỏ hơn, không làm mất dữ liệu cần thiết cho nhiệm vụ phân tích.
Lựa chọn tập hợp con thuộc tính - Trong phương pháp này, nơi các thuộc tính hoặc thứ nguyên không liên quan, có liên quan yếu hoặc dư thừa có thể được phát hiện và xóa. Tập dữ liệu để phân tích có thể bao gồm hàng trăm thuộc tính, một số thuộc tính có thể không liên quan đến nhiệm vụ khai thác hoặc dư thừa. Ví dụ:nếu nhiệm vụ là sắp xếp khách hàng về việc họ có khả năng mua một đĩa CD mới phổ biến tại Tất cả các thiết bị điện tử khi được thông báo về việc giảm giá hay không, thì các thuộc tính như số điện thoại của khách hàng có thể không liên quan, không giống như các thuộc tính như age hoặc music_taste.
Giảm kích thước - Các cơ chế mã hóa được sử dụng để giảm kích thước tập dữ liệu. Trong quá trình giảm kích thước, mã hóa hoặc biến đổi dữ liệu được áp dụng để có được sự trình bày giảm hoặc "nén" của dữ liệu gốc. Nếu dữ liệu gốc có thể được tạo lại từ dữ liệu đã nén mà không làm mất thông tin, thì việc giảm dữ liệu được gọi là không mất dữ liệu.
Giảm số lượng - Dữ liệu được khôi phục hoặc dự đoán bằng cách biểu diễn dữ liệu thay thế, nhỏ hơn bao gồm mô hình tham số (được yêu cầu chỉ lưu các tham số mô hình chứ không phải dữ liệu thực tế) hoặc các phương pháp phi tham số bao gồm phân cụm, lấy mẫu và sử dụng biểu đồ.
Sự riêng biệt hóa và tạo hệ thống phân cấp khái niệm - Trong phương pháp này, nơi các giá trị dữ liệu thô cho các thuộc tính được thay thế bằng phạm vi hoặc mức khái niệm cao hơn. Sự tùy biến dữ liệu là một hình thức giảm thiểu số rất có lợi cho việc sản xuất tự động các phân cấp khái niệm. Sự riêng biệt hóa và tạo hệ thống phân cấp khái niệm là những công cụ động để khai thác dữ liệu, trong đó chúng cho phép khai thác dữ liệu ở nhiều mức trừu tượng khác nhau.