Có các bước chính liên quan đến tiền xử lý dữ liệu, đó là làm sạch dữ liệu, tích hợp dữ liệu, giảm dữ liệu và chuyển đổi dữ liệu như sau -
Làm sạch dữ liệu - Các quy trình làm sạch dữ liệu hoạt động để “làm sạch” thông tin bằng cách điền vào các giá trị còn thiếu, làm mịn thông tin nhiễu, xác định hoặc loại bỏ các giá trị ngoại lai và giải quyết sai lệch. Nếu người dùng hiểu rằng dữ liệu là bẩn, họ sẽ không tin tưởng vào kết quả của một số hoạt động khai thác dữ liệu đã được sử dụng.
Hơn nữa, dữ liệu bẩn có thể gây nhầm lẫn cho giai đoạn khai thác, dẫn đến sản lượng không ổn định. Một số quy trình khai thác có một số giai đoạn để xử lý thông tin không đầy đủ hoặc nhiễu, chúng không phải lúc nào cũng hiệu quả. Thay vào đó, họ có thể tập trung vào việc ngăn chặn việc trang bị quá nhiều thông tin vào hàm đang được mô hình hóa.
Tích hợp dữ liệu - Tích hợp dữ liệu là thủ tục hợp nhất dữ liệu từ một số nguồn khác nhau. Trong khi thực hiện tích hợp dữ liệu, nó phải giải quyết vấn đề dư thừa dữ liệu, không nhất quán, trùng lặp, v.v. Trong khai thác dữ liệu, tích hợp dữ liệu là một phương pháp xử lý trước bản ghi bao gồm hợp nhất dữ liệu từ một vài nguồn dữ liệu không đồng nhất thành dữ liệu nhất quán để giữ lại và cung cấp một thống nhất quan điểm của dữ liệu.
Tích hợp dữ liệu đặc biệt quan trọng trong ngành chăm sóc sức khỏe. Dữ liệu tích hợp từ nhiều dữ liệu bệnh nhân và phòng khám hỗ trợ bác sĩ lâm sàng nhận biết các bệnh và rối loạn y tế bằng cách tích hợp dữ liệu từ nhiều hệ thống vào góc nhìn riêng của dữ liệu có lợi, từ đó có thể thu được những hiểu biết hữu ích.
Giảm dữ liệu - Mục tiêu của Giảm thiểu dữ liệu là để định nghĩa nó một cách gọn gàng hơn. Khi kích thước dữ liệu nhỏ hơn, việc sử dụng các thuật toán phức tạp và có chi phí tính toán cao sẽ đơn giản hơn. Việc giảm bớt dữ liệu có thể theo nhiều hàng (bản ghi) hoặc theo nhiều cột (kích thước).
Trong việc giảm kích thước, các lược đồ mã hóa dữ liệu được sử dụng để thu được mô tả giảm hoặc "nén" của dữ liệu ban đầu. Các ví dụ liên quan đến phương pháp nén dữ liệu (ví dụ:biến đổi wavelet và phân tích các thành phần chính), lựa chọn tập hợp con thuộc tính (ví dụ:loại bỏ các thuộc tính không liên quan) và xây dựng thuộc tính (ví dụ:trong đó một tập hợp nhỏ các thuộc tính có lợi hơn được thay đổi so với tập ban đầu).
Trong quá trình giảm thiểu số, dữ liệu được khôi phục bằng cách thay thế, mô tả nhỏ hơn bằng cách sử dụng các mô hình tham số như mô hình hồi quy hoặc mô hình log-tuyến tính hoặc mô hình phi tham số như biểu đồ, cụm, lấy mẫu hoặc tổng hợp dữ liệu.
Chuyển đổi dữ liệu - Trong chuyển đổi dữ liệu, nơi dữ liệu được chuyển đổi hoặc liên kết thành các dạng áp dụng cho việc khai thác bằng cách thực hiện các phép toán tổng hợp hoặc tóm tắt. Trong Chuyển đổi dữ liệu, nó bao gồm -
Làm mịn - Nó có thể hoạt động để loại bỏ nhiễu khỏi dữ liệu. Các kỹ thuật như vậy bao gồm phân loại, hồi quy và phân cụm.
Tổng hợp - Trong tổng hợp, nơi các dịch vụ tóm tắt hoặc tổng hợp được sử dụng cho dữ liệu. Ví dụ:dữ liệu bán hàng hàng ngày có thể được tổng hợp để tính toán tổng số tiền hàng tháng và hàng năm. Quy trình này thường được sử dụng để phát triển một khối dữ liệu để phân tích các bản ghi ở một số mức độ chi tiết.