Làm sạch dữ liệu là gì?

Làm sạch dữ liệu định nghĩa làm sạch dữ liệu bằng cách điền vào các giá trị còn thiếu, làm mịn dữ liệu bị nhiễu, phân tích và loại bỏ các giá trị ngoại lai cũng như loại bỏ các điểm không nhất quán trong dữ liệu. Đôi khi dữ liệu ở nhiều cấp độ chi tiết có thể khác với những gì được yêu cầu, ví dụ:nó có thể cần độ tuổi 20-30, 30-40, 40-50 và dữ liệu được nhập bao gồm ngày sinh. Dữ liệu có thể được làm sạch bằng cách chia nhỏ dữ liệu thành các loại thích hợp.

Các loại làm sạch dữ liệu

Có nhiều kiểu làm sạch dữ liệu khác nhau như sau -

Giá trị bị thiếu - Các giá trị còn thiếu được điền bằng các giá trị thích hợp. Có các cách tiếp cận sau để điền các giá trị.
- Tuple bị bỏ qua khi nó bao gồm một số thuộc tính bị thiếu giá trị.
- Các giá trị được điền theo cách thủ công cho giá trị bị thiếu.
- Cùng một hằng số chung có thể lấp đầy các giá trị.
- Giá trị trung bình của thuộc tính có thể lấp đầy các giá trị còn thiếu.
- Giá trị có thể xảy ra nhất có thể lấp đầy các giá trị còn thiếu.
Dữ liệu nhiễu - Nhiễu là một sai số ngẫu nhiên hoặc phương sai trong một biến đo được. Có các phương pháp làm mịn sau để xử lý tiếng ồn như sau -
- Thùng rác - Các phương pháp này làm mịn một giá trị dữ liệu sắp xếp bằng cách tham khảo “vùng lân cận” của nó, đặc biệt là các giá trị xung quanh thông tin nhiễu. Các giá trị đã sắp xếp được phân phối vào nhiều thùng hoặc thùng. Bởi vì các phương thức binning tham khảo vùng lân cận của các giá trị, chúng thực hiện làm mịn cục bộ.
- Hồi quy - Dữ liệu có thể được làm mịn bằng cách phù hợp thông tin với một hàm, kể cả với hồi quy. Hồi quy tuyến tính bao gồm việc tìm dòng "tốt nhất" để phù hợp với hai thuộc tính (hoặc biến) để một thuộc tính có thể được sử dụng để dự báo thuộc tính kia. Hồi quy nhiều tuyến tính là sự phát triển của hồi quy tuyến tính, trong đó có nhiều hơn hai thuộc tính và dữ liệu phù hợp với một khu vực đa chiều.
- Phân nhóm - Phân cụm hỗ trợ trong việc xác định các ngoại lệ. Các giá trị giống nhau được tổ chức thành các cụm và những giá trị nằm ngoài cụm được gọi là giá trị ngoại lai.
- Kiểm tra kết hợp giữa máy tính và con người - Các ngoại lệ cũng có thể được nhận ra với sự hỗ trợ của máy tính và con người kiểm tra. Mẫu ngoại lệ có thể là mô tả hoặc rác. Các mẫu có giá trị kinh ngạc có thể được xuất thành danh sách.
Dữ liệu không nhất quán - Sự không nhất quán có thể được ghi lại trong các giao dịch khác nhau, trong quá trình nhập dữ liệu, hoặc phát sinh từ việc tích hợp thông tin từ nhiều cơ sở dữ liệu. Một số điểm dư thừa có thể được nhận ra bằng phân tích tương quan. Tích hợp chính xác và thích hợp dữ liệu từ nhiều nguồn khác nhau có thể giảm và tránh dư thừa.