Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các phép biến đổi khai thác dữ liệu là gì?

Khai phá dữ liệu là quá trình tìm kiếm các mối tương quan, các mẫu và xu hướng mới hữu ích bằng cách chuyển qua một lượng lớn dữ liệu được lưu trong các kho lưu trữ, sử dụng các công nghệ nhận dạng mẫu bao gồm các kỹ thuật thống kê và toán học. Đó là việc phân tích các tập dữ liệu thực tế để phát hiện ra các mối quan hệ không đáng nghi ngờ và để tóm tắt các bản ghi theo các phương pháp mới vừa hợp lý vừa hữu ích cho chủ sở hữu dữ liệu.

Có nhiều cách chuyển đổi khác nhau của khai thác dữ liệu như sau -

Gắn cờ sự thật bình thường, bất thường, vượt quá giới hạn hoặc không thể xảy ra - Đánh dấu các dữ kiện đo được bằng các cờ đặc biệt có thể hoàn toàn có lợi. Một số dữ kiện đo được có thể đúng nhưng rất bất thường. Có lẽ những dữ kiện này được thiết lập trên một mẫu nhỏ hoặc một tình huống cụ thể.

Các dữ kiện khác có thể có trong dữ liệu nhưng phải được coi là không thể hoặc không thể giải thích được. Đối với mỗi trường hợp này, tốt hơn nên đánh dấu dữ liệu bằng cờ trạng thái để có thể hạn chế dữ liệu vào hoặc ra khỏi phân tích, hơn là xóa giá trị bất thường khỏi bảng.

Một cách tốt để xử lý những trường hợp này là tạo thứ nguyên trạng thái dữ liệu đặc biệt cho bản ghi dữ kiện. Nó có thể cần thứ nguyên này như một ràng buộc và để xác định trạng thái của mỗi sự kiện.

Nhận ra các giá trị ngẫu nhiên hoặc nhiễu từ ngữ cảnh và che khuất - Một trường hợp đặc biệt của phép biến đổi trước là nhận ra khi hệ thống kế thừa đã cung cấp một số ngẫu nhiên chứ không phải là một dữ kiện thực. Điều này có thể xảy ra khi không có giá trị nào được hệ thống kế thừa phân phối, nhưng một số còn lại trong bộ đệm đã được chuyển vào kho dữ liệu. Khi trường hợp này được xác định, số ngẫu nhiên sẽ được khôi phục với giá trị rỗng.

Áp dụng cách xử lý thống nhất cho các giá trị rỗng - Các công cụ khai thác dữ liệu nhạy cảm với sự phân biệt giữa “không thể tồn tại” và “tồn tại nhưng không xác định”. Một số chuyên gia khai thác dữ liệu chỉ định giá trị trung bình hoặc có thể xảy ra nhất trong trường hợp thứ hai để phần còn lại của bản ghi bảng dữ liệu có thể tham gia vào phân tích.

Điều này có thể được thực hiện trong dữ liệu gốc bằng cách ghi đè giá trị null với giá trị ước tính hoặc nó có thể được xử lý bằng một công cụ khai thác dữ liệu tinh vi biết cách xử lý dữ liệu rỗng với các tùy chọn phân tích khác nhau.

Gắn cờ hồ sơ dữ kiện có trạng thái đã thay đổi - Một chuyển đổi dữ liệu hữu ích là thêm chỉ báo trạng thái đặc biệt vào bản ghi bảng dữ kiện để cho thấy trạng thái của tài khoản đó (hoặc khách hàng hoặc sản phẩm hoặc vị trí) vừa thay đổi hoặc sắp thay đổi. Chỉ báo trạng thái được triển khai dưới dạng thứ nguyên trạng thái trong thiết kế kết hợp dấu sao.