Trong quá trình giảm kích thước, mã hóa hoặc biến đổi dữ liệu được áp dụng để có được sự trình bày giảm hoặc "nén" của dữ liệu gốc. Nếu dữ liệu ban đầu có thể được tái tạo từ dữ liệu nén mà không có bất kỳ lỗi nào về thông tin, thì việc giảm dữ liệu được gọi là mất dữ liệu. Nếu dữ liệu được tạo lại chỉ gần đúng với dữ liệu ban đầu thì việc giảm dữ liệu được gọi là mất mát.
Có hai phương pháp giảm tổn thất như sau -
-
Biến đổi Wavelet - Phép biến đổi Wavelet rời rạc (DWT) là một kỹ thuật xử lý tín hiệu tuyến tính, khi được áp dụng cho một vectơ dữ liệu X, biến nó thành một vectơ khác về số, X ’, của các hệ số wavelet. Hai vectơ có độ dài bằng nhau. Khi sử dụng kỹ thuật này để giảm dữ liệu, nó có thể coi mỗi bộ là một vectơ dữ liệu n chiều, nghĩa là, 𝑋 =(x 1 , x 2 ,… X n ) chỉ ra n phép đo được thực hiện trên bộ từ n thuộc tính cơ sở dữ liệu.
DWT gần như được kết hợp với phép biến đổi Fourier rời rạc (DFT), một kỹ thuật xử lý tín hiệu chứa các sin và cosin. Nói chung, DWT đạt được khả năng nén tổn hao tốt hơn. Đó là nếu cùng một số hệ số được giữ lại cho một DWT và một DFT của một vectơ dữ liệu nhất định, thì phiên bản DWT sẽ cung cấp một giá trị gần đúng chính xác hơn của dữ liệu gốc. Do đó, để có giá trị gần đúng tương đương, DWT yêu cầu ít không gian hơn DFT.
Các phép biến đổi Wavelet có thể được sử dụng cho dữ liệu đa chiều, bao gồm cả một khối dữ liệu. Điều này được thực hiện trước tiên bằng cách áp dụng phép biến đổi cho chiều thứ nhất, sau đó đến chiều thứ hai, v.v. Độ phức tạp tính toán liên quan là tuyến tính đối với số ô trong khối.
Các phép biến đổi Wavelet cho kết quả tốt trên dữ liệu thưa thớt hoặc lệch và dữ liệu có các thuộc tính có thứ tự. Nén mất dữ liệu bằng wavelet được cho là tốt hơn so với nén JPEG, tiêu chuẩn thương mại hiện tại. Các phép biến đổi Wavelet có nhiều ứng dụng trong thế giới thực, bao gồm nén hình ảnh dấu vân tay, tầm nhìn máy tính, phân tích dữ liệu chuỗi thời gian và làm sạch dữ liệu.
-
Phân tích thành phần chính - Phân tích các thành phần chính còn được gọi là phương pháp Karhunen-Loeve, hoặc K-L. Nó có thể tìm kiếm k vectơ trực giao n chiều có thể được sử dụng tốt nhất để biểu diễn dữ liệu, trong đó k ≤ n. Dữ liệu ban đầu được chiếu vào một không gian nhỏ hơn nhiều, dẫn đến giảm kích thước. Nó kết hợp bản chất của các thuộc tính bằng cách tạo ra một tập hợp các biến thay thế nhỏ hơn. Dữ liệu gốc có thể được chiếu vào tập hợp nhỏ hơn này.