Computer >> Máy Tính >  >> Lập trình >> Lập trình

Tiết kiệm dữ liệu là gì?

Kỹ thuật tách rời dữ liệu có thể được sử dụng để giảm số lượng giá trị cho một thuộc tính liên tục nhất định bằng cách chia phạm vi của thuộc tính thành các khoảng. Các nhãn khoảng thời gian có thể được sử dụng để khôi phục các giá trị dữ liệu thực tế. Nó có thể khôi phục nhiều giá trị của một thuộc tính liên tục với một số lượng nhỏ các nhãn khoảng thời gian, do đó làm giảm và đơn giản hóa thông tin ban đầu.

Điều này dẫn đến việc trình bày các kết quả khai thác ở cấp độ kiến ​​thức ngắn gọn, dễ sử dụng. Các kỹ thuật tùy chỉnh có thể được phân loại tùy thuộc vào cách thức thực hiện tùy chỉnh, chẳng hạn như liệu nó có sử dụng dữ liệu lớp hay không hay nó tiến hành theo hướng nào (tức là từ trên xuống so với từ dưới lên). Nếu quá trình tùy chỉnh sử dụng dữ liệu lớp, thì có thể nói đó là tùy chỉnh có giám sát. Do đó, nó không được giám sát.

Nếu quá trình bắt đầu bằng cách khám phá trước tiên một hoặc một vài điểm (được gọi là điểm tách hoặc điểm cắt) để chia toàn bộ phạm vi thuộc tính, rồi tiếp tục điều này một cách đệ quy trên các khoảng kết quả, thì nó được gọi là tùy chỉnh từ trên xuống hoặc phân tách.

Trong tùy biến hoặc hợp nhất từ ​​dưới lên, nó có thể bắt đầu bằng cách coi tất cả các giá trị liên tục là điểm phân tách tiềm năng, loại bỏ một số bằng cách hợp nhất các giá trị lân cận để tạo thành các khoảng và sau đó áp dụng đệ quy quy trình này cho các khoảng kết quả. Sự tiết chế có thể được thực hiện một cách đệ quy trên một thuộc tính để hỗ trợ phân vùng theo thứ bậc hoặc đa độ phân giải của các giá trị thuộc tính, được gọi là phân cấp khái niệm.

Phân cấp khái niệm rất hữu ích cho việc khai thác ở nhiều cấp độ trừu tượng. Hệ thống phân cấp khái niệm cho một thuộc tính số nhất định thể hiện sự tùy tiện của thuộc tính. Phân cấp khái niệm có thể được sử dụng để giảm dữ liệu bằng cách thu thập và khôi phục các khái niệm cấp thấp (bao gồm các giá trị số cho độ tuổi thuộc tính) với các khái niệm cấp cao hơn (bao gồm thanh niên, trung niên hoặc cao cấp). Mặc dù chi tiết bị ẩn bởi tính năng tổng quát hóa dữ liệu như vậy, nhưng dữ liệu tổng quát hóa có thể có ý nghĩa hơn và thực thi đơn giản hơn.

Điều này cung cấp một mô tả nhất quán về kết quả khai thác dữ liệu giữa một số tác vụ khai thác, đây là một yêu cầu phổ biến. Ngoài ra, khai thác trên tập dữ liệu giảm cần ít hoạt động đầu vào / đầu ra hơn và có nhiều khả năng hơn khai thác trên tập dữ liệu không tập trung cao hơn. Do những ưu điểm này, các kỹ thuật tùy chỉnh và phân cấp khái niệm thường được sử dụng trước khi khai thác dữ liệu như một bước tiền xử lý, thay vì trong quá trình khai thác.

Một số phương pháp tùy chỉnh có thể được sử dụng để tự động tạo hoặc tinh chỉnh động cấu trúc phân cấp khái niệm cho các thuộc tính số. Ngoài ra, nhiều cấu trúc phân cấp cho các thuộc tính phân loại được ẩn bên trong thiết kế cơ sở dữ liệu và có thể được biểu diễn tự động ở cấp độ định nghĩa lược đồ.