Computer >> Máy Tính >  >> Lập trình >> Lập trình

Ví dụ về tổng quát hóa dữ liệu và tổng quát hóa phân tích là gì?

Tổng quát hóa dữ liệu tóm tắt dữ liệu bằng cách thay thế các giá trị cấp tương đối thấp (bao gồm giá trị số cho tuổi thuộc tính) bằng các khái niệm cấp cao (bao gồm trẻ, trung niên và cao cấp). Do đó, đây là một quá trình tóm tắt một tập hợp khổng lồ thông tin liên quan đến nhiệm vụ trong cơ sở dữ liệu từ mức khái niệm tương đối thấp đến mức khái niệm cao hơn.

Sau đây là hai cách tiếp cận để tổng quát hóa hiệu quả và linh hoạt các tập dữ liệu lớn -

Cách tiếp cận OLAP - Công nghệ khối dữ liệu có thể được coi là một cách tiếp cận dựa trên kho dữ liệu, định hướng tính toán trước, được vật chất hóa. Nó thực hiện tổng hợp ngoại tuyến trước đó một OLAP hoặc truy vấn khai thác dữ liệu được di chuyển để xử lý.

Phương pháp tiếp cận quy nạp hướng thuộc tính - Đây là phương pháp tiếp cận phân tích dữ liệu trực tuyến theo hướng truy vấn, dựa trên tổng quát hóa, cơ sở dữ liệu quan hệ. Trong quy nạp hướng thuộc tính, trước tiên, thông tin liên quan đến nhiệm vụ được thu thập bằng cách sử dụng truy vấn cơ sở dữ liệu quan hệ và sau đó tổng quát hóa được thực hiện dựa trên việc kiểm tra nhiều giá trị riêng biệt của từng thuộc tính trong bộ sưu tập dữ liệu có liên quan.

Tổng quát hóa được thực hiện bằng cách loại bỏ thuộc tính. Bằng cách kết hợp các bộ dữ liệu tổng quát giống hệt nhau và tích lũy số lượng tương ứng của chúng, thực hiện tổng hợp, giảm kích thước của tập dữ liệu tổng quát và bản trình bày tương tác với người dùng.

Các nguyên tắc cơ bản của phương pháp tiếp cận quy nạp hướng thuộc tính -

  • Tập trung vào dữ liệu - Dữ liệu phải liên quan đến nhiệm vụ, chẳng hạn như thứ nguyên và kết quả là mối quan hệ ban đầu.
  • Xóa thuộc tính - Nó có thể chọn tập hợp các thuộc tính có liên quan hoặc loại bỏ các thuộc tính A nếu có một tập hợp lớn các giá trị cụ thể cho A nhưng không có toán tử tổng quát trên A hoặc các khái niệm cấp cao hơn của A được xác định theo các thuộc tính bổ sung.
  • Tổng quát hóa thuộc tính - Nếu có một tập hợp lớn các giá trị khác biệt của A và tồn tại một tập các toán tử tổng quát hóa trên A, thì hãy chọn một toán tử và tổng quát hóa A.
  • Đặc điểm phân tích - Đây là một cách tiếp cận thống kê để xử lý trước dữ liệu để lọc ra các thuộc tính không liên quan hoặc xếp hạng thuộc tính có liên quan. Các biện pháp phân tích mức độ liên quan của thuộc tính có thể được sử dụng để phân tích các thuộc tính không liên quan có thể không được phép từ quy trình mô tả khái niệm. Việc đưa bước tiền xử lý này vào phân tích hoặc so sánh đặc tính của lớp được định nghĩa là một đặc điểm phân tích.

Lý do phân tích mức độ liên quan của thuộc tính

Có một số lý do cho việc phân tích mức độ liên quan của thuộc tính như sau -

  • Nó có thể xác định thứ nguyên nào nên được bao gồm.

  • Nó có thể đạt được mức độ tổng quát hóa cao.

  • Nó có thể làm giảm số lượng thuộc tính hỗ trợ chúng ta hiểu các mẫu một cách dễ dàng.

Khái niệm cơ bản đằng sau phân tích mức độ liên quan của thuộc tính là đánh giá một số thước đo có thể tính toán mức độ liên quan của một thuộc tính liên quan đến một lớp hoặc cách tiếp cận nhất định. Các biện pháp như vậy liên quan đến thu thập thông tin, sự không rõ ràng và hệ số tương quan.