Các biện pháp được tính toán như thế nào trong khai thác dữ liệu?

Các phép đo có thể được tổ chức thành ba yếu tố bao gồm phân phối, đại số và tổng thể. Nó phụ thuộc vào loại hàm tổng hợp được sử dụng.

Phân phối - Một hàm tổng hợp là phân phối nếu nó có thể được tính toán theo cách phân phối như sau. Coi dữ liệu là độc lập thành n bộ. Nó có thể sử dụng dịch vụ cho từng phân vùng, dẫn đến n giá trị tổng hợp.

Nếu kết quả thay đổi bằng cách sử dụng hàm thành n giá trị tổng hợp giống với kết quả thu được bằng cách sử dụng hàm cho toàn bộ tập dữ liệu (không phân vùng), thì hàm có thể được đánh giá theo cách phân tán.

Ví dụ:count () có thể được tính cho một khối dữ liệu bằng cách đầu tiên phân chia khối đó thành một nhóm các ống con, tính count () cho mọi khối con, sau đó tổng cộng các số lượng có được cho mỗi khối con. Do đó, count () là một dịch vụ tổng hợp phân phối.

Một thước đo được phân phối nếu nó có được bằng cách sử dụng một dịch vụ tổng hợp phân phối. Các biện pháp phân phối có thể được tính toán một cách hiệu quả vì chúng có thể được tính toán theo cách phân phối.

Đại số - Một hàm tổng hợp là đại số nếu nó có thể được tính toán bằng một dịch vụ đại số với M đối số (trong đó M là một số nguyên dương có giới hạn), mỗi hàm có được bằng cách sử dụng một dịch vụ tổng hợp phân phối.

Ví dụ:avg () (trung bình) có thể được tính bằng sum () / count (), trong đó cả sum () và count () đều là dịch vụ tổng hợp phân phối. Tương tự, nó có thể được hiển thị rằng min N () và max N () (khám phá N giá trị nhỏ nhất và N giá trị lớn nhất, theo đó, trong một tập hợp nhất định) và độ lệch chuẩn () là các dịch vụ tổng hợp đại số. Một số đo là đại số nếu nó có được bằng cách sử dụng dịch vụ tổng hợp đại số.

Toàn diện - Một hàm tổng hợp là tổng thể nếu không có ràng buộc cố định về kích thước lưu trữ cần thiết để xác định một phân thức con. Nếu không tồn tại một hàm đại số với M đối số (trong đó M là hằng số) mô tả phép tính.

Ví dụ về các hàm tổng thể như median (), mode () và rank (). Một thước đo là tổng thể nếu nó có được bằng cách sử dụng một hàm tổng hợp toàn diện.

Hầu hết các ứng dụng khối dữ liệu lớn cần tính toán hiệu quả các biện pháp phân phối và đại số. Có một số phương pháp hiệu quả cho việc này tồn tại. Ngược lại, rất phức tạp để tính toán các biện pháp tổng thể một cách hiệu quả. Vẫn tồn tại một cách tiếp cận hiệu quả để tính toán gần đúng một số thước đo tổng thể.

Ví dụ:thay vì tính toán trung vị chính xác (), có thể được sử dụng để tính giá trị trung bình gần đúng cho một tập dữ liệu lớn. Trong một số trường hợp, những phương pháp như vậy đủ để khắc phục những khó khăn trong việc tính toán hiệu quả các biện pháp tổng thể.