Computer >> Máy Tính >  >> Lập trình >> Lập trình

Các thước đo thống kê trong cơ sở dữ liệu lớn là gì?

Hệ thống cơ sở dữ liệu quan hệ hỗ trợ năm hàm tổng hợp được tích hợp sẵn như count (), sum (), avg (), max () và min (). Các hàm tổng hợp này có thể được sử dụng như các thước đo cơ bản trong khai thác mô tả thông tin đa chiều. Có hai thước đo thống kê mô tả như thước đo xu hướng trung tâm và thước đo độ phân tán dữ liệu có thể được sử dụng hiệu quả trong cơ sở dữ liệu đa chiều cao.

Các thước đo về xu hướng trung tâm - Các thước đo về xu hướng trung tâm như trung bình, trung bình, chế độ và trung bình.

Trung bình - Trung bình cộng được đánh giá đơn giản bằng cách chèn tất cả các giá trị lại với nhau và tách chúng theo số giá trị. Nó sử dụng dữ liệu từ mọi giá trị đơn lẻ. Hãy x 1 , x 2 , ... x n là một tập hợp các giá trị N hoặc các quan sát như tiền lương. Giá trị trung bình của bộ giá trị này là

$$ \ mathrm {X ^ \ prime \:=\:\ frac {\ sum_ {i =1} ^ N \:X_i} {N} \:=\:\ frac {X_1 + X_2 \:\ dotm \:X_n} {N}} $$

Điều này tương ứng với hàm tổng hợp đã lắp ráp, trung bình (avg ()) được hỗ trợ trong hệ thống cơ sở dữ liệu quan hệ. Trong một số khối dữ liệu, tổng và đếm được lưu trong tính toán trước. Do đó, việc lấy ra giá trị trung bình rất đơn giản.

$ \ mathrm {average \:=\:\ frac {sum} {count}} $

Trung vị - Có hai phương pháp để tính giá trị trung bình, dựa trên sự phân phối các giá trị.

Nếu x 1 , x 2 , .... x n được sắp xếp theo thứ tự giảm dần và n là số lẻ. Do đó, giá trị trung bình là

$$ \ mathrm {\ left (\ frac {n + 1} {2} \ right) ^ {th} \:value} $$

Ví dụ:1, 4, 6, 7, 12, 14, 18

Trung vị =7

Khi n chẵn. Khi đó, mức trung bình là

$$ \ mathrm {\ frac {\ left (\ frac {n} {2} \ right) ^ {th} value \:+ \:\ left (\ frac {n} {2} \:+ \:1 \ phải) ^ {th} value} {2}} $$

Ví dụ:1, 4, 6, 7, 8, 12, 14, 16.

$$ \ mathrm {Trung vị \:=\:\ frac {7 + 8} {2} \:=\:7.5} $$

Trung vị không phải là thước đo phân phối cũng không phải là thước đo đại số, nó là thước đo tổng thể. Mặc dù không chỉ đơn giản là đánh giá giá trị trung bình chính xác trong một cơ sở dữ liệu khổng lồ, nhưng giá trị trung bình gần đúng có thể được tính toán một cách hiệu quả.

Chế độ - Đây là giá trị chung nhất trong một tập hợp các giá trị. Phân phối có thể là đơn phương thức, hai phương thức hoặc đa phương thức. Nếu dữ liệu là phân loại (được đo trên thang danh nghĩa) thì chỉ chế độ mới có thể được tính toán. Chế độ này cũng có thể được tính toán với dữ liệu thứ tự và cao hơn, nhưng nó không phù hợp.

Đo lường mức độ phân tán của dữ liệu - Mức độ mà thông tin số có xu hướng lan truyền được gọi là độ phân tán hoặc phương sai của dữ liệu. Các biện pháp phân tán dữ liệu thường xuyên nhất là phạm vi, phạm vi liên phần phân vị và dẫn xuất tiêu chuẩn.

Phạm vi - Phạm vi được biểu thị bằng hiệu giữa giá trị lớn nhất và giá trị nhỏ nhất trong tập dữ liệu.

$$ \ mathrm {Range \:=\:X_L-X_S} $$

Ở đâu

$ \ mathrm {X_L \:\ rightarrow \:giá trị lớn nhất} $

$ \ mathrm {X_S \:\ rightarrow \:giá trị nhỏ nhất} $

Phần tư - Phần trăm phổ biến nhất ngoài số trung vị là phần tư. Phần tư đầu tiên được chỉ ra bởi Q 1 thứ 25 phân vị, phần tư thứ ba được chỉ ra bởi Q 3 thứ 75 phân vị. Các phần tư có chứa trung vị, cung cấp một số dấu hiệu về trung tâm, độ lan truyền và hình dạng của một phần tư là một phép đo đơn giản về mức chênh lệch cung cấp phạm vi được bao phủ bởi nửa giữa của dữ liệu. Đây được gọi là phạm vi liên phần tư (IQR) và được định nghĩa là -

$$ \ mathrm {IQR \:=\:Q_ {3} -Q_ {1}} $$

Độ lệch chuẩn - Khi các giá trị độ lệch được bình phương theo phương sai, đơn vị đo lường của chúng cũng được bình phương.