Mô-đun thống kê của thư viện Python bao gồm các hàm để tính toán các công thức thống kê sử dụng kiểu dữ liệu số bao gồm kiểu Phân số và Thập phân.
Cần có câu lệnh nhập sau để sử dụng các chức năng được mô tả trong bài viết này.
>>> from statistics import *
Các hàm sau tính toán xu hướng trung tâm của dữ liệu mẫu.
mean () - Hàm này tính toán giá trị trung bình cộng của dữ liệu dưới dạng chuỗi hoặc biến lặp.
>>> from statistics import mean >>> numbers = [12,34,21,7,56] >>> mean(numbers) 26
Dữ liệu mẫu có thể chứa đối tượng Thập phân hoặc đối tượng Phân số
>>> from decimal import Decimal >>> numbers = [12,34,21,Decimal('7'),56] >>> mean(numbers) Decimal('26') >>> from fractions import Fraction >>> numbers = [12,20.55,Fraction(4,5),21,56] >>> mean(numbers) 22.07
harmonic_mean () - Trung bình hài được tính bằng cách lấy trung bình cộng của nghịch đảo của các phần tử trong dữ liệu mẫu và sau đó lấy nghịch đảo của chính trung bình số học đó.
Mẫu =[1,2,3,4,5]
Đối ứng =[1/1, 1/2, 1/3, 1/4, 1/5] =2,28333333333
trung bình =2.28333333333 / 5 =0. 45666666666666667
Trung bình hài =1/45666666666666667 =2,189784218663093
>>> harmonic_mean([1,2,3,4,5]) 2.18978102189781
trung vị () - Trung vị là giá trị giữa của dữ liệu mẫu. Dữ liệu được sắp xếp tự động theo thứ tự tăng dần để tìm trung vị. Nếu số phần tử là lẻ, giá trị trung vị là giá trị giữa. Nếu số đếm là số lẻ, giá trị trung bình của hai số ở giữa là số trung vị.
>>> median([2,5,4,8,6]) 5 >>> median([11,33,66,55,88,22]) 44.0
mode () - Hàm này trả về giá trị chung nhất trong mẫu. Chức năng này có thể được áp dụng cho dữ liệu số hoặc không phải số.
>>> mode((4,7,8,4,9,7,12,4,8)) 4 >>> mode(['cc','aa','dd','cc','ff','cc']) 'cc'
Hàm sau giải quyết độ phân tán của các phần tử trong mẫu từ giá trị trung tâm.
phương sai () - Chức năng này phản ánh sự biến đổi hoặc phân tán của dữ liệu trong mẫu. Phương sai lớn có nghĩa là dữ liệu bị phân tán. Phương sai nhỏ hơn cho thấy rằng dữ liệu được nhóm chặt chẽ.
Sau đây là quy trình để tìm phương sai
- Tìm trung bình cộng của tất cả các phần tử trong mẫu.
- Tìm bình phương của sự khác biệt giữa giá trị trung bình và mỗi phần tử và thêm các bình phương.
- Chia tổng cho n-1 nếu kích thước mẫu là n để có phương sai
Về mặt toán học, quy trình trên được biểu diễn bằng công thức sau -
$$ s ^ 2 =\ frac {1} {n-1} \ displaystyle \ displaystyle \ sum \ limit_ {i =1} ^ n (x_ {i} - \ overline {x}) ^ 2 $$
Rất may, hàm variance () thực hiện tính toán công thức trên cho bạn.
>>> num = [4, 9, 2, 11, 5, 22, 90, 32, 56, 70] >>> variance(num) 981.2111111111111
stdev () - Hàm này trả về độ lệch chuẩn của dữ liệu trong mẫu. Độ lệch chuẩn là căn bậc hai của phương sai.
>>> num = [4, 9, 2, 11, 5, 22, 90, 32, 56, 70] >>> stdev(num) 31.324289474960338