Computer >> Máy Tính >  >> Lập trình >> Python

Tương quan giữa hai cột số trong Pandas DataFrame

Chúng tôi có thể sử dụng pandas.DataFrame.corr để tính toán mối tương quan theo cặp của các cột, ngoại trừ giá trị NULL. Hệ số tương quan cho biết mức độ liên kết tuyến tính giữa hai biến. Hệ số nằm trong khoảng từ -1 đến 1.

Để có được mối tương quan giữa hai cột số trong khung dữ liệu Pandas, chúng ta có thể thực hiện các bước sau -

  • Đặt kích thước hình và điều chỉnh phần đệm giữa và xung quanh các ô phụ.
  • Tạo khung dữ liệu Pandas gồm dữ liệu dạng bảng hai chiều, có thể thay đổi kích thước, có khả năng không đồng nhất.
  • So sánh các giá trị của hai cột và tính toán hệ số tương quan bằng cách sử dụng col1.corr (col2).
  • In hệ số tương quan trên bảng điều khiển.
  • Để hiển thị hình này, hãy sử dụng show () phương pháp.

Ví dụ

import pandas as pd
from matplotlib import pyplot as plt

plt.rcParams["figure.figsize"] = [7.00, 3.50]
plt.rcParams["figure.autolayout"] = True

df = pd.DataFrame({'lab': [1, 2, 3], 'value': [3, 4, 5]})

col1 = df['lab']
col2 = df['value']

plt.plot(col1, col2)

print("The correlation coefficient is: ", col1.corr(col2))

plt.show()

Đầu ra

Nó sẽ tạo ra kết quả sau

The correlation coefficient is: 1.0

Tương quan giữa hai cột số trong Pandas DataFrame Tương quan giữa hai cột số trong Pandas DataFrame

Ở đây, hệ số tương quan là 1,0 cho thấy mối tương quan hoàn hảo. Do đó, chúng ta nhận được một đường thẳng vì tất cả các điểm đều nằm trên một đường thẳng.