Computer >> Máy Tính >  >> Lập trình >> Python

Làm cách nào để tránh các điểm bị chồng lên nhau khi sử dụng Stripplot trong biểu đồ phân tán phân loại Thư viện Seaborn bằng Python?

Trực quan hóa dữ liệu là một bước quan trọng vì nó giúp hiểu những gì đang diễn ra trong dữ liệu mà không thực sự nhìn vào các con số và thực hiện các phép tính phức tạp. Seaborn là một thư viện giúp trực quan hóa dữ liệu. Nó đi kèm với các chủ đề tùy chỉnh và giao diện cấp cao.

Không thể sử dụng các biểu đồ phân tán, biểu đồ, v.v ... khi các biến cần xử lý có bản chất phân loại. Đây là lúc các biểu đồ phân tán phân loại cần được sử dụng.

Các lô như ‘stripplot’, ‘swarmplot’ được sử dụng để làm việc với các biến phân loại. Hàm 'stripplot' được sử dụng khi ít nhất một trong các biến được phân loại. Dữ liệu được biểu diễn theo cách được sắp xếp dọc theo một trong các trục. Nhưng nhược điểm là một số điểm bị trùng lặp. Đây là nơi tham số 'jitter' phải được sử dụng để tránh sự chồng chéo giữa các biến.

Nó thêm một số nhiễu ngẫu nhiên vào tập dữ liệu và điều chỉnh vị trí của các giá trị dọc theo trục phân loại.

Cú pháp của hàm Stripplot

seaborn.stripplot(x, y,data, jitter = …)

Hãy để chúng tôi xem tham số ‘jitter’ có thể được sử dụng như thế nào để vẽ các biến phân loại trong tập dữ liệu -

Ví dụ

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
my_df = sb.load_dataset('iris')
sb.stripplot(x = "species", y = "petal_length", data = my_df, jitter = True)
plt.show()

Đầu ra

Làm cách nào để tránh các điểm bị chồng lên nhau khi sử dụng Stripplot trong biểu đồ phân tán phân loại Thư viện Seaborn bằng Python?

Giải thích

  • Các gói bắt buộc đã được nhập.
  • Dữ liệu đầu vào là 'iris_data' được tải từ thư viện học scikit.
  • Dữ liệu này được lưu trữ trong một khung dữ liệu.
  • Hàm 'load_dataset' được sử dụng để tải dữ liệu mống mắt.
  • Dữ liệu này được hiển thị trực quan bằng cách sử dụng hàm "stripplot".
  • Một tham số bổ sung có tên 'jitter' được chuyển để tránh trùng lặp các giá trị của tên dữ liệu.
  • Tại đây, khung dữ liệu được cung cấp dưới dạng tham số.
  • Ngoài ra, các giá trị x và y cũng được chỉ định.
  • Dữ liệu này được hiển thị trên bảng điều khiển.