Computer >> Máy Tính >  >> Lập trình >> Python

Làm thế nào để sử dụng Matplotlib để vẽ các kết quả PySpark SQL?


Để sử dụng Matplotlib để vẽ biểu đồ PySpark SQL kết quả , chúng ta có thể thực hiện các bước sau đây−

  • Đặt kích thước hình và điều chỉnh phần đệm giữa và xung quanh các ô phụ.
  • Lấy ví dụ là Điểm truy cập chính cho chức năng Spark.
  • Lấy ví dụ về một biến thể của Spark SQL tích hợp với dữ liệu được lưu trữ trong Hive.
  • Tạo danh sách các bản ghi dưới dạng một bộ.
  • Phân phối một bộ sưu tập Python cục bộ để tạo thành một RDD.
  • Ánh xạ bản ghi danh sách dưới dạng lược đồ DB.
  • Nhận phiên bản giản đồ để tạo mục nhập vào "my_table".
  • Chèn bản ghi vào bảng.
  • Đọc truy vấn SQL, truy xuất bản ghi.
  • Chuyển đổi bản ghi đã tìm nạp thành khung dữ liệu.
  • Đặt chỉ mục bằng tên thuộc tính và vẽ biểu đồ của chúng.
  • Để hiển thị hình này, hãy sử dụng show () phương pháp.

Ví dụ

from pyspark.sql import Row
from pyspark.sql import HiveContext
import pyspark
import matplotlib.pyplot as plt

plt.rcParams["figure.figsize"] = [7.50, 3.50]
plt.rcParams["figure.autolayout"] = True

sc = pyspark.SparkContext()
sqlContext = HiveContext(sc)

test_list = [(1, 'John'), (2, 'James'), (3, 'Jack'), (4, 'Joe')]
rdd = sc.parallelize(test_list)
people = rdd.map(lambda x: Row(id=int(x[0]), name=x[1]))
schemaPeople = sqlContext.createDataFrame(people)
sqlContext.registerDataFrameAsTable(schemaPeople, "my_table")

df = sqlContext.sql("Select * from my_table")
df = df.toPandas()
df.set_index('name').plot()

plt.show()

Đầu ra

Làm thế nào để sử dụng Matplotlib để vẽ các kết quả PySpark SQL?