Khi chạy chương trình python, chúng ta cần sử dụng bộ dữ liệu để phân tích dữ liệu. Python có các mô-đun khác nhau giúp chúng tôi nhập dữ liệu bên ngoài ở các định dạng tệp khác nhau vào một chương trình python. Trong ví dụ này, chúng ta sẽ thấy cách nhập dữ liệu có nhiều định dạng khác nhau vào một chương trình python.
Nhập tệp csv
Mô-đun csv cho phép chúng tôi đọc từng hàng trong tệp bằng cách sử dụng dấu phẩy làm dấu phân cách. Đầu tiên, chúng tôi mở tệp ở chế độ chỉ đọc và sau đó gán dấu phân cách. Cuối cùng, sử dụng vòng lặp for để đọc từng hàng từ tệp csv.
Ví dụ
import csv with open("E:\\customers.csv",'r') as custfile: rows=csv.reader(custfile,delimiter=',') for r in rows: print(r)
Đầu ra
Chạy đoạn mã trên cho chúng ta kết quả sau -
['customerID', 'gender', 'Contract', 'PaperlessBilling', 'Churn'] ['7590-VHVEG', 'Female', 'Month-to-month', 'Yes', 'No'] ['5575-GNVDE', 'Male', 'One year', 'No', 'No'] ['3668-QPYBK', 'Male', 'Month-to-month', 'Yes', 'Yes'] ['7795-CFOCW', 'Male', 'One year', 'No', 'No'] …… …….
Với gấu trúc
Thư viện gấu trúc thực sự có thể xử lý hầu hết các loại tệp bao gồm tệp csv. Trong chương trình này, hãy xem cách thư viện gấu trúc xử lý tệp excel bằng mô-đun read_excel. Trong ví dụ dưới đây, chúng tôi đọc phiên bản excel của tệp ở trên và nhận được kết quả tương tự khi chúng tôi đọc tệp.
Ví dụ
import pandas as pd df = pd.ExcelFile("E:\\customers.xlsx") data=df.parse("customers") print(data.head(10))
Đầu ra
Chạy đoạn mã trên cho chúng ta kết quả sau -
customerID gender Contract PaperlessBilling Churn 0 7590-VHVEG Female Month-to-month Yes No 1 5575-GNVDE Male One year No No 2 3668-QPYBK Male Month-to-month Yes Yes 3 7795-CFOCW Male One year No No 4 9237-HQITU Female Month-to-month Yes Yes 5 9305-CDSKC Female Month-to-month Yes Yes 6 1452-KIOVK Male Month-to-month Yes No 7 6713-OKOMC Female Month-to-month No No 8 7892-POOKP Female Month-to-month Yes Yes 9 6388-TABGU Male One year No No
Với pyodbc
Chúng tôi cũng có thể kết nối với các máy chủ cơ sở dữ liệu bằng cách sử dụng một mô-đun có tên là pyodbc. Điều này sẽ giúp chúng tôi nhập dữ liệu từ các nguồn quan hệ bằng cách sử dụng truy vấn sql. Tất nhiên, chúng tôi cũng phải xác định chi tiết kết nối tới db trước khi chuyển truy vấn.
Ví dụ
import pyodbc sql_conn = pyodbc.connect("Driver={SQL Server};Server=serverName;UID=UserName;PWD=Password;Database=sqldb;") data_sql = pd.read_sql_query(SQL QUERY’, sql_conn) data_sql.head()
Đầu ra
Tùy thuộc vào truy vấn SQL, kết quả sẽ được hiển thị.