Page cover

Pandas: Xử lý và phân tích dữ liệu dưới dạng bảng

Pandas

Mục tiêu: Xử lý, phân tích và trực quan hóa dữ liệu dạng bảng (dữ liệu có cấu trúc).

  • Cung cấp hai cấu trúc dữ liệu chính: Series (1 chiều) và DataFrame (2 chiều).

  • Dễ dàng thao tác với dữ liệu dạng CSV, Excel, SQL, JSON,...

  • Hỗ trợ các thao tác lọc, nhóm, gộp, thống kê mô tả và xử lý thiếu dữ liệu.

  • Là công cụ không thể thiếu trong tiền xử lý dữ liệu (data preprocessing) trước khi đưa vào mô hình AI/ML.

Ví dụ cơ bản:

import pandas as pd

# Đọc dữ liệu từ file CSV
df = pd.read_csv('data.csv')

# Xem 5 dòng đầu
print(df.head())

# Lọc dữ liệu theo điều kiện
filtered = df[df['age'] > 25]

# Nhóm và tính trung bình
grouped = df.groupby('gender')['salary'].mean()

Last updated

Was this helpful?