Dask: Xử lý dữ liệu lớn trên cluster
Dask: Xử lý dữ liệu lớn trên cụm máy (cluster)
import dask.dataframe as dd
# Đọc dữ liệu từ file CSV (tương tự Pandas nhưng chia nhỏ xử lý)
df = dd.read_csv('big_data.csv')
# Tính toán trung bình một cột
mean_val = df['price'].mean().compute()
print("Giá trung bình:", mean_val)Last updated
