XGBoost & LightGBM: Tối ưu cho các bài toán về cây quyết định gradient boosting

XGBoost & LightGBM

Mục tiêu: Giải quyết hiệu quả các bài toán học máy với thuật toán Gradient Boosting dựa trên cây quyết định — nổi bật với tốc độ huấn luyện nhanh và độ chính xác cao.

🌳 XGBoost (Extreme Gradient Boosting)

Thư viện mạnh mẽ, tối ưu hóa thuật toán boosting truyền thống.
Hỗ trợ xử lý giá trị thiếu, regularization (L1/L2), song song hóa (parallel computing).
Được sử dụng rộng rãi trong các cuộc thi Kaggle nhờ hiệu năng vượt trội.

⚡ LightGBM (Light Gradient Boosting Machine)

Phát triển bởi Microsoft, tập trung vào hiệu suất với tập dữ liệu lớn.
Áp dụng kỹ thuật Histogram-based learning và Leaf-wise growth, giúp tăng tốc độ và giảm tiêu thụ bộ nhớ.
Tích hợp tốt với Pandas, NumPy và Scikit-learn.

✅ Ưu điểm chung

Dễ tích hợp vào pipeline học máy hiện đại.
Hỗ trợ các bài toán: phân loại, hồi quy, xếp hạng, phát hiện bất thường,...
Được tối ưu hóa cho GPU (đặc biệt LightGBM).

Ví dụ với XGBoost:

import xgboost as xgb
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Dữ liệu mẫu
data = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2)

# Mô hình
model = xgb.XGBClassifier()
model.fit(X_train, y_train)

# Dự đoán & đánh giá
y_pred = model.predict(X_test)
print("Độ chính xác:", accuracy_score(y_test, y_pred))

PreviousScikit-learn: Một thư viện toàn diện cho các thuật toán học máy cơ bản (phân loại, hồi quy, cụm)NextCatBoost: Một thư viện boosting hiệu quả do Yandex phát triển, tốt cho dữ liệu chứa các đặc trưng...

Last updated 3 months ago

Was this helpful?