Page cover

PyTorch/TensorFlow (CV): Hỗ trợ phát triển các mô hình thị giác như YOLO, ResNet

PyTorch / TensorFlow trong Thị giác máy tính

Mục tiêu: Hai framework học sâu hàng đầu – PyTorchTensorFlow – cung cấp nền tảng mạnh mẽ để xây dựng, huấn luyện và triển khai các mô hình thị giác máy hiện đại như YOLO, ResNet, EfficientNet, VGG, v.v.

🔍 Đặc điểm nổi bật:

  • PyTorch: Linh hoạt, cú pháp gần với Python gốc, rất phù hợp với nghiên cứu và phát triển nhanh mô hình.

  • TensorFlow: Ổn định, hiệu suất cao, dễ triển khai mô hình vào môi trường thực tế (mobile, web, cloud).

  • Hỗ trợ thư viện TorchvisionTensorFlow Hub/Keras Applications với các mô hình pretrained cho tác vụ thị giác.

📸 Ứng dụng trong Computer Vision:

  • Phân loại ảnh (Image Classification) – nhận biết hình ảnh thuộc nhóm nào.

  • Phát hiện vật thể (Object Detection) – ví dụ: YOLOv5, SSD, Faster R-CNN.

  • Phân đoạn ảnh (Image Segmentation) – ví dụ: U-Net, Mask R-CNN.

  • Nhận diện khuôn mặt, OCR (nhận dạng ký tự quang học), v.v.


🔧 Ví dụ: Phân loại ảnh đơn giản bằng mô hình ResNet với PyTorch

import torchvision.models as models
import torch
from torchvision import transforms
from PIL import Image

# Tải mô hình ResNet đã huấn luyện
model = models.resnet18(pretrained=True)
model.eval()

# Tiền xử lý ảnh
img = Image.open("coffee.jpg")
transform = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
])
img_t = transform(img).unsqueeze(0)

# Dự đoán
with torch.no_grad():
    output = model(img_t)
    pred = output.argmax(dim=1)
    print("Ảnh dự đoán thuộc lớp:", pred.item())

Last updated

Was this helpful?