Bỏ qua đến nội dung chính
Về trang chủ
AI tools-ai 2 phút đọc

Hugging Face ra mắt Delta Weight Sync tối ưu hóa huấn luyện RL ⚡

Công nghệ Delta Weight Sync mới của Hugging Face giúp giảm dung lượng truyền tải mô hình RL tới 98% bằng cách chỉ gửi các trọng số thay đổi qua bộ lưu trữ đám mây.

Tier 1 · nguồn 99% độ tin cậy Auto-priority
Nguồn gốc huggingface.co

Hugging Face vừa công bố giải pháp Delta Weight Sync tích hợp trong thư viện TRL (Transformer Reinforcement Learning), giải quyết nút thắt cổ chai truyền tải dữ liệu trong huấn luyện học tăng cường (RL) không đồng bộ. Công nghệ này cho phép các hệ thống chỉ truyền phần trọng số thay đổi giữa các bước huấn luyện, giảm đáng kể thời gian nhàn rỗi của GPU.

Bối cảnh

Trong huấn luyện RL không đồng bộ truyền thống, bộ huấn luyện (trainer) phải gửi toàn bộ mô hình sang công cụ suy luận (inference engine) sau mỗi bước tối ưu hóa. Với một mô hình 7 tỷ tham số (7B), dung lượng này lên tới 14 GB, và có thể đạt mức 1 TB đối với các mô hình siêu lớn. Theo Hugging Face, việc nghẽn mạng này buộc các GPU suy luận phải tạm dừng hoạt động để chờ đợi, gây lãng phí tài nguyên tính toán nghiêm trọng.

Diễn biến

Dựa trên nghiên cứu thực nghiệm từ PULSE và Fireworks AI, Hugging Face phát hiện ra rằng khoảng 99% trọng số định dạng bf16 không hề thay đổi giữa hai bước tối ưu hóa RL liên tiếp do cơ chế làm tròn số. Giải pháp Delta Weight Sync tận dụng đặc tính này bằng cách chỉ mã hóa các phần tử thay đổi thành một tệp "sparse safetensors" siêu nhỏ, sau đó tải lên Hugging Face Bucket. Trong thử nghiệm thực tế với mô hình Qwen3-0.6B, dung lượng truyền tải mỗi bước đã giảm từ 1,2 GB xuống chỉ còn khoảng 20 đến 35 MB.

Vì sao đáng chú ý

Phương pháp mới mở ra cơ hội huấn luyện các mô hình AI lớn theo mô hình phân tán mà không cần đến hạ tầng siêu máy tính đắt đỏ hay mạng RDMA chuyên dụng. Lần đầu tiên, các nhà phát triển tại Việt Nam có thể chạy bộ huấn luyện trên một máy tính cá nhân và đặt các bản sao suy luận (rollout server) trên Hugging Face Spaces giá rẻ, kết nối với nhau chỉ qua một bộ lưu trữ đám mây duy nhất.