AI tools-ai 20 thg 6, 2026 6 phút đọc

TRL Tăng Tốc Nhờ Continuous Batching: GRPO Trở Nên Nhanh Hơn, Hiệu Quả Bộ Nhớ Hơn! 🚀💡

Tính năng Continuous Batching mới đã được tích hợp vào TRL cho các rollout GRPO, mang lại khả năng tạo sinh dữ liệu nhanh hơn, tối ưu bộ nhớ và hoạt động nội bộ, loại bỏ nhu cầu về các công cụ bên ngoài như vLLM.

Tier 1 · nguồn 99% độ tin cậy Auto-priority

Nguồn gốc x.com

Tính năng Continuous Batching (CB) đã chính thức được tích hợp vào thư viện TRL (Transformer Reinforcement Learning) cho các quy trình rollout của GRPO (Group Relative Policy Optimization). Đây là một cải tiến đáng kể, mang lại đường dẫn tạo sinh nhanh chóng, tối ưu bộ nhớ và hoạt động trực tiếp trong quá trình huấn luyện, ngay bên trong thư viện transformers, loại bỏ hoàn toàn sự phụ thuộc vào các engine bên ngoài như vLLM hay các cơ chế đồng bộ trọng số phức tạp. ✨

💡 Lợi Ích Cốt Lõi: Lấp Đầy Khoảng Trống

Trong Reinforcement Learning trực tuyến, quá trình tạo sinh dữ liệu (rollouts) chiếm phần lớn tài nguyên và là khâu tốn kém nhất trong vòng lặp huấn luyện. Trước đây, người dùng TRL chỉ có hai lựa chọn chính:

1. generate() mặc định: Đơn giản và hoạt động nội bộ, nhưng cực kỳ lãng phí tài nguyên khi số lượng tạo sinh ($N$) lớn. 2. vLLM: Cực nhanh, nhưng đòi hỏi phải quản lý một engine suy luận riêng biệt (dưới dạng server độc lập hoặc đồng vị trí trên GPU huấn luyện) và phải đồng bộ trọng số giữa hai bản sao của mô hình, gây phức tạp.

Continuous Batching ra đời để lấp đầy khoảng trống này! Nó cung cấp một đường dẫn tạo sinh nội bộ, không lãng phí tính toán hay bộ nhớ ở số lượng $N$ cao, sử dụng trực tiếp thư viện transformers mà không hề có chi phí đồng bộ trọng số nào. Thật tiện lợi! 🚀

🛠️ Cách Kích Hoạt Tính Năng

Việc kích hoạt Continuous Batching vô cùng đơn giản, chỉ với một cờ cấu hình duy nhất trong GRPOConfig (và cả RLOOTrainer):

python GRPOConfig( use_transformers_continuous_batching=True, transformers_continuous_batching_config={ "use_cuda_graph": False, "max_memory_percent": 0.4, # Để lại không gian cho backward pass }, )

#### ⚙️ Các Tham Số Cấu Hình Quan Trọng:

* max_memory_percent: Mặc định là 0.5 trong TRL (thấp hơn 0.9 mặc định của transformers) để dành VRAM cho quá trình backward pass. Để tránh lỗi Out-Of-Memory (OOM) hoặc khi dùng batch lớn, hãy giảm giá trị này xuống 0.3 hoặc 0.4. * use_cuda_graph: Đặt là False vì trọng số mô hình thay đổi động ở mỗi bước huấn luyện.

📊 Hiệu Suất & Thử Nghiệm Thực Tế

Thiết lập: GPU A100 (80GB), mô hình Llama-3.2-1B-Instruct, tập dữ liệu GSM8K.

#### 🔄 Hiện Tượng Đảo Ngược VRAM Đầy Thú Vị

Ở $N=64$, generate() mặc định sẽ phân bổ bộ nhớ cache KV cho toàn bộ 64 chuỗi với độ dài tối đa ngay lập tức. Ngược lại, Continuous Batching cấp phát trước một phần VRAM trống cố định và tái chế các slot một cách linh hoạt khi từng chuỗi hoàn thành. Điều này giúp nó nhanh hơn và nhẹ hơn đáng kể ở các kích thước batch lớn. Thật ấn tượng! 🚀🧠

🗺️ Hướng Dẫn Quyết Định: Khi Nào Nên Dùng Gì?

🐞 Sửa Lỗi Quan Trọng & Yêu Cầu Hệ Thống

* Khắc Phục Logprobs: Đường dẫn use_transformers_paged cũ đã âm thầm đặt logprobs thành None, bỏ qua việc điều chỉnh lấy mẫu quan trọng. Đường dẫn Continuous Batching mới sẽ thu thập logprobs từ đầu ra của mô hình một cách chính xác, đảm bảo việc điều chỉnh này hoạt động như mong đợi. 💪 Lưu ý: Các cấu hình use_transformers_paged=True hiện có sẽ tự động chuyển tiếp sang cờ mới kèm theo cảnh báo. * Yêu cầu: Cần transformers>=5.8.0.

🚀 Cài Đặt

Tính năng này hiện có sẵn trên nhánh main của TRL và sẽ được phát hành trong bản chính thức tiếp theo. Bạn có thể cài đặt từ nguồn bằng cách:

bash pip install git+https://github.com/huggingface/trl.git

🔮 Lộ Trình Phát Triển Tương Lai

Vì triển khai này dựa trực tiếp vào engine Continuous Batching của transformers (không fork hay đồng bộ trọng số), mọi cải tiến từ transformers sẽ ngay lập tức mang lại lợi ích cho TRL. Chúng ta có thể mong đợi:

* Async GRPO: Continuous Batching cho GRPO không đồng bộ hiện đang được phát triển (PR #5781). * Nâng cấp từ transformers: Một bản cập nhật transformers sắp tới (PR #46712) sẽ cấu trúc lại bộ ước tính cache để cho phép các batch prefill lớn hơn nhiều, giúp tăng đáng kể thông lượng GRPO. Thật hứa hẹn! 📈

🔗 Tài Nguyên Tham Khảo

* Pull Request: TRL PR #5765 * Tập lệnh ví dụ: examples/scripts/grpo_continuous_batching.py * Chi tiết Benchmark: Benchmark Details * Tìm hiểu sâu hơn: How Continuous Batching Works & Asynchronous Continuous Batching