Google Ra Mắt DiffusionGemma: Cuộc Cách Mạng Khuếch Tán Trên Mô Hỏi Ngôn Ngữ
Google vừa chính thức công bố DiffusionGemma, một mô hình ngôn ngữ thực nghiệm nguồn mở (Apache 2.0) áp dụng nguyên lý khuếch tán (diffusion) vào việc sinh văn bản ở quy mô sản xuất. Được xây dựng trên nền tảng Gemma 4, đây là mô hình ngôn ngữ khuếch tán đầu tiên được hỗ trợ gốc (native support) bởi nền tảng suy luận nguồn mở vLLM.
Cơ chế sinh text phi tuần tự: Tự sửa lỗi và Bối cảnh hai chiều
Khác với các mô hình ngôn ngữ tự hồi quy (autoregressive) truyền thống hoạt động giống như một máy đánh chữ – gõ từng token một từ trái qua phải và không thể sửa đổi một khi đã viết ra – DiffusionGemma hoạt động theo một mô thức hoàn toàn mới:
1. Khởi tạo canvas nhiễu: Mô hình bắt đầu với một khối gồm 256 token giữ chỗ ngẫu nhiên (placeholder tokens). 2. Khử nhiễu song song: Thay vì sinh tuần tự, mô hình thực hiện nhiều lượt tinh chỉnh (denoising) trên toàn bộ khối 256 token cùng một lúc. 3. Tự sửa lỗi (Self-correction): Ở mỗi lượt, mô hình đánh giá độ tin cậy của từng vị trí token và khóa lại các token có độ tự tin cao. Các vị trí không chắc chắn sẽ được ngẫu nhiên hóa và xem xét lại ở lượt tiếp theo, sử dụng thông tin đã giải quyết ở lượt trước. 4. Bối cảnh hai chiều (Bidirectional Context): Mọi vị trí trong khối đều chú ý đến tất cả các vị trí khác đồng thời, bao gồm cả các token xuất hiện phía sau. Điều này giúp mô hình vượt trội trong các tác vụ sinh văn bản có ràng buộc chặt chẽ như điền mã nguồn (code infilling) hoặc giải toán đố.
Google đã chứng minh sức mạnh của kiến trúc này bằng một bộ giải Sudoku được tinh chỉnh. Mô hình cơ sở không giải được câu đố nào, nhưng sau khi fine-tune, nó đạt tỷ lệ thành công 80% và hội tụ chỉ trong 12 bước khuếch tán thực nghiệm thay vì 48 nhờ khả năng tự sửa lỗi sớm.
Hiệu năng vượt trội: Tăng tốc lên đến 4 lần trên GPU
Nhờ khả năng sinh song song, DiffusionGemma mang lại tốc độ vượt trội trong các tình huống suy luận cục bộ hoặc concurrency thấp:
- Tốc độ cực hạn: Ở batch size 1 trên một GPU Nvidia H100 duy nhất, phiên bản FP8 đạt 1.008 tokens/giây. Trên H200, con số này đạt 1.288 tokens/giây – nhanh gấp khoảng 6 lần so với baseline tự hồi quy tiêu chuẩn theo benchmark của vLLM. - Tối ưu hóa phần cứng: Mô hình chạy dưới dạng kiến trúc Mixture of Experts (MoE) 26B nhưng chỉ kích hoạt 3.8B tham số trong quá trình suy luận. Khi lượng hóa (quantize), nó có thể nằm vừa vặn trong 18GB VRAM trên phần cứng tiêu dùng như Nvidia RTX 4090 và 5090.
Tuy nhiên, Google cũng thẳng thắn thừa nhận chất lượng đầu ra tổng thể của DiffusionGemma vẫn thấp hơn so với Gemma 4 tiêu chuẩn. Đối với các ứng dụng yêu cầu chất lượng tối đa, Google khuyến nghị tiếp tục triển khai Gemma 4 tiêu chuẩn.
Ý nghĩa đối với kỹ sư và doanh nghiệp
Sự tích hợp DiffusionGemma vào vLLM yêu cầu những cải tiến hạ tầng đáng kể do mô hình chuyển đổi linh hoạt giữa causal attention và bidirectional attention. Đội ngũ vLLM đã xây dựng giao diện ModelState mới và tích hợp cơ chế chuyển đổi attention trên cả Triton và FlashAttention 4.
DiffusionGemma mở ra một hướng đi mới cho các đội ngũ triển khai suy luận cục bộ (local inference) hoặc ứng dụng một người dùng (single-user), nơi băng thông bộ nhớ của GPU thường bị nghẽn. Đây không phải là một bản nâng cấp mô hình chung thông thường, mà là một mô thức sinh văn bản hoàn toàn mới đầy hứa hẹn.