AI tools-ai 17 thg 6, 2026 6 phút đọc

Google DeepMind Trình Làng DiffusionGemma: Mô Hình AI Nguồn Mở "Thần Tốc" Gấp 4 Lần, Định Hình Tương Lai Xử Lý Tại Chỗ! 🚀

Google DeepMind đã ra mắt DiffusionGemma, mô hình AI tạo văn bản mã nguồn mở với kiến trúc khuếch tán độc đáo, hứa hẹn tăng tốc độ xử lý tại chỗ lên gấp 4 lần trên GPU phổ thông, phù hợp cho các tác vụ đòi hỏi phản hồi siêu nhanh dù có chút đánh đổi về chất lượng so với Gemma 4.

Tier 2 · nguồn 99% độ tin cậy Auto-priority

Nguồn gốc arstechnica.com

Google DeepMind Trình Làng DiffusionGemma: Mô Hình AI Nguồn Mở Tăng Tốc Gấp 4 Lần! 🚀

Nguồn: Ars Technica & Google DeepMind Ngày: 10 tháng 6 năm 2026

Google DeepMind chính thức công bố DiffusionGemma, thành viên mới nhất trong gia đình mô hình mở Gemma 4. Khác biệt với các mô hình ngôn ngữ truyền thống tạo văn bản tuần tự từng token, DiffusionGemma sử dụng cơ chế chú ý hai chiều kết hợp với đầu khử nhiễu khuếch tán. Kiến trúc đột phá này cho phép nó tạo ra tới 256 token song song, mang lại tốc độ xử lý văn bản tại chỗ nhanh hơn tới 4 lần. Được phát hành dưới giấy phép Apache 2.0 linh hoạt, DiffusionGemma được thiết kế để hoạt động hiệu quả trên các GPU tiêu dùng (như NVIDIA RTX 3090/4090) và thiết bị biên.

Thay Đổi Paradigma Kỹ Thuật: Từ Tạo Sinh Từng Bước Sang Khuếch Tán Văn Bản 🧠

Mô Hình Tự Hồi Quy Truyền Thống

Các mô hình ngôn ngữ lớn tiêu chuẩn (như GPT-4, Llama 3, Qwen và Gemma) tạo văn bản theo kiểu tự hồi quy – tức là từng từ hoặc từng token một. Mỗi token được dự đoán chỉ phụ thuộc vào các token trước đó. Điều này tạo ra một nút thắt cổ chai tuần tự nghiêm trọng, được gọi là giới hạn băng thông bộ nhớ (memory-bandwidth-bound) trên các GPU hiện đại. GPU phải dành phần lớn thời gian để tải lại trọng số mô hình chỉ để tạo ra một token duy nhất mỗi lần, khiến các lõi tensor/tính toán mạnh mẽ của nó gần như không hoạt động.

DiffusionGemma Hoạt Động Như Thế Nào?

DiffusionGemma chuyển nút thắt cổ chai từ băng thông bộ nhớ sang các hoạt động giới hạn tính toán (compute-bound): 1. Chú Ý Hai Chiều & Lấy Mẫu Đa Khung (Multi-Canvas Sampling): DiffusionGemma áp dụng kiến trúc mã hóa-giải mã (encoder-decoder). Bộ mã hóa xử lý lời nhắc ban đầu và tạo ra bộ nhớ Key-Value (KV). Sau đó, bộ giải mã sử dụng chú ý hai chiều để làm việc đồng thời trên một "khung" (canvas) đầy đủ gồm 256 token. 2. Tạo Khối Song Song: Thay vì dự đoán các token tiếp theo một cách tuần tự, DiffusionGemma liên tục khử nhiễu toàn bộ khối 256 token song song bằng cách sử dụng bộ lấy mẫu khuếch tán. Nó khử nhiễu tới 256 token mỗi bước, tạo ra 15-20 token mỗi lần truyền tới (forward pass). 3. Sửa Chữa Giữa Chừng: Vì mỗi token trong khung đều chú ý đến tất cả các token khác trong quá trình khử nhiễu, mô hình có thể tự sửa lỗi. Nếu nó trở nên kém tự tin về một token giữa chừng, nó có thể "gây nhiễu lại" (re-noise) và thay thế nó, một khả năng hoàn toàn không có trong các mô hình nhân quả. 4. Tính Toán Thời Gian Suy Luận Thích Ứng: Các lời nhắc đơn giản hơn hoặc các tác vụ có cấu trúc cao (như hoàn thành mã) yêu cầu ít bước khử nhiễu hơn. Điều này cho phép tốc độ tạo sinh động được điều chỉnh theo độ phức tạp của tác vụ.

Hiệu Suất Vượt Trội 📈

Google cùng các đối tác (NVIDIA, vLLM và Unsloth) đã công bố những con số hiệu suất ấn tượng khi chạy cục bộ: * NVIDIA GeForce RTX 5090 / 4090: Đạt hơn 700 token mỗi giây khi chạy cục bộ, mở ra khả năng tương tác siêu nhanh và vòng lặp agentic mượt mà. * NVIDIA H100 GPU: Vượt quá 1.000 token mỗi giây trong cài đặt batch size thấp. * vLLM (Lượng tử hóa FP8): vLLM hỗ trợ DiffusionGemma như mô hình văn bản khuếch tán đầu tiên trong lịch sử của họ. Sử dụng lượng tử hóa FP8, nó đạt 1.288 token mỗi giây trên phần cứng NVIDIA H200, nhanh gấp 6 lần so với mô hình tự hồi quy cơ bản. * NVIDIA DGX Spark / Stations: Được thiết kế để chạy các quy trình làm việc agentic cục bộ với độ trễ thấp nhất phân khúc, lên tới 2.000 token/giây.

Yêu Cầu Phần Cứng & Đánh Đổi Thực Tế ⚙️

1. Phù Hợp Với 18GB VRAM (GPU tiêu dùng đơn lẻ)

DiffusionGemma là một mô hình MoE (Mixture of Experts) 26 tỷ tham số nhưng chỉ kích hoạt 3,8 tỷ tham số trong quá trình suy luận. Nhờ cấu trúc MoE hiệu quả, phiên bản lượng tử hóa 4-bit của nó có thể vừa vặn thoải mái trong 18GB VRAM, làm cho nó rất dễ tiếp cận với phần cứng tiêu dùng (như RTX 3090, 4090 hoặc GPU RTX PRO chuyên nghiệp). Để so sánh, một mô hình nhân quả 25B-30B truyền thống yêu cầu 24GB+ VRAM và chỉ chạy ở tốc độ 50-80 token/giây.

2. Sự Đánh Đổi Giữa Chất Lượng và Tốc Độ

Google rất rõ ràng và minh bạch về những giới hạn của mô hình: > "Chất lượng đầu ra tổng thể của DiffusionGemma thấp hơn so với Gemma 4 tiêu chuẩn."

Trên các tiêu chuẩn chất lượng thuần túy, DiffusionGemma xếp dưới Gemma 4 nhân quả. Do đó, giá trị cốt lõi của nó không phải là một "chatbot đa năng," mà là "độ trễ cực thấp cho các tác vụ có cấu trúc, cụ thể" như: * Hoàn thành mã & chỉnh sửa nội tuyến: Nơi tốc độ và xử lý cục bộ là tối quan trọng. * Vòng lặp Agentic: Nơi các tác nhân đưa ra hàng chục quyết định nhanh chóng, ngắn gọn. * Phân tích cú pháp JSON có cấu trúc và điền biểu mẫu.

Hỗ Trợ Hệ Sinh Thái và Giấy Phép 🤝

DiffusionGemma được phát hành với trọng số mở (open weights) theo giấy phép Apache 2.0, cho phép sử dụng thương mại và sửa đổi miễn phí. Nó có sự hỗ trợ ngay từ ngày đầu trong các bộ công cụ học máy mã nguồn mở lớn: * Hugging Face Transformers * vLLM * Unsloth * llama.cpp (sắp có hỗ trợ)