AI tools-ai 18 thg 6, 2026 5 phút đọc

Đột Phá Tốc Độ Gemma 4: Hơn 100 Tác Nhân AI Hợp Lực Tăng Thông Lượng Xử Lý Gấp 5 Lần! 🚀🤖

Chỉ sau một tuần hợp tác giữa hơn 100 tác nhân AI tự chủ, mô hình Gemma 4 của Google đã đạt được bước nhảy vọt về tốc độ, tăng thông lượng từ 100 lên hơn 500 token/giây trên phần cứng giới hạn, chứng minh tiềm năng to lớn của hệ thống đa tác nhân trong tối ưu hóa kỹ thuật phức tạp.

Tier 1 · nguồn 99% độ tin cậy Auto-priority

Nguồn gốc x.com

Theo một thông báo đầy ấn tượng từ Louis St-Pierre (@lvwerra) trên X (trước đây là Twitter), dự án hợp tác đa tác nhân AI mang tên "The Fast Gemma Challenge" đã đạt được kết quả phi thường: tăng tốc độ xử lý của mô hình Google Gemma 4 lên gấp 5 lần chỉ trong một tuần. Từ 100 token/giây, thông lượng đã vọt lên hơn 500 token/giây, một minh chứng rõ ràng cho sức mạnh của sự hợp tác giữa các tác nhân AI. 🚀

Thử Thách Tăng Tốc Gemma: Khi AI Tự Tối Ưu Hóa AI 🧠

Google Gemma và Hugging Face đã cùng nhau khởi xướng "Thử thách Tăng tốc Gemma" – một cuộc thi tăng tốc độc đáo, lần đầu tiên áp dụng mô hình hợp tác do các tác nhân AI điều khiển. Mục tiêu rất đơn giản nhưng đầy tham vọng: làm cho mô hình google/gemma-4-E4B-it của Google chạy nhanh nhất có thể trên một phần cứng chia sẻ cố định. Điểm đặc biệt của thử thách này là thay vì dựa vào các nhà phát triển con người làm việc độc lập, nó được thiết kế cho các tác nhân AI tự chủ (như Claude Code, Codex, ml-intern và các tác nhân phát triển tùy chỉnh) cùng nhau làm việc song song.

Thiết Lập Thử Thách & Mục Tiêu Kỹ Thuật ⚙️

* Mô hình Mục tiêu: google/gemma-4-E4B-it – một mô hình đa phương thức tiên tiến của Google, hỗ trợ văn bản, hình ảnh và âm thanh với cửa sổ ngữ cảnh 128K. * Phần cứng: Một phiên bản GPU a10g-small cố định (1x NVIDIA A10G, 24 GB VRAM) được Hugging Face cung cấp. * Tiêu chí Đánh giá: * Token mỗi giây (TPS): Thông lượng tạo văn bản (càng cao càng tốt). Đây là tiêu chí chính để xếp hạng. * Độ khó (Perplexity - PPL): Ngưỡng chất lượng. Mô hình phải duy trì chất lượng tạo văn bản ban đầu. Độ khó phải gần với đường cơ sở tham chiếu (khoảng 2.30 cho bf16). Bất kỳ cải thiện tốc độ nào đạt được bằng cách làm hỏng hoặc giảm chất lượng mô hình đều bị loại.

Không Gian Hợp Tác Đa Tác Nhân: Nơi AI Đồng Lòng 🤝

Hơn 100 tác nhân AI tự chủ từ khắp nơi trên thế giới đã tham gia thử thách này. Thay vì chỉ cạnh tranh, các tác nhân đã tích cực hợp tác thông qua một không gian làm việc chung trên Hugging Face:

* Bảng tin chung: Các tác nhân đăng tải kế hoạch triển khai, nhận các lĩnh vực nghiên cứu cụ thể để tránh trùng lặp công việc và thảo luận các chiến lược tối ưu hóa theo thời gian thực. * Môi trường thử nghiệm & Kho lưu trữ chung: Các tác nhân kéo kho mã nguồn, thực hiện cải tiến cho ngăn xếp suy luận (thử nghiệm các công cụ như vLLM, SGLang, TGI, TensorRT-LLM, giải mã suy đoán, nhân Triton tùy chỉnh và kỹ thuật lượng tử hóa tiên tiến), kiểm tra chúng trên môi trường GPU chung và gửi các hiện vật tối ưu hóa. * Bảng xếp hạng trực tuyến: Kết quả được tự động xác minh trên một bộ câu lệnh riêng tư và được đăng lên một Hugging Face Space trực tiếp.

Kết Quả Phi Thường: Khi Sự Hợp Tác Biến Điều Bất Khả Thành Có Thể! 🌟

Chỉ trong vòng một tuần hợp tác tự chủ, các con số đã nói lên tất cả:

* Tác nhân Hoạt động: Hơn 100 tác nhân phát triển AI tự chủ đã tham gia. * Khối lượng Giao tiếp: Các tác nhân đã trao đổi hơn 1.000 tin nhắn trên bảng tin chung, phối hợp các nhánh nghiên cứu. * Số lượng Gửi: Hơn 450 kết quả tối ưu hóa và tệp điểm chuẩn đã được gửi. * Đột phá Hiệu suất: Tốc độ suy luận cơ sở của Gemma 4 E4B ban đầu là 100 token/giây. Bằng cách kết hợp các tối ưu hóa khác nhau do tác nhân phát triển (như nhân chú ý Triton tùy chỉnh, các bộ dự thảo giải mã suy đoán được tối ưu hóa và tinh chỉnh RadixAttention/SGLang), thông lượng đã được xác minh tăng vọt lên hơn 500 token/giây!

Điều này thể hiện một cải thiện thông lượng gấp 5 lần đáng kinh ngạc, đạt được hoàn toàn tự chủ bởi các tác nhân phát triển AI hợp tác. Nó chứng minh rằng hệ thống đa tác nhân không chỉ có khả năng viết các tập lệnh đơn giản mà còn có thể giải quyết các thách thức kỹ thuật tiên tiến và tối ưu hóa phần mềm cấp hệ thống phức tạp như công cụ suy luận LLM. Đây là một bước tiến lớn, mở ra cánh cửa cho việc phát triển AI ở quy mô và tốc độ chưa từng thấy. 🚀