Tác nhân AI nghìn tỷ tham số
NVIDIA đã công bố nền tảng Vera Rubin, giải pháp phần cứng mới nhất hướng tới việc phục vụ các tác vụ tác nhân (agentic workloads) trên các mô hình AI có quy mô lên tới hàng nghàn tỷ tham số. Mục tiêu là đạt hiệu suất 400 token/giây cho mỗi người dùng.
Cấu hình Vera Rubin NVL72
Nền tảng này là sự kết hợp giữa Vera Rubin NVL72 và NVIDIA Groq 3 LPX, được thiết kế đặc biệt để xử lý các mô hình Mixture of Experts (MoE) khổng lồ với độ trễ cực thấp.
Tầm quan trọng
Việc duy trì tốc độ cao và độ trễ thấp trên các mô hình nghìn tỷ tham số là yếu tố then chốt để hiện thực hóa các AI Agent phức tạp trong tương lai, từ trợ lý ảo thông minh đến hệ thống tự động hóa doanh nghiệp.
Nguồn tin
- NVIDIA Official