NVIDIA tiếp tục củng cố vị thế dẫn đầu trong hạ tầng AI với việc giới thiệu nền tảng Vera Rubin, nhắm tới các mô hình ngôn ngữ quy mô nghìn tỷ tham số.
Diễn biến
Hệ thống này là sự kết hợp giữa kiến trúc Vera Rubin NVL72 và công nghệ NVIDIA Groq 3 LPX. Mục tiêu cốt lõi là phục vụ các workload dạng agentic (tác vụ agent tự trị) trên các mô hình Mixture of Experts (MoE) khổng lồ. Vera Rubin có khả năng cung cấp tốc độ lên tới 400 token mỗi giây cho mỗi người dùng mà không làm tăng độ trễ, giải quyết bài toán cân bằng giữa thông lượng và tốc độ phản hồi.
Vì sao đáng chú ý
Khả năng xử lý thời gian thực đối với các mô hình khổng lồ là chìa khóa để triển khai AI agent rộng rãi trong thực tế. Với các doanh nghiệp công nghệ tại Việt Nam đang xây dựng hạ tầng cloud AI, Vera Rubin đại diện cho chuẩn mực mới về hiệu suất, giúp hiện thực hóa các ứng dụng AI phản hồi tức thì dù mô hình bên dưới vô cùng phức tạp.