tools-ai Tech 6 thg 6, 2026 1 phút đọc

NVIDIA ra mắt nền tảng Vera Rubin — xử lý mô hình nghìn tỷ tham số ở tốc độ 400 token/giây

Nền tảng Vera Rubin mới của NVIDIA kết hợp NVL72 và Groq 3 LPX cho phép chạy các workload agentic trên mô hình MoE khổng lồ mà không phải hy sinh độ trễ.

Tier 1 · nguồn 99% độ tin cậy Đã được duyệt

Nvidia GPU Infrastructure MOE LLM

Nguồn gốc x.com

NVIDIA tiếp tục củng cố vị thế dẫn đầu trong hạ tầng AI với việc giới thiệu nền tảng Vera Rubin, nhắm tới các mô hình ngôn ngữ quy mô nghìn tỷ tham số.

Diễn biến

Hệ thống này là sự kết hợp giữa kiến trúc Vera Rubin NVL72 và công nghệ NVIDIA Groq 3 LPX. Mục tiêu cốt lõi là phục vụ các workload dạng agentic (tác vụ agent tự trị) trên các mô hình Mixture of Experts (MoE) khổng lồ. Vera Rubin có khả năng cung cấp tốc độ lên tới 400 token mỗi giây cho mỗi người dùng mà không làm tăng độ trễ, giải quyết bài toán cân bằng giữa thông lượng và tốc độ phản hồi.

Vì sao đáng chú ý

Khả năng xử lý thời gian thực đối với các mô hình khổng lồ là chìa khóa để triển khai AI agent rộng rãi trong thực tế. Với các doanh nghiệp công nghệ tại Việt Nam đang xây dựng hạ tầng cloud AI, Vera Rubin đại diện cho chuẩn mực mới về hiệu suất, giúp hiện thực hóa các ứng dụng AI phản hồi tức thì dù mô hình bên dưới vô cùng phức tạp.