NVIDIA ra mắt nền tảng Vera Rubin — xử lý mô hình nghìn tỷ tham số ở tốc độ 400 token/giây
Nền tảng Vera Rubin mới của NVIDIA kết hợp NVL72 và Groq 3 LPX cho phép chạy các workload agentic trên mô hình MoE khổng lồ mà không phải hy sinh độ trễ.
Tag
Tổng hợp 7 bài Kalera News liên quan đến MOE — viết tiếng Việt, có dẫn nguồn gốc.
Nền tảng Vera Rubin mới của NVIDIA kết hợp NVL72 và Groq 3 LPX cho phép chạy các workload agentic trên mô hình MoE khổng lồ mà không phải hy sinh độ trễ.
Công cụ hf-mem vừa bổ sung tính năng phân rã chi tiết mức độ tiêuhtu bộ nhớ của các mô hình Mixture-of-Experts (MoE), giúp developer tối ưu chiến lược hạ tầng.
JetBrains giới thiệu Mellum2, thế hệ mô hình AI mới sử dụng kiến trúc Mixture-of-Experts (MoE) với 12 tỷ tham số, tối ưu hóa đặc biệt cho các tác vụ phát triển phần mềm và tích hợp sâu vào IDE.
Liquid AI giới thiệu LFM2.5-8B-A1B, mô hình ngôn ngữ 8 tỷ tham số với kiến trúc MoE lai, được thiết kế đặc biệt cho điện thoại, laptop và robot. Với cửa sổ ngữ cảnh 128K, đây là bước tiến lớn giúp đưa AI hiệu năng cao trực tiếp lên các thiết bị đầu cuối.
Công ty poolside công bố bộ đôi mô hình Laguna M.1 và XS.2 với kiến trúc Mixture-of-Experts, được tối ưu hóa cho các tác vụ lập trình và agent dài hạn.
MiniMax ra mắt dòng mô hình MoE M2 với 229.9B tham số, tối ưu cho agent và có khả năng tự sửa lỗi mã nguồn của chính mình.
Một kỹ thuật mới sử dụng cơ chế CLC work stealing giúp triển khai grouped_gemm có khả năng tương thích với CUDA Graph, tối ưu hiệu suất tính toán cho các mô hình AI phức tạp.