Tag

#MOE

Tổng hợp 7 bài Kalera News liên quan đến MOE — viết tiếng Việt, có dẫn nguồn gốc.

tools-ai · Tech 6 thg 6, 2026

NVIDIA ra mắt nền tảng Vera Rubin — xử lý mô hình nghìn tỷ tham số ở tốc độ 400 token/giây

Nền tảng Vera Rubin mới của NVIDIA kết hợp NVL72 và Groq 3 LPX cho phép chạy các workload agentic trên mô hình MoE khổng lồ mà không phải hy sinh độ trễ.

Nguồn x.com

AI · tools-ai 3 thg 6, 2026

Công cụ hf-mem cập nhật tính năng ước tính bộ nhớ cho mô hình MoE

Công cụ hf-mem vừa bổ sung tính năng phân rã chi tiết mức độ tiêuhtu bộ nhớ của các mô hình Mixture-of-Experts (MoE), giúp developer tối ưu chiến lược hạ tầng.

Nguồn x.com

AI 2 thg 6, 2026

JetBrains ra mắt Mellum2: Mô hình Mixture-of-Experts 12B mạnh mẽ cho lập trình

JetBrains giới thiệu Mellum2, thế hệ mô hình AI mới sử dụng kiến trúc Mixture-of-Experts (MoE) với 12 tỷ tham số, tối ưu hóa đặc biệt cho các tác vụ phát triển phần mềm và tích hợp sâu vào IDE.

Nguồn huggingface.co

AI 29 thg 5, 2026

Liquid AI ra mắt LFM2.5-8B-A1B: Mô hình MoE tối ưu mạnh mẽ cho thiết bị cá nhân 🚀

Liquid AI giới thiệu LFM2.5-8B-A1B, mô hình ngôn ngữ 8 tỷ tham số với kiến trúc MoE lai, được thiết kế đặc biệt cho điện thoại, laptop và robot. Với cửa sổ ngữ cảnh 128K, đây là bước tiến lớn giúp đưa AI hiệu năng cao trực tiếp lên các thiết bị đầu cuối.

Nguồn x.com

AI 28 thg 5, 2026

poolside ra mắt Laguna: Các mô hình MoE chuyên biệt cho lập trình

Công ty poolside công bố bộ đôi mô hình Laguna M.1 và XS.2 với kiến trúc Mixture-of-Experts, được tối ưu hóa cho các tác vụ lập trình và agent dài hạn.

Nguồn arxiv.org

AI 27 thg 5, 2026

MiniMax-M2: AI 230 tỷ tham số nhưng chỉ "đánh thức" 4% sức mạnh

MiniMax ra mắt dòng mô hình MoE M2 với 229.9B tham số, tối ưu cho agent và có khả năng tự sửa lỗi mã nguồn của chính mình.

Nguồn arxiv.org

AI · tools-ai 18 thg 5, 2026

Tối ưu CUDA Graph cho Grouped GEMM nhờ cơ chế CLC work stealing

Một kỹ thuật mới sử dụng cơ chế CLC work stealing giúp triển khai grouped_gemm có khả năng tương thích với CUDA Graph, tối ưu hiệu suất tính toán cho các mô hình AI phức tạp.

Nguồn x.com