Tag

#Qwen

Tổng hợp 8 bài Kalera News liên quan đến Qwen — viết tiếng Việt, có dẫn nguồn gốc.

AI · tools-ai 8 thg 6, 2026

llama.cpp b9235: Tăng tốc inference với Speculative N-gram Tuning

Phiên bản llama.cpp b9235 giới thiệu tính năng Speculative N-gram Tuning, giúp tối ưu tốc độ giải mã (decode) đáng kể khi chạy các model lớn như Qwen3.6 27B.

Nguồn x.com

AI · tools-ai 8 thg 6, 2026

llama.cpp hỗ trợ Multi-Token Prediction cho Qwen3.6: Bước nhảy vọt về hiệu năng

Cột mốc mới cho AI cục bộ khi llama.cpp chính thức hỗ trợ Multi-Token Prediction (MTP) cho dòng Qwen3.6, giúp tăng tốc độ xử lý vượt bậc trên phần cứng phổ thông.

Nguồn x.com

Tech · tools-ai 6 thg 6, 2026

Qwen 3.7 Max của Alibaba có mặt trên Vercel AI Gateway 🚀

Việc Vercel tích hợp Qwen 3.7 Max giúp các lập trình viên dễ dàng xây dựng và tối ưu hóa các ứng dụng AI agent tự động hóa phức tạp.

Nguồn vercel.com

AI · tools-ai 5 thg 6, 2026

Pinterest giảm 90% chi phí AI nhờ tùy chỉnh sâu mô hình Qwen3-VL 📉

Pinterest vừa tạo ra một cú hích về hiệu quả vận hành khi cắt giảm 90% chi phí hạ tầng AI và tăng 30% độ chính xác bằng cách tái cấu trúc tầng xử lý hình ảnh của mô hình Qwen3-VL.

Nguồn venturebeat.com

AI 25 thg 5, 2026

Llama.cpp hỗ trợ MTP: Tăng tốc AI cục bộ thêm 78% 🚀

Bản cập nhật llama.cpp hỗ trợ Multi-Token Prediction (MTP) giúp mô hình Qwen3.6-27B đạt tốc độ 45 token/giây trên phần cứng tầm trung, thúc đẩy xu hướng tự vận hành AI.

Nguồn x.com

AI 23 thg 5, 2026

Alibaba ra mắt Qwen3.7-Max: Mô hình flagship cho kỷ nguyên agent

Alibaba Cloud giới thiệu Qwen3.7-Max với ngữ cảnh 1M token và hiệu năng vượt trội trong lập trình, suy luận và tự chủ dài hạn.

Nguồn x.com

AI 20 thg 5, 2026

llama.cpp hỗ trợ MTP giúp tăng 78% tốc độ AI chạy cục bộ

Bản cập nhật mới của llama.cpp tích hợp Multi-Tentative-Parallelism (MTP), giúp mô hình Qwen3.6-27B đạt tốc độ 45 tokens/giây trên GPU A10G.

Nguồn x.com

AI · tools-ai 19 thg 5, 2026

Qwen3.6-27B chạy 100% trên WebGPU — AI ngay trong trình duyệt

Mô hình Qwen3.6-27B đã có thể vận hành hoàn toàn trên WebGPU, cho phép chạy AI trực tiếp trong trình duyệt mà không cần server. Mặc dù tốc độ còn hạn chế, đây là bước tiến lớn cho AI phi tập trung.

Nguồn x.com