Tag

#Llamacpp

Tổng hợp 2 bài Kalera News liên quan đến Llamacpp — viết tiếng Việt, có dẫn nguồn gốc.

AI · tools-ai 8 thg 6, 2026

llama.cpp b9235: Tăng tốc inference với Speculative N-gram Tuning

Phiên bản llama.cpp b9235 giới thiệu tính năng Speculative N-gram Tuning, giúp tối ưu tốc độ giải mã (decode) đáng kể khi chạy các model lớn như Qwen3.6 27B.

Nguồn x.com

AI 20 thg 5, 2026

llama.cpp hỗ trợ MTP giúp tăng 78% tốc độ AI chạy cục bộ

Bản cập nhật mới của llama.cpp tích hợp Multi-Tentative-Parallelism (MTP), giúp mô hình Qwen3.6-27B đạt tốc độ 45 tokens/giây trên GPU A10G.

Nguồn x.com