AI tools-ai 8 thg 6, 2026 1 phút đọc

llama.cpp b9235: Tăng tốc inference với Speculative N-gram Tuning

Phiên bản llama.cpp b9235 giới thiệu tính năng Speculative N-gram Tuning, giúp tối ưu tốc độ giải mã (decode) đáng kể khi chạy các model lớn như Qwen3.6 27B.

Tier 1 · nguồn 99% độ tin cậy Đã được duyệt

Llamacpp GPU Inference Optimization Open Source Qwen

Nguồn gốc x.com

Bản phát hành mới nhất của llama.cpp (b9235) vừa bổ sung các công cụ mới nhằm thúc đẩy tốc độ suy luận (inference). Đáng chú ý nhất là phương pháp Speculative N-gram Tuning đã được thử nghiệm thành công trên GPU RTX 5090.

Diễn biến

Thử nghiệm với model Qwen3.6 27B trên 10.000 token cho thấy việc tăng kích thước bản đồ n-gram (--spec-ngram-map-k4v-size-m) giúp cải thiện rõ rệt thông lượng giải mã (decode throughput). Kỹ thuật này sử dụng dự đoán dựa trên n-gram để tăng tốc độ sinh từ mà không làm giảm độ chính xác của mô hình gốc.

Vì sao đáng chú ý

llama.cpp là công cụ cốt lõi cho việc chạy AI local tại Việt Nam. Việc tối ưu thông lượng trên các dòng card đồ họa phổ thông (hoặc cao cấp như RTX 5090) giúp các ứng dụng chatbot và agent hoạt động mượt mà hơn, giảm độ trễ phản hồi trong các tác vụ xử lý văn bản dài.