Bản phát hành mới nhất của llama.cpp (b9235) vừa bổ sung các công cụ mới nhằm thúc đẩy tốc độ suy luận (inference). Đáng chú ý nhất là phương pháp Speculative N-gram Tuning đã được thử nghiệm thành công trên GPU RTX 5090.
Diễn biến
Thử nghiệm với model Qwen3.6 27B trên 10.000 token cho thấy việc tăng kích thước bản đồ n-gram (--spec-ngram-map-k4v-size-m) giúp cải thiện rõ rệt thông lượng giải mã (decode throughput). Kỹ thuật này sử dụng dự đoán dựa trên n-gram để tăng tốc độ sinh từ mà không làm giảm độ chính xác của mô hình gốc.
Vì sao đáng chú ý
llama.cpp là công cụ cốt lõi cho việc chạy AI local tại Việt Nam. Việc tối ưu thông lượng trên các dòng card đồ họa phổ thông (hoặc cao cấp như RTX 5090) giúp các ứng dụng chatbot và agent hoạt động mượt mà hơn, giảm độ trễ phản hồi trong các tác vụ xử lý văn bản dài.