Cộng đồng AI mã nguồn mở vừa đón nhận tin vui khi llama.cpp chính thức hỗ trợ kỹ thuật MTP (Multi-Tentative-Parallelism), cho phép tăng tốc độ suy luận của các mô hình ngôn ngữ lớn chạy cục bộ lên đáng kể.
Diễn biến
Theo các thử nghiệm được chia sẻ trên X, mô hình Qwen3.6-27B khi chạy dense generation trên GPU A10G đã tăng tốc từ 25 tokens/giây lên 45 tokens/giây, tức là nhanh hơn 78%. Người dùng có thể kích hoạt tính năng này trên llama-server thông qua hai cờ lệnh mới: --spec-type draft-mtp và --spec-draft-n-max 2.
Vì sao đáng chú ý
Tốc độ 45 tokens/giây trên một mô hình 27B là ngưỡng "daily driver" — đủ nhanh để sử dụng hàng ngày cho công việc thực tế thay vì chỉ thử nghiệm. Với các lập trình viên và doanh nghiệp Việt Nam quan tâm đến bảo mật dữ liệu, bước tiến này giúp việc triển khai AI local trở nên thực dụng hơn bao giờ hết, giảm phụ thuộc vào các API đám mây đắt đỏ.