Bỏ qua đến nội dung chính
Về trang chủ
AI 1 phút đọc

llama.cpp hỗ trợ MTP giúp tăng 78% tốc độ AI chạy cục bộ

Bản cập nhật mới của llama.cpp tích hợp Multi-Tentative-Parallelism (MTP), giúp mô hình Qwen3.6-27B đạt tốc độ 45 tokens/giây trên GPU A10G.

Tier 1 · nguồn 90% độ tin cậy Đã được duyệt
Nguồn gốc x.com

Cộng đồng AI mã nguồn mở vừa đón nhận tin vui khi llama.cpp chính thức hỗ trợ kỹ thuật MTP (Multi-Tentative-Parallelism), cho phép tăng tốc độ suy luận của các mô hình ngôn ngữ lớn chạy cục bộ lên đáng kể.

Diễn biến

Theo các thử nghiệm được chia sẻ trên X, mô hình Qwen3.6-27B khi chạy dense generation trên GPU A10G đã tăng tốc từ 25 tokens/giây lên 45 tokens/giây, tức là nhanh hơn 78%. Người dùng có thể kích hoạt tính năng này trên llama-server thông qua hai cờ lệnh mới: --spec-type draft-mtp--spec-draft-n-max 2.

Vì sao đáng chú ý

Tốc độ 45 tokens/giây trên một mô hình 27B là ngưỡng "daily driver" — đủ nhanh để sử dụng hàng ngày cho công việc thực tế thay vì chỉ thử nghiệm. Với các lập trình viên và doanh nghiệp Việt Nam quan tâm đến bảo mật dữ liệu, bước tiến này giúp việc triển khai AI local trở nên thực dụng hơn bao giờ hết, giảm phụ thuộc vào các API đám mây đắt đỏ.