Bỏ qua đến nội dung chính
Về trang chủ
AI 1 phút đọc

Llama.cpp hỗ trợ MTP: Tăng tốc AI cục bộ thêm 78% 🚀

Bản cập nhật llama.cpp hỗ trợ Multi-Token Prediction (MTP) giúp mô hình Qwen3.6-27B đạt tốc độ 45 token/giây trên phần cứng tầm trung, thúc đẩy xu hướng tự vận hành AI.

Tier 1 · nguồn 60% độ tin cậy Đã được duyệt
Nguồn gốc x.com

Kỹ thuật Multi-Token Prediction (MTP) vừa chính thức được tích hợp vào llama.cpp, mang lại bước nhảy vọt về hiệu suất cho các mô hình ngôn ngữ lớn chạy trên phần cứng cục bộ. Theo CEO Hugging Face, Clement Delangue, cải tiến này giúp AI phản hồi nhanh hơn, đáp ứng tốt nhu cầu sử dụng thực tế hàng ngày.

Diễn biến

Thử nghiệm trên mô hình Qwen3.6-27B chạy với GPU Nvidia A10G cho thấy tốc độ sinh văn bản tăng từ 25 token/giây lên 45 token/giây khi kích hoạt MTP. Mức tăng 78% này giúp giảm đáng kể độ trễ (latency) – vốn là điểm yếu cố hữu của việc chạy AI trên máy trạm cá nhân so với các dịch vụ đám mây. MTP hoạt động bằng cách dự đoán đồng thời nhiều token trong một chu kỳ xử lý, thay vì từng token đơn lẻ, từ đó tối ưu hóa băng thông bộ nhớ của GPU.

Vì sao đáng chú ý

Cải tiến này đặc biệt quan trọng với người dùng và doanh nghiệp tại Việt Nam muốn tự vận hành AI để đảm bảo tính riêng tư và tiết kiệm chi phí. Với tốc độ 45 token/giây cho một mô hình 27 tỷ tham số, việc xây dựng các ứng dụng chatbot hay hỗ trợ viết mã nguồn nội bộ trở nên khả thi hơn bao giờ hết. Llama.cpp tiếp tục khẳng định vị thế là bộ khung hàng đầu giúp "dân chủ hóa" AI, đưa những mô hình mạnh mẽ thoát khỏi sự phụ thuộc vào hạ tầng cloud đắt đỏ.