Dự án mã nguồn mở llama.cpp vừa công bố tích hợp tính năng Model Router trực tiếp vào lõi hệ thống, đánh dấu một bước ngoặt lớn trong việc quản lý và vận hành các mô hình ngôn ngữ lớn (LLM) cục bộ.
Diễn biến
Tính năng Model Router mới cho phép người dùng quản lý tất cả các mô hình chỉ với một server duy nhất và một file cấu hình. Thay vì phải dựa vào các công cụ bên thứ ba như Ollama hay Open WebUI để chuyển đổi giữa các mô hình, llama.cpp giờ đây có thể tự động điều hướng yêu cầu đến đúng mô hình trên đĩa. Điểm vượt trội nhất là khả năng chuyển đổi mô hình tức thì mà không cần khởi động lại dịch vụ, giúp tiết kiệm thời gian và tài nguyên đáng kể.
Ngoài ra, kiến trúc mới này loại bỏ hoàn toàn việc lưu trữ trùng lặp mô hình giữa các backend khác nhau. Chỉ cần một bản sao mô hình trên đĩa, Model Router sẽ đảm nhiệm việc nạp và giải phóng bộ nhớ một cách thông minh tùy theo yêu cầu truy vấn.
Vì sao đáng chú ý
Đối với cộng đồng phát triển AI tại Việt Nam, llama.cpp luôn là lựa chọn hàng đầu nhờ khả năng chạy mô hình trên phần cứng phổ thông (CPU/GPU dân dụng). Việc tích hợp sẵn Model Router giúp đơn giản hóa đáng kể quy trình triển khai ứng dụng AI đa mô hình. Giờ đây, các kỹ sư có thể xây dựng một API server duy nhất phục vụ nhiều task khác nhau (như tóm tắt, dịch thuật, lập trình) mà không cần cấu hình phức tạp hay cài đặt thêm lớp phần mềm trung gian như Ollama. Điều này không chỉ tối ưu hiệu năng mà còn giúp giảm độ trễ khi chuyển đổi ngữ cảnh công việc.