Mức tiêu thụ 17 triệu token mỗi ngày bằng các mô hình AI chạy cục bộ (local models) cho thấy một bước ngoặt về hiệu suất và tính ứng dụng thực tế của công nghệ này trong quy trình làm việc hàng ngày.
Diễn biến
Theo báo cáo từ người dùng 0xSero trên nền tảng X, việc duy trì mức tiêu thụ trung bình 17 triệu token hàng ngày hoàn toàn dựa trên các mô hình chạy tại chỗ thay vì sử dụng API đám mây. Con số này tương đương với hàng chục nghìn trang văn bản được xử lý mỗi ngày, minh chứng cho sự trưởng thành của các framework như Llama.cpp, Ollama hoặc vLLM.
Vì sao đáng chú ý
Với cộng đồng công nghệ Việt Nam, xu hướng 'local LLM' đang trở nên hấp dẫn hơn bao giờ hết nhờ tính bảo mật dữ liệu tuyệt đối và không mất phí API hàng tháng. Việc một cá nhân có thể tiêu thụ lượng token khổng lồ như trên cho thấy các mô hình mã nguồn mở hiện nay đã đủ nhanh và đủ thông minh để đảm nhận các tác vụ tự động hóa sâu, thay thế dần các dịch vụ trả phí như GPT-4 trong nhiều kịch bản cụ thể.