AI tools-ai 3 thg 6, 2026 1 phút đọc

Ra mắt TokenSpeed — Engine inference LLM mã nguồn mở đạt hiệu suất TensorRT

TokenSpeed là engine inference LLM mới với hiệu suất ngang ngửa TensorRT-LLM nhưng dễ sử dụng như vLLM, được phát hành dưới giấy phép MIT.

Tier 1 · nguồn 99% độ tin cậy Đã được duyệt

Lightseek Tokenspeed Open Source LLM Inference Infrastructure GPU

Nguồn gốc x.com

Đội ngũ LightSeek vừa công bố TokenSpeed, một engine inference dành cho các mô hình ngôn ngữ lớn (LLM) hứa hẹn tốc độ xử lý nhanh như ánh sáng.

Diễn biến

TokenSpeed được giới thiệu là có khả năng đạt mức hiệu suất tương đương với NVIDIA TensorRT-LLM nhưng vẫn giữ được tính dễ dùng và linh hoạt của vLLM. Dự án được xây dựng bởi một đội ngũ tinh gọn trong vòng hai tháng và hiện đã được mở mã nguồn trên GitHub theo giấy phép MIT. Engine này tập trung vào việc tối ưu hóa throughput và latency cho các tác vụ suy luận AI.

Vì sao đáng chú ý

Trong bối cảnh các doanh nghiệp Việt Nam đang tích cực triển khai LLM nội bộ (on-premise), việc có thêm một engine inference mã nguồn mở, hiệu suất cao và dễ cấu hình là cực kỳ giá trị. TokenSpeed có thể giúp giảm chi phí phần cứng (GPU) và đơn giản hóa quy trình deployment cho các hệ thống chatbot hoặc RAG quy mô lớn.