AI tools-ai 13 thg 6, 2026 5 phút đọc

Kimi K2.7-Code ra mắt giảm 30% token suy nghĩ: Đột phá hiệu năng hay chỉ là thổi phồng benchmark? 💻

Moonshot AI vừa ra mắt mô hình lập trình mã nguồn mở Kimi K2.7-Code với tuyên bố giảm tới 30% lượng token suy nghĩ nhằm tối ưu hóa chi phí vận hành cho các AI Agent. Tuy nhiên, các chuyên gia và nhà phát triển độc lập trong cộng đồng đang hoài nghi về các số liệu benchmark tự phong này.

Tier 1 · nguồn 99% độ tin cậy Auto-priority

Nguồn gốc venturebeat.com

Moonshot AI vừa chính thức phát hành Kimi K2.7-Code, một phiên bản nâng cấp mã nguồn mở trong dòng mô hình lập trình K2 nổi tiếng của hãng. Với bản phát hành này, startup AI hàng đầu Trung Quốc tuyên bố đã tối ưu hóa mạnh mẽ quy trình suy luận của mô hình và mang lại mức cải thiện hiệu năng ấn tượng lên tới hai chữ số.

K2.7-Code tiếp tục kế thừa kiến trúc hỗn hợp chuyên gia (Mixture-of-Experts - MoE) quy mô hàng nghìn tỷ tham số từ người tiền nhiệm K2.6, đồng thời cung cấp cổng kết nối API hoàn toàn tương thích với chuẩn OpenAI. Điều này cho phép các doanh nghiệp và đội ngũ phát triển dễ dàng nâng cấp hệ thống mà không cần thay đổi cấu trúc mã nguồn.

Giải quyết vấn nạn "overthinking" để cắt giảm 30% chi phí

Điểm cải tiến cốt lõi của K2.7-Code nằm ở khả năng kiểm soát quy trình "suy nghĩ quá mức" (overthinking). Moonshot AI khẳng định mô hình mới giúp giảm tới 30% lượng token suy nghĩ (thinking tokens) so với phiên bản K2.6 cũ. Đây là một thông số cực kỳ quan trọng đối với các hệ thống AI Agent chạy tự động dài ngày (agentic workflows), vì lượng token suy nghĩ giảm đi sẽ trực tiếp hạ thấp chi phí vận hành API trong production.

Khác với K2.6 vốn chủ yếu tạo mã bằng cách bọc (wrapper) các thư viện hiện có và định tuyến qua các framework sẵn có, K2.7-Code có khả năng tự viết các dòng code triển khai ở cấp độ thấp (low-level code). Sự thay đổi này được cho là giúp mô hình tối ưu hóa tốt hơn trên nhiều ngôn ngữ lập trình như Rust, Go, Python cũng như xử lý mượt mà hơn các tác vụ DevOps và cấu hình phần cứng.

> "Chúng tôi thiết kế K2.7-Code để mô hình thực sự hiểu sâu sắc cách hoạt động của hệ thống và trực tiếp tối ưu hóa mã máy, thay vì chỉ đơn thuần là gọi các hàm thư viện sẵn có." > — Đại diện nhóm phát triển Moonshot AI.

Phản ứng từ cộng đồng: "K2.7 trung thực hơn nhưng chưa chắc đã mạnh hơn"

Bất chấp những tuyên bố hào nhoáng từ Moonshot AI, phản ứng thực tế từ các chuyên gia phát triển hệ thống lại có phần thận trọng và hoài nghi.

Nhà nghiên cứu hệ thống Elliot Arledge đã tiến hành chạy thử nghiệm K2.7-Code trên bộ benchmark độc lập KernelBench-Hard — một công cụ chuyên đánh giá năng lực tối ưu hóa GPU kernel cấp thấp. Kết quả chạy thử nghiệm đã được công bố minh bạch trên website cá nhân của anh:

- Tự viết code trung thực: Trên 5 trong số 6 bài toán lập trình kernel, K2.7-Code đã tự tay viết trực tiếp các Triton kernel thay vì sử dụng thư viện bọc như K2.6. - Tự làm khó mình bằng bug: Thật không may, 2 trong số các kernel tự viết này đã bị lỗi biên dịch do chính các bug logic của mô hình tạo ra. - Điểm số thụt lùi: Do lỗi phát sinh từ code tự viết, điểm số tổng thể của K2.7-Code trên KernelBench đã bị thụt lùi từ mức 0.222 (K2.6) xuống còn 0.157.

> "K2.7 dũng cảm tự viết mã trực tiếp hơn, nhưng năng lực thực tế thì chưa thể bứt phá so với phiên bản trước. Để so sánh, Claude Fable 5 vẫn dễ dàng đè bẹp tất cả các thử nghiệm này mà không gặp lỗi ngớ ngẩn." > — Elliot Arledge nhận định trên mạng xã hội X.

Đồng quan điểm hoài nghi, Sugumaran Balasubramaniyan, một kỹ sư thâm niên thiết kế bộ định tuyến tác vụ AI cho nền tảng Hermes Agent, chia sẻ thẳng thắn:

> "Mọi mô hình AI đều dễ dàng cải thiện hai chữ số trên chính bộ kiểm thử (test suite) do công ty chủ quản tự xây dựng. Thực tế, K2.6 chỉ đạt 24% trên bảng xếp hạng DeepSWE độc lập (ngang ngửa với GPT-5.4-mini). Chúng tôi sẽ chờ xem Moonshot có dám gửi K2.7-Code lên DeepSWE để xác minh năng lực thực tế hay không."

Khuyến nghị cho doanh nghiệp

Mặc dù năng lực bứt phá còn đang tranh cãi, mức giảm 30% token suy nghĩ là một điểm cộng rất lớn và có thể ứng dụng ngay lập tức. Các doanh nghiệp đang tích hợp K2.6 vào cổng trung chuyển (gateway) của mình hoàn toàn có thể cân nhắc cấu hình thử nghiệm K2.7-Code để tự đánh giá mức độ tối ưu chi phí dựa trên chính phân phối tác vụ (task distribution) thực tế của tổ chức mình.

Nguồn tham khảo: VentureBeat & KernelBench.