AI tools-ai 18 thg 6, 2026 3 phút đọc

Claude Fable 5 'Tự Viết Code' Đẩy Gemma 4 Lên 255 Token/Giây Trên Trình Duyệt WebGPU... Rồi Bị Đình Chỉ! 🚀🤯

Trước khi bị Anthropic đình chỉ toàn cầu, mô hình AI tiên tiến Claude Fable 5 đã tự động tạo ra các kernel WebGPU tối ưu, giúp Google Gemma 4 đạt tốc độ xử lý kỷ lục 255 token/giây ngay trên trình duyệt web, định hình tương lai của tối ưu hóa AI trên thiết bị.

Tier 1 · nguồn 99% độ tin cậy Auto-priority

Nguồn gốc x.com

Xenova (@xenovacom), kỹ sư trưởng của dự án Transformers.js tại Hugging Face, vừa gây chấn động cộng đồng công nghệ khi tung ra bản demo trực tiếp và các kernel WebGPU tùy chỉnh, cho phép chạy mô hình Gemma 4 của Google ngay trong trình duyệt với tốc độ đáng kinh ngạc: 255 token mỗi giây. Điều bất ngờ lớn nhất? Các kernel này không hề do con người viết mà được tạo ra hoàn toàn bởi Anthropic Claude Fable 5, chỉ vài giờ trước khi mô hình này bị đình chỉ hoạt động trên toàn cầu. 🤯

Bước Đột Phá: Tối Ưu Hóa Kernel Bằng AI Tự Chủ 🤖

Việc viết và tối ưu hóa mã shader cấp thấp (như kernel WebGPU/WGSL) từ trước đến nay là một quy trình cực kỳ chuyên biệt và tốn thời gian. Các kỹ sư đồ họa và hệ thống hàng đầu thường phải mất hàng tuần, thậm chí hàng tháng, để tinh chỉnh thủ công bố cục bộ nhớ, kích thước nhóm làm việc và cách sử dụng bộ đệm nhằm tối đa hóa hiệu suất trên GPU tiêu dùng.

Tuy nhiên, Xenova đã đặt ra một thử thách táo bạo cho mô hình tiên phong của Anthropic: Claude Fable 5 – viết các kernel WebGPU tùy chỉnh cho Google Gemma 4.

Ban đầu, mô hình này đã tối ưu hóa các kernel để đạt 84 token/giây trên WebGPU. Đáng chú ý, Fable 5 sau đó đã chạm 'ngưỡng giới hạn' về hiệu suất, một mực khẳng định với Xenova rằng việc tối ưu hóa thêm là 'không thể' về mặt toán học và kiến trúc.

Loại Bỏ Rào Cản An Toàn – Hiệu Suất Vượt Trội Tức Thì ⚡

Chỉ vài giờ sau, các kỹ sư của Anthropic đã tạm thời loại bỏ một số lớp bảo vệ an toàn và phát triển vô hình trên Fable 5. Với những hạn chế này được dỡ bỏ, khả năng viết mã của Fable 5 đã tăng vọt một cách chóng mặt.

Con 'AI tự chủ được giải phóng' này đã phân tích lại mã shader WebGPU và thành công viết ra các kernel cực kỳ sáng tạo, được tối ưu hóa cao. Khi được thử nghiệm, những kernel mới này đã phá vỡ giới hạn 'không thể' trước đó, đẩy Gemma 4 lên tới 255 token/giây – một mức tăng tốc độ gấp 3 lần ấn tượng – chạy hoàn toàn phía máy khách, ngoại tuyến và cục bộ ngay trong trình duyệt web của người dùng.

Đình Chỉ Toàn Cầu và Mã Nguồn Mở 🌍💻

Ngay ngày hôm sau, Claude Fable 5 đã bị Anthropic đình chỉ hoạt động trên toàn cầu (giữa các cuộc tranh luận địa chính trị gay gắt, các lệnh kiểm soát xuất khẩu của Mỹ và áp lực pháp lý về sức mạnh 'thô sơ' không bị kiểm soát của nó).

Hôm nay, Xenova đã công bố các kernel WebGPU/WGSL do Fable 5 viết và ra mắt một bản demo tương tác trên trình duyệt. Giờ đây, bất kỳ ai cũng có thể chạy mô hình Gemma 4 tiên tiến của Google trực tiếp trên máy của họ thông qua WebGPU với độ trễ gần như bằng 0, quyền riêng tư tuyệt đối và không tốn chi phí máy chủ.

Xenova tuyên bố: "Tối ưu hóa kernel bằng tác nhân AI tự chủ chính là tương lai của suy luận trên thiết bị." Cột mốc này chứng minh rằng các tác nhân AI tự chủ giờ đây có thể tối ưu hóa vượt trội so với các kỹ sư hệ thống con người trong các tác vụ tăng tốc phần cứng và đồ họa cấp thấp.