Thử thách "One-Shot" với mô hình AI mạnh nhất thế giới
Mới đây, nhà phát triển Koen van Gilst đã quyết định thử nghiệm Claude Fable 5 — siêu mô hình AI mà Anthropic từng trì hoãn ra mắt công chúng vì lo ngại về các rủi ro an ninh quốc gia. Thử thách mà Koen đặt ra là một bài test cá nhân cực kỳ khắc nghiệt: Liệu AI có thể tự xây dựng ý tưởng game mà anh đã ấp ủ nhiều năm chỉ trong một lần thử duy nhất (single shot)?
Kết quả nhận được đã vượt ngoài mong đợi và chứng minh sức mạnh lập trình đáng kinh ngạc của thế hệ AI mới.
---
45 phút suy nghĩ và €20 tiền token cho một game hoàn chỉnh
Không giống như các mô hình AI thông thường chỉ phản hồi sau vài giây, Claude Fable 5 đã thực hiện một phiên suy nghĩ (reasoning step) kéo dài tới 45 phút liên tục. Chi phí cho lượng token suy luận này tiêu tốn hơn €20 (khoảng 550.000 VNĐ).
Tuy nhiên, đổi lại chi phí khổng lồ đó là một kết quả hoàn hảo: * AI đã bàn giao một file index.html duy nhất dài 2.319 dòng code. * Trò chơi hoàn chỉnh 100%, không sử dụng bất kỳ thư viện hay dependency bên ngoài nào. * Game chạy mượt mà ngay trong lần thử đầu tiên mà không xuất hiện bất kỳ lỗi cú pháp hay logic nào.
Trò chơi mang tên Shepherd's Dog (Chó chăn cừu). Trong game, người chơi sẽ điều khiển một chú chó chăn cừu để lùa đàn cừu vào chuồng, tránh các chướng ngại vật và thú dữ. Koen chia sẻ rằng trò chơi hoạt động chính xác và thú vị đúng như những gì anh đã hình dung trong đầu suốt nhiều năm qua.
---
Kỷ nguyên của những "Super Agent" tự chủ
Sự thành công của Claude Fable 5 trong thử thách này đánh dấu bước chuyển mình quan trọng từ các trợ lý viết code (code assistants) sang các tác nhân lập trình tự chủ (autonomous coding agents). Khả năng tự lên kế hoạch, quản lý cấu trúc mã nguồn phức tạp trên 2.000 dòng và tự sửa lỗi trong quá trình suy luận trước khi xuất bản là điều mà các mô hình cũ như Claude 3.5 Sonnet hay GPT-4o khó lòng đạt được trong một shot.
Bạn đọc quan tâm có thể trực tiếp trải nghiệm tựa game do Claude Fable 5 tự viết tại đây: Trải nghiệm game Shepherd's Dog.