Anthropic Đột Phá: Claude Opus 4.7 Tự Động Lập Trình và Điều Khiển Robodog Nhanh Gấp 37 Lần Con Người! 🤖🚀
Anthropic vừa công bố kết quả của Dự án Fetch: Pha Hai (Project Fetch: Phase Two), một thí nghiệm nội bộ phi thường nhằm kiểm tra khả năng của mô hình tiên tiến nhất của họ, Claude Opus 4.7, trong việc tự động viết mã, kết nối cảm biến và điều khiển phần cứng vật lý (cụ thể là một chú chó robot bốn chân có sẵn trên thị trường) trong thế giới thực. Theo báo cáo từ Anthropic nguồn, các kết quả cho thấy một bước nhảy vọt thế hệ cực lớn từ Claude Opus 4.1 lên Opus 4.7, chứng minh rằng các hệ thống AI mạnh mẽ, tự chủ có thể thu hẹp khoảng cách kỹ thuật số-vật lý với tốc độ và hiệu quả đáng kinh ngạc. ✨
Dự Án Fetch Là Gì? 💡
Thí nghiệm Project Fetch ban đầu được thực hiện vào tháng 8 năm 2024. Anthropic đã tuyển dụng tám nhà nghiên cứu và kỹ sư (không ai trong số họ có kinh nghiệm về robot trước đó) và chia họ thành hai đội: 1. Đội Claude: Được cung cấp quyền truy cập vào mô hình tiên tiến nhất thời điểm đó, Claude Opus 4.1. 2. Đội Không Claude: Chỉ có internet và kỹ năng giải quyết vấn đề của riêng họ.
Nhiệm vụ của họ là lập trình một chú chó robot bốn chân để đi lấy một quả bóng bãi biển. Mặc dù Đội Claude dễ dàng vượt trội hơn Đội Không Claude, Anthropic vẫn kiểm tra lại liệu Claude Opus 4.1 có thể thực hiện các nhiệm vụ hoàn toàn độc lập hay không. Kết quả là không. Giống như đội người không có Claude, Opus 4.1 đã hoàn toàn bế tắc ở nhiệm vụ sơ bộ là tìm cách kết nối với giao diện của chó robot. Đây là một hạn chế lớn, cho thấy ngay cả AI tiên tiến cũng cần sự "dẫn dắt" ban đầu.
Pha Hai: Claude Opus 4.7 & Claude Code Tự Chủ Hoàn Toàn 🧠
Với sự ra mắt của Claude Opus 4.7 và tác nhân phát triển dựa trên terminal của nó, Claude Code, Anthropic đã chạy lại thí nghiệm tương tự. Lần này, không có đội người nào hướng dẫn AI. Claude Opus 4.7 được giao nhiệm vụ hoàn thành một cách hoàn toàn tự chủ.
Các nhiệm vụ được kiểm tra bao gồm: * Kết nối với luồng video camera của chó robot. * Kết nối và đọc dữ liệu từ cảm biến LiDAR tích hợp. * Viết chương trình điều khiển phần mềm để di chuyển robot bốn chân. * Giám sát chuyển động và phản hồi của nó. * Phát hiện quả bóng bãi biển.
1. Tốc Độ \"Thần Tốc\" (Nhanh Gấp 18x đến 37x) ⏱️
Đối với bốn nhiệm vụ cốt lõi mà cả hai đội người ban đầu đã hoàn thành, Claude Opus 4.7 chỉ mất 9 phút 35 giây.
Để so sánh: * Đội Không Claude (con người không có AI) mất 361 phút (hơn 6 giờ). * Đội Claude (con người được hỗ trợ bởi Claude Opus 4.1) mất 181 phút (3 giờ).
Điều này có nghĩa là Claude Opus 4.7 khi hoạt động tự chủ đã: * Nhanh hơn 37,7 lần so với đội người không có AI. * Nhanh hơn 18,9 lần so với đội người được hỗ trợ bởi Claude Opus 4.1.
Con số này không chỉ ấn tượng về mặt tốc độ, mà còn là minh chứng rõ ràng cho tiềm năng của các hệ thống AI tự chủ trong việc tối ưu hóa quy trình.
2. Mã Lệnh Ít Hơn Gần 10 Lần (Hiệu Quả Tối Đa) 💻
Các kỹ sư con người thường gặp khó khăn trong việc lựa chọn giữa nhiều phương pháp phức tạp để giao tiếp với phần cứng vật lý, dẫn đến nhiều lần thử nghiệm thừa thãi và kho lưu trữ mã cồng kềnh. Claude Opus 4.7, mặt khác, đã có thể chọn ngay cách tiếp cận kỹ thuật tối ưu nhất.
Hầu hết mã nó viết đều sạch, mạnh mẽ và hiệu quả ngay từ lần thử đầu tiên. Sự khác biệt về số lượng mã lệnh là đáng kinh ngạc: * Đội Claude (con người + AI): Viết 10.309 dòng mã. * Đội Không Claude (con người): Viết 1.136 dòng mã. * Claude Opus 4.7 (AI tự chủ): Chỉ viết 1.045 dòng mã—nhưng vẫn hoàn toàn thành công!
Điều này cho thấy khả năng suy luận và lựa chọn giải pháp tối ưu của AI đã đạt đến một tầm cao mới, giúp giảm thiểu đáng kể sự phức tạp và công sức trong phát triển.
Ý Nghĩa Thực Tiễn & Hạn Chế 🌐
Dự án Fetch chứng minh rằng khi các mô hình ngôn ngữ lớn (LLM) cải thiện, khả năng hoạt động trong thế giới vật lý bằng cách tương tác với phần cứng chưa biết trước có thể tăng theo cấp số nhân. Những gì từng yêu cầu các nhóm kỹ sư mất vài giờ gỡ lỗi, cấu hình thư viện và thử-sai, giờ đây có thể được thực hiện bởi một tác nhân tự chủ chỉ trong vài phút.
Tuy nhiên, thí nghiệm cũng làm nổi bật một số lĩnh vực cần cải thiện. Ví dụ, Claude Opus 4.7 mặc định sử dụng một thuật toán phát hiện đối tượng lỗi thời. Nhưng ngay cả với lỗi này, khả năng suy luận tiên tiến của nó đã cho phép nó tự động khắc phục vấn đề và đưa ra một giải pháp hoàn toàn hoạt động.
Mặc dù "những chú chó robot hiện đang nằm trong chuồng," Anthropic dự định sẽ tiếp tục thử nghiệm ranh giới kỹ thuật số-vật lý của các hệ thống tự chủ, vạch ra một con đường mà các tác nhân AI sẽ thiết kế, xây dựng và triển khai phần mềm một cách liền mạch trên cả máy chủ phần mềm và máy vật lý. Đây là một tầm nhìn đầy hứa hẹn về tương lai của tự động hóa và AI.