AI tools-ai 27 thg 6, 2026 5 phút đọc

AI Lập Trình Không Ngừng 19 Ngày, 'Đốt' $2.600 Chỉ Cho Một Nhiệm Vụ: MirrorCode Tiết Lộ Điều Gì Về Kỷ Nguyên Phần Mềm Tự Động? 🤯💰

Chuẩn đánh giá MirrorCode cho thấy AI có thể tái tạo phần mềm phức tạp tự động, với Claude Opus 4.7 dẫn đầu, nhưng cũng tiết lộ chi phí khổng lồ (2.600 USD cho 19 ngày làm việc liên tục) cùng những hạn chế về khả năng giải quyết tác vụ lớn và nguy cơ dữ liệu bị nhiễm bẩn.

Tier 2 · nguồn 99% độ tin cậy Auto-priority

Nguồn gốc the-decoder.com

MirrorCode: Khi AI Tự Lập Trình Và Ngân Sách Vượt Xa Giới Hạn 🤖

Nguồn: The Decoder Tác giả: Matthias Bastian Ngày xuất bản: 26 tháng 6 năm 2026

---

Tổng quan: 'Thử Thách Mã Gương' Mở Ra Kỷ Nguyên Mới? 🚀

MirrorCode, một chuẩn đánh giá lập trình mới được phát triển bởi Epoch AI và METR, đang định nghĩa lại cách chúng ta đo lường khả năng của AI. Không giống các chuẩn truyền thống giới hạn ngân sách tính toán chỉ $1-$10 cho mỗi tác vụ, MirrorCode cho phép chi phí khổng lồ, tập trung vào khả năng AI tự động tái tạo hoàn chỉnh các chương trình phần mềm phức tạp từ đầu mà không cần mã nguồn gốc. Điều này mở ra một cái nhìn sâu sắc về tiềm năng của AI trong các tác vụ kỹ thuật phần mềm dài hạn và độc lập.

Hiệu suất và Bảng xếp hạng: Ai Đang Dẫn Đầu Cuộc Đua? 🏆

Các mô hình AI hàng đầu đã thể hiện khả năng ấn tượng: * Claude Opus 4.7 dẫn đầu với tỷ lệ giải quyết 56%. * GPT-5.5 theo sau ở vị trí thứ hai với 44%. * Gemini 3.1 Pro Preview đứng thứ ba với 32%.

Đáng chú ý, ngay cả khi không thể giải quyết hoàn chỉnh một tác vụ, các mô hình này thường vượt qua 90% trở lên các trường hợp kiểm thử.

Điển hình Đáng Chú ý: `gotree` và Chi Phí 💰

Claude Opus 4.7 đã tái triển khai thành công gotree, một bộ công cụ tin sinh học phức tạp: * Kích thước mã nguồn: Khoảng 16.000 dòng mã Go với hơn 40 lệnh. * Thời gian & Chi phí AI: 14 giờ / $251. * Tương đương với con người: 2 đến 17 tuần phát triển thủ công (không có sự hỗ trợ của AI). Một con số thực sự ấn tượng về hiệu quả, dù chi phí không hề nhỏ cho những tác vụ lớn hơn!

Thiết kế và Phương pháp luận: MirrorCode Hoạt Động Như Thế Nào? 🔬

* Mục tiêu: Tái triển khai các chương trình mục tiêu sao cho chúng khớp chính xác đầu ra của phần mềm gốc, vượt qua các bài kiểm tra đầu cuối ẩn. * Phạm vi: 25 chương trình mục tiêu, bao gồm các tiện ích Unix, tuần tự hóa dữ liệu, tin sinh học, trình thông dịch, phân tích tĩnh, mật mã và nén. * Danh mục Tác vụ: * Nhỏ: (ví dụ: uuid, parseqsv) Được tất cả các mô hình đã thử nghiệm giải quyết đáng tin cậy. * Trung bình: Được các mô hình cấp cao giải quyết. * Lớn: Hiện tại chưa có mô hình nào giải quyết được. * Mã nguồn mở: Epoch AI đã mở mã nguồn giàn kiểm thử và 22 trong số 25 chương trình mục tiêu (bao gồm 132 trường hợp tác vụ trên 6 ngôn ngữ lập trình). Ba chương trình còn lại vẫn riêng tư để tránh nguy cơ 'ô nhiễm' dữ liệu.

Trích dẫn Quan trọng và Cái nhìn Sâu sắc 💡

> "Theo Epoch AI, một trong những tác vụ lớn nhất trong MirrorCode đã tiêu tốn $2.600 cho một lần chạy duy nhất. AI đã làm việc liên tục trong 19 ngày mà không có bất kỳ sự can thiệp nào của con người."

Đây là một con số đáng kinh ngạc, cho thấy sự sẵn lòng 'đốt tiền' để thử nghiệm giới hạn của AI. Tuy nhiên, hiệu suất cao không phải lúc nào cũng hoàn toàn do trí tuệ tạo ra:

> "Kết quả không bị chi phối bởi việc ghi nhớ, nhưng chúng ta không thể loại trừ khả năng ghi nhớ góp phần vào hiệu suất của AI."

Điều này đặt ra câu hỏi quan trọng về ranh giới giữa học hỏi thực sự và đơn thuần sao chép trong các mô hình lớn.

Xu hướng Chi phí và Hiệu quả: Cuộc Đua Kinh Tế 💸

Chuẩn đánh giá này cũng tiết lộ những quỹ đạo chi phí khác nhau đáng kể giữa các nhà cung cấp AI lớn: * OpenAI: GPT-5.5 có chi phí gấp ba lần so với GPT-5 cho cùng các tác vụ. * Anthropic: Claude Opus 4.7 lại chạy rẻ hơn gấp ba lần so với Claude Opus 4.1.

Một cuộc cạnh tranh về hiệu quả kinh tế rõ ràng đang diễn ra giữa các 'ông lớn' AI, nơi tối ưu hóa chi phí cũng quan trọng không kém hiệu suất.

Hạn chế và Lưu ý Quan trọng: Bức Tường Mà AI Chưa Vượt Qua 🚧

1. Bức tường 'Tác vụ Lớn': Chưa có mô hình nào trong số các mô hình được thử nghiệm hoàn thành thành công bất kỳ tác vụ nào thuộc danh mục "Lớn". Điều này cho thấy AI vẫn còn một chặng đường dài để giải quyết các thách thức kỹ thuật phần mềm phức tạp nhất. 2. Nguy cơ Ô nhiễm Dữ liệu: Vì MirrorCode nhắm mục tiêu vào các chương trình mã nguồn mở hiện có, có khả năng các mô hình đã tiếp xúc với mã nguồn gốc trong quá trình huấn luyện trước. Đây là một hạn chế quan trọng cần được xem xét kỹ lưỡng khi đánh giá khả năng 'sáng tạo' thực sự của AI.