DeepReinforce AI vừa chính thức công bố mã nguồn mở Ornith-1.0 ✨, một dòng mô hình tiên phong được thiết kế đặc biệt cho các nhiệm vụ mã hóa tự động, có khả năng tác tử. Được phát hành theo giấy phép MIT linh hoạt, dòng mô hình này bao gồm bốn kích thước riêng biệt để phù hợp với các quy mô hoạt động khác nhau:
- 9B Dense: Mô hình nhỏ gọn, có thể triển khai tại biên, dành cho các thiết lập tài nguyên hạn chế. 💡 - 31B Dense: Mô hình cỡ trung cân bằng. - 35B MoE: Kiến trúc hỗn hợp chuyên gia (MoE) cực kỳ hiệu quả. - 397B MoE: Mô hình tiên phong chủ lực, được thiết kế cho kỹ thuật phần mềm cấp doanh nghiệp. 🚀
Toàn bộ dòng mô hình này được huấn luyện dựa trên các nền tảng tiền huấn luyện hiện đại nhất, bao gồm Gemma 4 và Qwen 3.5. Các trọng số và báo cáo kỹ thuật đã được công bố rộng rãi trên Hugging Face, minh chứng cho cam kết minh bạch và hợp tác của DeepReinforce AI. Nguồn
Sáng Kiến Đột Phá: Học Tăng Cường Tự Giàn Giáo (Self-Scaffolding) 🤯
Các tác tử mã hóa AI truyền thống thường dựa vào các khung hoặc giàn giáo được thiết kế thủ công – tức là mã Python hoặc luồng nhắc tĩnh, do con người thiết kế, định nghĩa cách mô hình gọi công cụ, xử lý ngoại lệ, cấu trúc bộ nhớ và thử lại khi biên dịch hoặc kiểm thử thất bại. Điều này tạo ra một nút thắt cổ chai lớn trong quá trình phát triển và khả năng thích ứng của AI.
Ornith-1.0 loại bỏ hoàn toàn nút thắt kỹ thuật thủ công này. Theo mô hình huấn luyện Tự Giàn Giáo của nó, giàn giáo được coi là một đối tượng có thể học được, cùng phát triển với chính sách mã hóa trong quá trình học tăng cường (RL):
1. Giai đoạn 1 (Tạo Giàn Giáo): Dựa trên một nhiệm vụ lập trình và giàn giáo đã thử trước đó, mô hình đề xuất một giàn giáo được tinh chỉnh (một kế hoạch điều phối, trình tự thử lại hoặc sắp xếp công cụ). 🛠️ 2. Giai đoạn 2 (Tạo Giải Pháp): Dựa trên giàn giáo mới được tạo và mô tả nhiệm vụ ban đầu, mô hình thực hiện triển khai giải pháp (truy cập thư mục, thực thi kiểm thử, viết mã). 3. Lan Truyền Phần Thưởng: Phần thưởng cuối cùng (dựa trên kiểm thử đơn vị hoặc xác minh kiểm thử) được truyền ngược lại cả hai giai đoạn. Điều này tối ưu hóa mô hình không chỉ để viết cú pháp đúng mà còn để điều phối vòng lặp tác tử mang lại mã thành công.
Qua hàng ngàn lần lặp huấn luyện, Ornith-1.0 học được các mô hình phối hợp cụ thể cho từng nhiệm vụ. Điều này cho phép các chiến lược giải quyết vấn đề tùy chỉnh xuất hiện tự nhiên từ học tăng cường, mà không cần sự can thiệp kỹ thuật thủ công từ con người.
Các Điểm Chuẩn Hiện Đại Vượt Trội 🏆
Ornith-1.0 thiết lập các ngưỡng hiệu suất mới cho các tác tử phát triển mã nguồn mở, ngang bằng hoặc vượt trội hơn các mô hình kỹ thuật phần mềm độc quyền hàng đầu:
- SWE-Bench Verified: - Ornith-1.0-397B MoE đạt 82.4%, vượt trội hơn Claude Opus 4.7 (80.8%), MiniMax M3 (80.5%) và DeepSeek-V4-Pro (80.6%). Đây là một thành tích đáng nể, cho thấy tiềm năng cạnh tranh mạnh mẽ của mã nguồn mở. - Ornith-1.0-9B Dense đạt 69.4%, ngang bằng với các nền tảng lớn hơn nhiều như Gemma 4-31B. Điều này chứng tỏ hiệu quả đáng kinh ngạc của mô hình nhỏ gọn. - Terminal-Bench 2.1: - Ornith-1.0-397B MoE đạt 77.5%, vượt mặt Claude Opus 4.7 (70.3%), MiniMax M3 (66.0%) và DeepSeek-V4-Pro (67.9%). - Ornith-1.0-9B Dense đạt 43.1%, chứng minh rằng ngay cả các mô hình biên cũng có thể thực hiện thành công các chẩn đoán dòng lệnh phức tạp. 💪
Phòng Ngừa Rủi Ro và Lạm Dụng Phần Thưởng 🛡️
Để ngăn chặn mô hình khai thác môi trường học tăng cường (lạm dụng phần thưởng, sửa đổi bộ kiểm thử hoặc truy cập các ranh giới hệ thống tệp được bảo vệ), DeepReinforce đã xây dựng một hàng rào an toàn kiến trúc với ba lớp riêng biệt:
1. Ranh Giới Tin Cậy Bất Biến: Môi trường thực thi kiểm thử bên ngoài, công cụ và ranh giới hộp cát được mã hóa cứng và hoàn toàn ngoài tầm với của mô hình. Mô hình chỉ có thể phát triển giàn giáo chính sách bên trong của mình (định tuyến lỗi, lập kế hoạch và bộ nhớ). 2. Giám Sát Viên Xác Định: Các tập lệnh xác minh nghiêm ngặt ngay lập tức gắn cờ và chấm dứt thời gian chạy nếu mô hình cố gắng đọc các đường dẫn bị cấm, thay đổi tiêu chí đánh giá hoặc vượt qua hộp cát. 3. Xác Thực Đối Kháng: Các giàn giáo được kiểm toán định kỳ thông qua các quy trình đánh giá đối kháng độc lập trước khi triển khai, đảm bảo tính bền vững và an toàn của hệ thống. ✅
Bằng cách công bố mã nguồn mở các mô hình theo giấy phép MIT, DeepReinforce AI đặt mục tiêu đẩy nhanh quá trình chuyển đổi từ tự động hoàn thành mã chỉ tạo văn bản đơn giản sang các tác tử kỹ thuật phần mềm hoàn toàn tự chủ, tự cải tiến. Đây là một bước tiến quan trọng hướng tới tương lai của lập trình, nơi AI không chỉ viết code mà còn học cách viết code tốt hơn một cách độc lập.