Bỏ qua đến nội dung chính
Về trang chủ
AI tools-ai 5 phút đọc

SkillOpt: Microsoft Research Ra Mắt Khung Tối Ưu Hóa AI Agent Bằng Kỹ Năng Ngôn Ngữ Tự Nhiên, Không Cần Chỉnh Trọng Số Mô Hình! 🚀

SkillOpt của Microsoft Research là một framework đột phá giúp tối ưu hóa hành vi của tác nhân AI thông qua việc huấn luyện các tài liệu kỹ năng ngôn ngữ tự nhiên, coi chúng như tham số có thể đào tạo mà không cần thay đổi trọng số mô hình, mang lại hiệu suất vượt trội.

Tier 1 · nguồn 99% độ tin cậy Auto-priority
Nguồn gốc microsoft.com

Microsoft Research đã giới thiệu SkillOpt, một framework tối ưu hóa đột phá giúp xử lý các kỹ năng tác nhân AI bằng ngôn ngữ tự nhiên như những tham số có thể đào tạo, thay vì tinh chỉnh trọng số mô hình. Trong kỷ nguyên các mô hình ngôn ngữ lớn (LLM) bị đóng băng hoặc truy cập qua API (như GPT-5.5 với Codex hay Claude Code), khả năng cải thiện có hệ thống hành vi của tác nhân trở nên cực kỳ quan trọng.

SkillOpt định hình việc cải thiện tác nhân như một bài toán tối ưu hóa trong không gian văn bản, phản ánh cấu trúc của học sâu một cách có chủ ý:

* Trọng số tương ứng với Tài liệu kỹ năng bằng ngôn ngữ tự nhiên (định dạng markdown). * Gradient tương ứng với các Chỉnh sửa (thêm, xóa, thay thế) được suy ra từ quỹ đạo. * Tốc độ học tương ứng với Giới hạn ngân sách chỉnh sửa (ngăn chặn các chỉnh sửa phá hoại hoặc quá mạnh). * Tập kiểm định tương ứng với Tập tác vụ giữ lại (đảm bảo các chỉnh sửa có khả năng tổng quát hóa tốt). * Epochs tương ứng với Các vòng tối ưu hóa với cập nhật chậm/meta.

Vòng Lặp Chính của SkillOpt 🔄

SkillOpt hoạt động thông qua một vòng lặp tối ưu hóa tự động 4 bước trong không gian văn bản:

1. Rollout (Forward Pass): Mô hình mục tiêu “đóng băng” thực thi các tác vụ bằng tài liệu kỹ năng ngôn ngữ tự nhiên hiện tại và ghi lại các quỹ đạo được chấm điểm. 2. Reflect (Backward Pass): Một mô hình tối ưu hóa riêng biệt phân tích các minibatch quỹ đạo thành công và thất bại để xác định các quy trình có thể tái sử dụng hoặc các mẫu thất bại. 3. Edit (Weight Update): Mô hình tối ưu hóa đề xuất các thao tác chỉnh sửa ứng cử viên (thêm, xóa và thay thế) dưới một giới hạn ngân sách nghiêm ngặt (tốc độ học theo văn bản). 4. Gate (Validation Split): Tài liệu kỹ năng ứng cử viên được kiểm tra trên một tập dữ liệu kiểm định riêng. Nó chỉ được giữ lại nếu cải thiện hiệu suất trên các tác vụ đã giữ lại.

Cổng kiểm định này là một cơ chế an toàn quan trọng: các chỉnh sửa không cải thiện hiệu suất sẽ bị từ chối, đảm bảo rằng các kỹ năng chỉ tốt hơn trong quá trình đào tạo, không bao giờ tệ đi.

Đánh Giá Hệ Thống & Hiệu Suất Vượt Trội 📈

Trong các đánh giá toàn diện trên 6 benchmark và 7 mô hình, SkillOpt đã đạt được hiệu suất tốt nhất hoặc đồng tốt nhất trong 52 trên 52 thiết lập, nâng cao đáng kể độ chính xác của các mô hình tiên tiến như GPT-5.5 và Claude Code mà không cần thay đổi một trọng số thần kinh nào. Ví dụ, trên SearchQA, Spreadsheet và LiveMath, SkillOpt liên tục vượt trội hơn kỹ thuật prompt truyền thống và RAG cơ bản:

* SearchQA: Độ chính xác đạt 87,1% (so với 84,6% khi không có chỉnh sửa giới hạn). * Spreadsheet: Độ chính xác đạt 77,5% (so với 75,7% khi không có). * LiveMath: Độ chính xác đạt 61,3% (so với 57,3% khi không có).

Tại Sao SkillOpt Lại Quan Trọng? 🤔

Theo truyền thống, các tác nhân AI thường rất “mỏng manh”. Khi nhà phát triển điều chỉnh thủ công các prompt hoặc hướng dẫn để sửa một lỗi, họ thường vô tình tạo ra các lỗi hồi quy trong các tình huống khác. Vòng lặp chỉnh sửa thủ công này chậm, dễ gây lỗi và thiếu các đảm bảo có hệ thống.

SkillOpt nằm trong một danh mục riêng biệt giữa fine-tuning và prompt engineering:

* Fine-Tuning: Điều chỉnh trọng số mô hình một cách có hệ thống, tốn kém, chậm và không thể thực hiện đối với các API thương mại mã nguồn đóng. * Prompt Engineering: Thủ công tạo ra các quy tắc, thiếu kỷ luật tối ưu hóa và dễ mắc lỗi do con người cũng như gây hồi quy. * RAG (Retrieval-Augmented Generation): Hữu ích cho việc tra cứu kiến thức tĩnh, nhưng không thể tối ưu hóa hành vi thủ tục cốt lõi của tác nhân.

Bằng cách kết hợp RAG cho kiến thức, SkillOpt cho hành vi và dành fine-tuning cho việc thích ứng sâu với miền, các nhà phát triển giờ đây có thể xây dựng các quy trình làm việc tự động đáng tin cậy, tự phát triển. Microsoft đã phát hành SkillOpt theo giấy phép MIT rộng rãi, cùng với bài báo nghiên cứu chính thức và codebase mã nguồn mở.

* Kho lưu trữ mã chính thức: https://github.com/microsoft/SkillOpt * Bài báo nghiên cứu: https://arxiv.org/abs/2605.23904