Bỏ qua đến nội dung chính
Về trang chủ
AI tools-ai 12 phút đọc

Self-Harness: AI Tự Viết Lại Quy Tắc Hoạt Động, Hiệu Suất Tăng Vọt Đến 60%! 🚀🤖

Các nhà nghiên cứu tại Phòng thí nghiệm AI Thượng Hải đã giới thiệu Self-Harness, một khung công tác tiên tiến cho phép các tác nhân AI dựa trên mô hình ngôn ngữ lớn (LLM) tự động điều chỉnh và cải thiện quy tắc hoạt động của chính mình dựa trên dữ liệu thực thi, giúp tăng hiệu suất lên đến 60% mà không cần can thiệp thủ công hay mô hình bên ngoài. ✨

Tier 2 · nguồn 99% độ tin cậy Auto-priority
Nguồn gốc venturebeat.com

Self-Harness: AI Tự Học Cách Tối Ưu Hóa Bản Thân, Hiệu Suất Tăng Đến 60%! 🚀

Giới thiệu về Self-Harness

Trong kỷ nguyên AI bùng nổ, việc tùy chỉnh "harness" – hệ thống điều khiển và tương tác với các mô hình AI – trở nên ngày càng quan trọng đối với các doanh nghiệp. Tuy nhiên, việc tinh chỉnh harness hiện tại vẫn chủ yếu dựa vào kinh nghiệm thủ công, thiếu đi một quy trình phản hồi có hệ thống, khiến việc thích nghi với các mô hình ngôn ngữ lớn (LLM) thay đổi nhanh chóng trở nên khó khăn.

Để giải quyết thách thức này, các nhà nghiên cứu tại Phòng thí nghiệm Trí tuệ Nhân tạo Thượng Hải đã giới thiệu "Self-Harness" – một mô hình đột phá. Theo đó, các tác nhân AI dựa trên LLM có khả năng tự động cải thiện các quy tắc vận hành của chính mình. Thay vì phỏng đoán thủ công, Self-Harness sử dụng bằng chứng thực nghiệm từ các vết thực thi (execution traces) của chính tác nhân để thực hiện các chỉnh sửa, cho phép các nhóm phát triển triển khai các tác nhân tùy chỉnh mạnh mẽ, liên tục thích ứng với những điểm yếu riêng của mô hình.

Thách thức trong kỹ thuật thiết kế Harness

Hiệu suất của một tác nhân AI không chỉ phụ thuộc vào mô hình nền tảng mà còn vào harness của nó. Harness là hệ thống bao quanh cung cấp ngữ cảnh và cho phép mô hình tương tác với môi trường. Nó bao gồm các thành phần như lời nhắc hệ thống (system prompts), công cụ (tools), bộ nhớ, quy tắc xác minh, chính sách thời gian chạy và quy trình phục hồi lỗi.

Lớp harness này rất quan trọng vì nhiều lỗi phổ biến của tác nhân phát sinh từ chính harness chứ không phải từ mô hình. Ví dụ, một tác nhân có thể báo cáo thành công mà không kiểm tra phản hồi của mô hình, hoặc lặp lại một hành động thất bại nhiều lần. Harness cũng chịu trách nhiệm ngăn chặn "hỏng ngữ cảnh" hoặc quá tải khi lịch sử tương tác của tác nhân trở nên quá lớn. Các harness phổ biến bao gồm SWE-agent, Claude Code, Codex và OpenHands.

Kỹ thuật thiết kế harness vẫn là một thách thức lớn. Theo Hangfan Zhang, tác giả chính của bài báo Self-Harness, vấn đề không nằm ở việc con người quá chậm hoặc kém năng lực. Thực tế, "một kỹ sư giàu kinh nghiệm với kiến thức chuyên sâu vẫn có thể đề xuất những thay đổi tốt hơn so với những gì LLM có thể làm ngày nay."

Thay vào đó, nút thắt thực sự của kỹ thuật thủ công là việc nó phụ thuộc quá nhiều vào gỡ lỗi không có hệ thống, thay vì một vòng lặp phản hồi có thể kiểm chứng được. Zhang giải thích: "Vấn đề sâu sắc hơn là mô hình kỹ thuật harness hiện tại thường thiếu một vòng lặp phản hồi có hệ thống. Nhiều chỉnh sửa được thực hiện dựa trên trực giác, một vài lỗi được quan sát hoặc gỡ lỗi tạm thời." Với tốc độ phát hành mô hình mới nhanh chóng, việc dựa vào trực giác con người để điều chỉnh harness dành riêng cho từng mô hình trở nên ngày càng tốn kém và không bền vững.

Cách Self-Harness hoạt động

Mô hình Self-Harness cho phép một tác nhân AI dựa trên LLM tự cải thiện harness của mình mà không cần đến kỹ sư con người hay các mô hình bên ngoài mạnh hơn. Quá trình tự tiến hóa liên tục này được thúc đẩy bởi một vòng lặp ba giai đoạn, biến bằng chứng hành vi thành các bản cập nhật harness:

* Phát hiện điểm yếu (Weakness mining): Bắt đầu từ một harness ban đầu, tác nhân thực hiện một tập hợp các tác vụ, tạo ra các vết thực thi với kết quả có thể xác minh. Tác nhân phân loại các vết lỗi và cố gắng phát hiện các mẫu lỗi cụ thể của mô hình. * Đề xuất chỉnh sửa Harness (Harness proposal): Dựa trên các mẫu lỗi này, tác nhân sử dụng vai trò "người đề xuất" (proposer) để tạo ra một tập hợp các chỉnh sửa harness đa dạng nhưng tối thiểu. Mỗi chỉnh sửa được liên kết với một cơ chế lỗi cụ thể để tránh các chỉnh sửa quá chung chung. * Xác thực đề xuất (Proposal validation): Hệ thống đánh giá các chỉnh sửa ứng viên thông qua các bài kiểm tra hồi quy. Một chỉnh sửa chỉ được chấp nhận nếu nó cải thiện hiệu suất mà không gây suy giảm đáng kể trên các tác vụ chưa được sử dụng. Nếu nhiều chỉnh sửa ứng viên vượt qua các bài kiểm tra hồi quy, chúng sẽ được hợp nhất vào phiên bản harness tiếp theo, phiên bản này sau đó đóng vai trò là điểm khởi đầu cho lần lặp tiếp theo.

Hãy hình dung một tác nhân sửa lỗi tự động đọc tài liệu nội bộ, viết bản vá và mở yêu cầu kéo (pull requests). Nếu công ty cập nhật kiểu tài liệu, tác nhân có thể đột nhiên gặp lỗi, lấy sai ngữ cảnh hoặc viết bản vá lỗi. Nhìn bề ngoài, tác nhân có vẻ bị hỏng. Nhưng Self-Harness biến lỗi mơ hồ này thành một vấn đề có thể giải quyết được. Zhang cho biết: "Các vết lỗi lộ ra nơi tác nhân đang sử dụng sai định dạng tài liệu mới; người đề xuất có thể tạo ra một chỉnh sửa harness có mục tiêu... và trình đánh giá có thể quyết định liệu chỉnh sửa đó có cải thiện các trường hợp thất bại mà không làm giảm hiệu suất ở các trường hợp khác hay không."

Self-Harness trong thực tế: Hiệu suất đáng kinh ngạc! 🤯

Các nhà nghiên cứu đã đánh giá Self-Harness trên Terminal-Bench-2.0, một bộ kiểm thử toàn diện cho việc thực thi dựa trên công cụ. Họ đã áp dụng Self-Harness với MiniMax M2.5, Qwen3.5-35B-A3B và GLM-5.

Để phân lập tác động của harness tự tiến hóa, họ bắt đầu với một harness tối thiểu được xây dựng dựa trên SDK DeepAgent, chỉ chứa lời nhắc hệ thống hướng tới benchmark và các công cụ filesystem, shell mặc định. Mô hình backend, bộ công cụ, môi trường benchmark và trình đánh giá được giữ nguyên, chỉ có harness được phép thay đổi.

Kết quả định lượng cho thấy các tác nhân đã cải thiện hiệu suất của mình thông qua các chỉnh sửa harness tự động. Trên các tác vụ độc lập, hiệu suất đã tăng đáng kể trên toàn bộ, từ 33 đến 60 phần trăm cải thiện tương đối cho các mô hình khác nhau.

Điều quan trọng là, một quy tắc chấp nhận rõ ràng chỉ thúc đẩy những chỉnh sửa cải thiện hiệu suất mà không gây ra suy giảm không chấp nhận được. Điều làm cho Self-Harness mạnh mẽ đối với các ứng dụng doanh nghiệp là nó không chỉ đơn giản làm cho lời nhắc dài hơn hoặc thêm các hướng dẫn chung chung. Thay vào đó, nó giới thiệu các thay đổi có mục tiêu phản ánh các vấn đề lặp lại mà mỗi mô hình gặp phải trong quá trình thực thi.

Ví dụ: * Dưới harness cơ bản, MiniMax M2.5 sẽ bị mắc kẹt vô tận trong việc khám phá cấu hình tập dữ liệu cho đến khi môi trường thực thi hết thời gian, không tạo ra bất kỳ sản phẩm nào. Thông qua Self-Harness, hệ thống đã xác định được lỗi cụ thể này và viết một "bộ ngắt vòng lặp" vào chính sách thời gian chạy của nó, buộc tác nhân phải dừng và điều chỉnh cách tiếp cận sau 50 lần gọi công cụ. Nó cũng thêm một quy tắc để tạo phiên bản ban đầu của các tạo phẩm cần thiết càng sớm càng tốt. * Mặt khác, Qwen-3.5 có thói quen gặp lỗi ghi đè tệp và sau đó mù quáng thử lại cùng một lệnh nhiều lần, cuối cùng xóa các tệp cần thiết do nhầm lẫn trước khi dừng lại. Self-Harness đã khắc phục điều này bằng cách giới thiệu một quy tắc thử lại lệnh nghiêm ngặt (cấm các lệnh trùng lặp chính xác) và một cơ chế buộc tác nhân phải tạo lại ngay lập tức bất kỳ tạo phẩm nào bị thiếu nếu xảy ra lỗi tệp. * GLM-5 gặp khó khăn trong việc duy trì các thay đổi môi trường trên các lệnh khác nhau, và thường lãng phí thời gian vào các tải xuống lớn hoặc hoàn thành tác vụ ngay cả khi kiểm tra an toàn bị lỗi. Harness tự tạo của nó đã giới thiệu các quy tắc hướng dẫn tác nhân duy trì các biến PATH trong các phiên shell, giới hạn tính toán bên ngoài và sửa chữa bất kỳ kiểm tra an toàn bị lỗi nào trước khi kết thúc chạy.

Chi phí ẩn của Harness tự động hóa 💰

Mặc dù Self-Harness tự động hóa công việc tẻ nhạt trong việc theo dõi các lỗi mô hình đặc trưng, nhưng các nhà ra quyết định phải thực tế về các đánh đổi. Việc thay thế kỹ thuật con người bằng thử và lỗi tự động đòi hỏi chi phí tính toán đáng kể.

Zhang cho biết: "Self-Harness thay thế một phần gánh nặng kỹ thuật con người bằng việc tạo đề xuất lặp đi lặp lại, đánh giá ứng viên song song và kiểm tra hồi quy. Điều đó có thể có nghĩa là nhiều token API hơn, độ trễ hơn trong quá trình tối ưu hóa và nhiều cơ sở hạ tầng hơn để chạy các tác vụ đánh giá."

Ngoài ra, hệ thống này phụ thuộc vào độ chính xác của quy trình đánh giá. Trong các thí nghiệm của họ trên Terminal-Bench-2.0, các nhà nghiên cứu đã dựa vào các bộ xác minh nghiêm ngặt, mang tính quyết định để đảm bảo các chỉnh sửa của tác nhân thực sự hữu ích. Nếu không có "sự thật cơ bản" nghiêm ngặt này, một hệ thống tự động có nguy cơ thúc đẩy các bản cập nhật kém chất lượng. "[Hệ thống] đánh giá không phải là một thành phần tùy chọn; nó là thứ cho phép chúng ta đánh đổi trực giác con người lấy bằng chứng thực nghiệm," Zhang nhấn nói.

Sự phụ thuộc vào các bộ xác minh nghiêm ngặt này cũng chỉ ra nơi Self-Harness nên được triển khai. "Các mục tiêu triển khai tốt nhất hiện nay là những môi trường mà các lỗi có thể được đo lường và nơi thử và lỗi tương đối an toàn," Zhang nói, chỉ ra các trường hợp sử dụng lý tưởng như lập trình, tự động hóa quy trình làm việc nội bộ và các pipeline dữ liệu DevOps.

Ngược lại, các doanh nghiệp nên tránh hoàn toàn tự động hóa harness trong các lĩnh vực có rủi ro cao hoặc mang tính chủ quan. "Những dấu hiệu cảnh báo rõ ràng nhất là các lĩnh vực mà việc đánh giá mang tính chủ quan, bị trì hoãn, không xác định hoặc tốn kém khi mắc lỗi, chẳng hạn như ra quyết định y tế, cơ sở hạ tầng an toàn quan trọng hoặc các quyết định pháp lý."

Từ "người chỉnh prompt" đến "kiến trúc sư phản hồi" 💡

Việc giới thiệu các tác nhân tự cải thiện không có nghĩa là quy trình làm việc trong lập trình hay doanh nghiệp sẽ đột nhiên không còn con người. Chất lượng hợp tác giữa kỹ sư con người và AI vẫn là tối quan trọng và khó nắm bắt bằng các benchmark tự động.

Thay vào đó, nghề kỹ thuật đang dịch chuyển lên một lớp trừu tượng cao hơn. "Vai trò của các kỹ sư doanh nghiệp sẽ chuyển từ việc vá thủ công các lời nhắc hoặc cuộc gọi công cụ riêng lẻ sang thiết kế các hệ thống phản hồi giúp cải thiện tác nhân," Zhang dự đoán. Về phía trước, "kỹ sư sẽ ít trở thành người chỉnh prompt hơn mà trở thành một kiến trúc sư phản hồi."

Khi các mô hình nền tảng trở nên có năng lực hơn, chúng sẽ tự nhiên hấp thụ nhiều khả năng hiện đang yêu cầu kỹ thuật harness thủ công. "Nhưng một khi điều đó xảy ra, harness sẽ không biến mất; phạm vi của nó sẽ di chuyển ra bên ngoài để kết nối mô hình với các môi trường bên ngoài phong phú hơn," Zhang nói. "Cho đến khi ranh giới đó vượt ra ngoài khả năng đánh giá của con người, con người sẽ vẫn là nhà cung cấp phản hồi quan trọng."