Các hệ thống AI doanh nghiệp ngày càng đảm nhận những nhiệm vụ phức tạp, dài hơi, nhưng hiệu suất của chúng thường bị giới hạn bởi 'harness' – dàn giáo phần mềm kết nối mô hình ngôn ngữ lớn (LLM) nền tảng với môi trường. Hiện tại, các 'harness' này chủ yếu là tĩnh và được thiết kế thủ công, việc cải thiện chúng đòi hỏi nhiều công sức và không tự động điều chỉnh dựa trên dữ liệu thực thi.
Để giải quyết nút thắt kỹ thuật này, các nhà nghiên cứu tại Xiaomi đã giới thiệu HarnessX (nguồn: VentureBeat), một khung công tác đột phá coi 'harness' như một đối tượng có thể ghép nối và tự động áp dụng các cải tiến cho mã của nó. 💡 Điều này cho phép hệ thống AI điều chỉnh linh hoạt theo các yêu cầu ứng dụng cụ thể. Các thử nghiệm thực tế cho thấy HarnessX mang lại lợi ích hiệu suất đáng kể trong các lĩnh vực như kỹ thuật phần mềm và tương tác web. Quan trọng hơn, kết quả chứng minh rằng việc mở rộng mô hình nền tảng không phải là con đường duy nhất để AI mạnh mẽ hơn – và đối với các mô hình nhỏ, đó thậm chí có thể không phải là lựa chọn tốt nhất. HarnessX giúp tăng hiệu suất trung bình +14.5% trên 15 tổ hợp mô hình-benchmark, với mô hình mã nguồn mở Qwen3.5-9B, mức tăng đạt +44% trên các tác vụ lập kế hoạch thực thể.
Những Thách Thức Trong Kỹ Thuật "Harness" 🛠️
Trong các ứng dụng AI, khả năng của một mô hình nền tảng phụ thuộc rất nhiều vào 'harness' xung quanh nó. 'Harness' hoạt động như một lớp vận hành, chuyển đổi đầu ra thô của mô hình thành hành vi tác nhân có cấu trúc và khả thi. Nó bao gồm các câu lệnh (prompts), tích hợp công cụ bên ngoài, quản lý bộ nhớ và luồng điều khiển, định hướng cách AI quan sát môi trường, suy luận và hành động.
Trong bối cảnh các tác nhân doanh nghiệp đảm nhận các quy trình làm việc ngày càng phức tạp, việc phát triển 'harness' đã trở thành một phần cơ bản của phát triển AI. Dù quan trọng, việc phát triển 'harness' còn xa mới trở thành một ngành kỹ thuật trưởng thành và đối mặt với ba thách thức chính:
1. Cố định và Thủ công: Các 'harness' hiện tại là tĩnh và được thiết kế thủ công. Bất kỳ thay đổi nào trong mô hình nền tảng, công cụ mới, hoặc lĩnh vực hoạt động đều yêu cầu viết lại mã tùy chỉnh, thủ công. Chúng thiếu cơ chế tự học và cải thiện từ kinh nghiệm thực thi. 2. Rối loạn Kiến trúc: Hầu hết các 'harness' hiện có đều liên kết chặt chẽ các mẫu câu lệnh, trình bao bọc công cụ, chính sách thử lại và quản lý bộ nhớ trong cùng một đường dẫn mã. Điều này có nghĩa là việc điều chỉnh một thành phần có thể ngầm làm hỏng các thành phần khác. 3. Tối ưu hóa Cô lập: 'Harness' và mô hình nền tảng được tối ưu hóa riêng lẻ. Dữ liệu thực thi từ các thử nghiệm cải thiện 'harness' thường bị bỏ qua thay vì được dùng để huấn luyện mô hình, tạo ra một nút thắt cổ chai nơi các nhóm không tận dụng được toàn bộ giá trị dữ liệu hoạt động của tác nhân.
HarnessX: "Xưởng Đúc" Tự Động Cho Các Tác Nhân AI 🏭
HarnessX giải quyết các nút thắt kỹ thuật của việc phát triển 'harness' thủ công bằng cái mà các nhà nghiên cứu gọi là "xưởng đúc harness hợp nhất".
Đổi mới cốt lõi của HarnessX là coi 'harness' như một "đối tượng hạng nhất" trong kỹ thuật phần mềm – tức là một thực thể độc lập có thể được tuần tự hóa, mô-đun hóa và thay thế. Bằng cách tách cấu hình mô hình khỏi cấu hình 'harness', các kỹ sư có thể dễ dàng hoán đổi, điều chỉnh và phát triển cấu trúc mà không cần chạm vào mô hình cơ bản.
HarnessX phân tích hành vi tác nhân thành các thành phần khác nhau như lắp ráp ngữ cảnh, quản lý bộ nhớ, hệ sinh thái công cụ, luồng điều khiển và khả năng quan sát. Mỗi hành vi cụ thể được triển khai dưới dạng một "bộ xử lý" cắm vào các điểm móc nối vòng đời chính xác của 'harness'. Cấu trúc mô-đun này cho phép hệ thống hoán đổi, thêm hoặc xóa các bộ xử lý mà không làm hỏng pipeline xung quanh.
Để tự động hóa việc tối ưu cấu trúc mô-đun này, HarnessX giới thiệu AEGIS – một công cụ tiến hóa dựa trên dấu vết. AEGIS coi việc thích nghi 'harness' như một bài toán học tăng cường (RL) trên các thành phần biểu tượng khác nhau của 'harness'. Tuy nhiên, việc này cũng đặt ra ba thách thức mà các nhà nghiên cứu phải giải quyết:
* Gian lận phần thưởng: Hệ thống có thể tìm kiếm các lối tắt thay vì thực sự giải quyết nhiệm vụ. * Quên thảm khốc: Một chỉnh sửa khắc phục lỗi ở một lĩnh vực có thể ngầm phá vỡ một quy trình đã hoạt động ở lĩnh vực khác. * Khám phá không đủ: Hệ thống có thể lặp lại các điều chỉnh nhỏ trong câu lệnh thay vì khám phá các cấu hình công cụ mới, vượt trội hơn về cấu trúc.
Để ngăn chặn những vấn đề này, AEGIS dựa vào khả năng quan sát dấu vết đầy đủ và một pipeline bốn giai đoạn:
1. Digester (Trình tổng hợp): Nén các dấu vết thực thi thành các tóm tắt có cấu trúc để xác định nơi tác nhân thất bại. 2. Planner (Bộ lập kế hoạch): Phân tích các tóm tắt này để cho phép hệ thống khám phá các thay đổi cấu trúc thay vì chỉ là các điều chỉnh câu lệnh cục bộ. 3. Evolver (Trình tiến hóa): Tạo ra các chỉnh sửa 'harness' cấp mã và kiểm tra để đảm bảo chúng chạy đúng trước khi triển khai. 4. Critic and Gate (Trình đánh giá và Cổng kiểm duyệt): Một Critic đánh giá các chỉnh sửa để phát hiện gian lận phần thưởng, trong khi một cổng kiểm duyệt deterministic từ chối mọi cập nhật làm suy thoái một tác vụ đã giải quyết trước đó, ngăn chặn hiện tượng quên thảm khốc.
HarnessX nổi bật trong lĩnh vực nghiên cứu 'harness' tự cải thiện nhờ khả năng đồng tiến hóa giữa 'harness' và mô hình. Các nhà nghiên cứu nhấn mạnh rằng việc tối ưu hóa từng thành phần riêng lẻ cuối cùng sẽ gặp giới hạn. Tiến hóa 'harness' đơn thuần sẽ chạm trần nếu mô hình cơ bản thiếu khả năng suy luận để sử dụng các công cụ mới. Huấn luyện mô hình đơn thuần sẽ chạm trần tín hiệu huấn luyện nếu 'harness' không bao giờ yêu cầu mô hình sử dụng các khả năng nâng cao của nó.
HarnessX xen kẽ quá trình tiến hóa 'harness' với huấn luyện mô hình. Các dấu vết thực thi được tạo ra khi 'harness' cố gắng thích nghi với nhiệm vụ được chuyển đổi thành tín hiệu học tăng cường cho mô hình nền tảng. Mỗi khi 'harness' cải thiện chiến lược của mình, mô hình đồng thời học cách khai thác tốt hơn chiến lược mới đó, phá vỡ giới hạn khả năng của phát triển tác nhân AI truyền thống. HarnessX thực hiện điều này thông qua cross-harness GRPO (Group Relative Policy Optimization) – một thuật toán RL phổ biến.
HarnessX Thực Chiến Trên Các Thước Đo Công Nghiệp 📊
Để xác nhận tính hữu ích thực tế của HarnessX, các nhà nghiên cứu đã thử nghiệm nó trên năm benchmark bao gồm kỹ thuật phần mềm, hội thoại dịch vụ khách hàng đa lượt, điều hướng web, suy luận đa bước mở và lập kế hoạch thực thể.
Họ tách AI thành hai vai trò: "siêu tác nhân" (meta-agent) do Claude Opus 4.6 vận hành, phân tích nhật ký và viết mã để tiến hóa 'harnesses'; và "tác nhân nhiệm vụ" (task agents) thực hiện các quy trình làm việc thực tế. Để chứng minh khung công tác này không phụ thuộc vào mô hình, họ đã thử nghiệm với ba mô hình tác nhân khác nhau: Claude Sonnet 4.6, GPT-5.4 và Qwen3.5-9B mã nguồn mở.
HarnessX đã được so sánh với hai baseline chính: một 'harness' tĩnh (tượng trưng cho cách hầu hết các doanh nghiệp triển khai AI hiện nay) và Claude Code SDK (đại diện cho một công cụ tiến hóa tác nhân đơn lẻ).
Kết quả cho thấy việc phát triển 'harness' một cách linh hoạt mang lại lợi ích đáng kể trên cùng một mô hình cơ sở. HarnessX cải thiện hiệu suất trong 14 trên 15 tổ hợp mô hình-benchmark, với mức tăng hiệu suất tuyệt đối trung bình là +14.5%.
Các mô hình yếu nhất lại được hưởng lợi nhiều nhất từ việc cải thiện 'harness' động. Qwen3.5-9B mã nguồn mở chứng kiến mức tăng hiệu suất +44.0% trên benchmark lập kế hoạch thực thể ALFWorld, và +18.2% trên SWE-bench Verified cho kỹ thuật phần mềm. Sự đồng tiến hóa cũng rất hiệu quả, mang lại thêm +4.7% hiệu suất trung bình khi huấn luyện mô hình nền tảng bằng dữ liệu từ quá trình tiến hóa 'harness'.
Các bằng chứng giai thoại từ thí nghiệm minh họa cách HarnessX giải quyết các vấn đề dai dẳng trong việc tạo 'harness' cho các tác vụ thực tế. Ví dụ, trong benchmark suy luận đa bước GAIA, tác nhân nhiệm vụ liên tục thất bại vì công cụ trình duyệt headless mà nó sử dụng để cạo dữ liệu Wikipedia bị hết thời gian chờ do giao diện JavaScript nặng. HarnessX đã phân tích dấu vết thực thi, chẩn đoán lỗi và viết một công cụ mới bỏ qua hoàn toàn trình duyệt, truy vấn trực tiếp API của MediaWiki để lấy văn bản thuần. Việc hoán đổi công cụ này vào 'harness' đã ngay lập tức mở khóa các tác vụ bị lỗi.
Trong các thử nghiệm thương mại điện tử WebShop, tác nhân AI thường mắc kẹt trong các vòng lặp phân trang, liên tục nhấp "trang tiếp theo" và định dạng lại tìm kiếm mà không bao giờ cam kết mua sản phẩm. Thay vì chỉ điều chỉnh câu lệnh, HarnessX đã xây dựng một bộ xử lý tư vấn phát hiện khi tác nhân lặp lại các hành động điều hướng. Nó chèn một cảnh báo vào ngữ cảnh để buộc đưa ra quyết định, chấm dứt hành vi lặp lại và nâng cao hiệu suất.
Giới Hạn Của Kỹ Thuật "Harness" Tự Động ⚠️
Tuy HarnessX đầy hứa hẹn, có một số giới hạn cần lưu ý. Hệ thống hiện tại vẫn cần các mô hình mạnh mẽ để hoạt động như siêu tác nhân, viết lại mã 'harness'. Trong các thí nghiệm, các nhà nghiên cứu đã dựa vào các mô hình độc quyền như Claude Opus. Khả năng của các mô hình mã nguồn mở trong vai trò siêu tác nhân vẫn chưa được kiểm chứng.
Một hạn chế khác là khả năng nội tại của các mô hình được sử dụng. Nếu mô hình nhiệm vụ cơ bản quá yếu để thực hiện các quy trình làm việc phức tạp mà 'harness' mới đề xuất, HarnessX sẽ không thể cải thiện tổng thể khả năng của tác nhân (ví dụ, với mô hình Qwen3.5-9B trên các thử nghiệm mã hóa SWE-bench).
Bất chấp những giới hạn này, HarnessX đưa ra một lập luận cụ thể rằng kỹ thuật 'harness' – chứ không chỉ mở rộng mô hình – là một đòn bẩy mà các nhà thực hành có thể sử dụng ngay bây giờ. Đối với các nhóm đang chạy các mô hình mã nguồn mở nhỏ hơn trên các quy trình làm việc phức tạp, những lợi ích mà HarnessX mang lại đủ lớn để biện minh cho việc đánh giá tiến hóa 'harness' như một bước đầu tiên trước khi tìm đến một mô hình độc quyền đắt tiền hơn. Các nhà nghiên cứu dự định sẽ phát hành mã nguồn trong một bản cập nhật tương lai.
Nguồn: VentureBeat