AI tools-ai 13 thg 6, 2026 7 phút đọc

Harness-1: Tác nhân tìm kiếm AI mã nguồn mở 20B đánh bại GPT-5.4 nhờ kiến trúc 'bộ nhớ ngoài' đột phá 🚀🧠

Nghiên cứu hợp tác giữa UIUC, UC Berkeley và Chroma ra mắt tác nhân tìm kiếm AI Harness-1 (20B) dựa trên gpt-oss-20B, ghi nhận tỷ lệ thu hồi chính xác thông tin lên tới 73%, vượt qua cả siêu mẫu GPT-5.4.

Tier 1 · nguồn 99% độ tin cậy Auto-priority

Nguồn gốc arxiv.org

Một nghiên cứu hợp tác đột phá giữa Đại học Illinois tại Urbana-Champaign (UIUC), UC Berkeley và nền tảng cơ sở dữ liệu vector mã nguồn mở Chroma vừa chính thức công bố Harness-1 — tác nhân tìm kiếm AI (AI Search Agent) mã nguồn mở quy mô 20 tỷ tham số (20B).

Được xây dựng trên nền tảng mô hình mã nguồn mở gpt-oss-20B của OpenAI, Harness-1 không chỉ đại diện cho một bước tiến công nghệ mới mà còn tái định nghĩa hoàn toàn cách thức các hệ thống AI xử lý và thực thi các nhiệm vụ truy xuất dữ liệu cực kỳ phức tạp.

Theo báo cáo nghiên cứu, Harness-1 đạt điểm số trung bình ấn tượng 73% về khả năng thu hồi chính xác thông tin (recall) từ bộ dữ liệu thử nghiệm, chính thức vượt qua siêu mô hình thương mại hàng đầu GPT-5.4 (70.9%) và bỏ xa tác nhân tìm kiếm mã nguồn mở tốt nhất hiện nay là Tongyi DeepResearch 30B của Alibaba tới 11.4 điểm phần trăm.

Hiện tại, toàn bộ mã nguồn, môi trường thử nghiệm và trọng số (weights) của Harness-1 đã được cung cấp công khai trên Hugging Face dưới giấy phép Apache 2.0 cực kỳ thông thoáng dành cho cộng đồng nhà phát triển toàn cầu.

---

🚀 Đột phá kiến trúc: Giải pháp "Bộ nhớ ngoài" chống hội chứng mất trí nhớ AI (Search Amnesia)

Trong các nhiệm vụ phức tạp, các tác nhân tìm kiếm AI thông thường thường xuyên rơi vào tình trạng mà các kỹ sư gọi là "search amnesia" (mất trí nhớ tìm kiếm). Khi phải xử lý hàng ngàn trang tài liệu doanh nghiệp hoặc hồ sơ tài chính dày đặc, mô hình AI có xu hướng quên mất truy vấn gốc ban đầu, rơi vào các vòng lặp vô hạn đọc đi đọc lại các tài liệu đã bị từ chối hoặc mất dấu vết của các tuyên bố cụ thể cần xác thực.

Trước đây, giải pháp duy nhất của các kỹ sư là dùng "sức mạnh cơ bắp" (brute force): bắt mô hình AI liên tục đọc lại nhật ký hoạt động (transcript) ngày càng phình to của chính nó, nhồi nhét mọi truy vấn, kết quả đọc và suy nghĩ vào một cửa sổ ngữ cảnh (context window) khổng lồ. Điều này đẩy chi phí tính toán lên trời và làm suy giảm nghiêm trọng độ chính xác của AI do hiện tượng "lạc lối giữa ngữ cảnh" (lost in the middle).

Harness-1 mang đến một bước chuyển dịch tư duy (paradigm shift) hoàn toàn khác biệt. Thay vì bắt mô hình tự ghi nhớ mọi thứ trong ngữ cảnh làm việc của nó, nhóm nghiên cứu đã cung cấp cho AI một "bàn làm việc và tủ hồ sơ ngoài" — được gọi là "state-externalizing harness" (khung quản lý trạng thái bên ngoài).

Khung Harness bên ngoài này sẽ đảm nhận toàn bộ việc "ghi chép giấy tờ" định kỳ, bao gồm: 1. Duy trì một kho tài liệu ứng viên (candidate pool) được chọn lọc. 2. Lưu trữ tập chứng cứ quan trọng (curated evidence set) đã được gắn thẻ ưu tiên. 3. Quản lý các liên kết chứng cứ nhỏ gọn (compact evidence links). 4. Ghi nhận lịch sử xác minh (verification records).

Bằng cách tách biệt hoàn toàn các quyết định ngữ nghĩa (semantic choices) khỏi việc quản lý cấu trúc trạng thái (structural state management), mô hình AI được giải phóng hoàn toàn sức mạnh tính toán để tập trung vào việc suy luận cốt lõi. Mô hình chỉ cần quyết định nên tìm kiếm gì, giữ lại tài liệu nào và khi nào thì dừng lại, trong khi môi trường bên ngoài sẽ đảm nhận việc lưu giữ và bảo vệ trạng thái đó một cách hoàn hảo.

---

📊 Hiệu năng thực chiến vượt trội trên các Benchmark khốc liệt

Để kiểm nghiệm năng lực thực tế, nhóm nghiên cứu đã đưa Harness-1 và các đối thủ cạnh tranh vào quy trình đánh giá nghiêm ngặt qua 8 benchmark tìm kiếm phức tạp hàng đầu. Thay vì các câu hỏi đố vui đơn giản, các bài kiểm tra này yêu cầu AI hoạt động như một nhà nghiên cứu thực thụ, tự sàng lọc các nguồn dữ liệu đa dạng và đậm đặc.

Các bài đánh giá bao gồm: * Tìm kiếm mở trên Web (Open Web Search). * Phân tích báo cáo tài chính SEC của doanh nghiệp. * Tra cứu cơ sở dữ liệu sáng chế kỹ thuật của USPTO. * Các tác vụ trả lời câu hỏi đa bước (multi-hop Q&A) — nơi AI phải tự suy luận logic để xâu chuỗi các manh mối rải rác ở nhiều tài liệu khác nhau nhằm tìm ra đáp án chính xác.

Kết quả chung cuộc cho thấy Harness-1 thống trị hoàn toàn phân khúc mã nguồn mở. Đáng kinh ngạc hơn, một mô hình nhỏ gọn chỉ 20B như Harness-1 lại có thể đối đầu sòng phẳng và đánh bại các hệ thống AI độc quyền khổng lồ trị giá hàng trăm tỷ hoặc hàng nghìn tỷ tham số như GPT-5.4, Sonnet-4.6, và Kimi-K2.5. Trong toàn bộ thử nghiệm, chỉ duy nhất một siêu mô hình thương mại lớn nhất là Claude Opus-4.6 có thể vượt qua Harness-1 một cách sít sao về điểm số trung bình chung.

---

🎯 Quy trình huấn luyện siêu tiết kiệm dữ liệu (Data-Efficient Learning)

Quy trình huấn luyện Harness-1 mở ra một chương mới cho ngành công nghiệp AI Agentic thế giới. Thay vì đốt hàng triệu USD thu thập hàng petabyte dữ liệu hành vi mới, đội ngũ phát triển đã sử dụng một phương pháp huấn luyện cực kỳ thông minh và tiết kiệm.

Do hệ thống Harness ngoài đã đảm nhận toàn bộ phần ghi chép cấu trúc phức tạp, quá trình học máy chỉ cần tập trung hướng dẫn mô hình cách vận hành giao diện có cấu trúc này. Điều này làm đơn giản hóa đáng kể những gì mà một mô hình 20B thực sự cần phải học.

1. Giai đoạn Tinh chỉnh Giám sát (SFT) siêu hẹp: Đội ngũ chỉ tạo ra đúng 899 quỹ đạo tìm kiếm lọc kỹ (filtered trajectories) sử dụng mô hình giáo viên GPT-5.4 hoạt động trên chính hệ thống khung Harness ngoài này. SFT không dùng để nhồi nhét kiến thức chuyên ngành mới, mà chỉ để dạy cho Harness-1 các thao tác cơ học cơ bản của một nhà nghiên cứu chuyên nghiệp: định dạng lệnh gọi công cụ, gắn thẻ tài liệu và trích xuất thông tin. 2. Tối ưu hóa bằng API Tinker: Quá trình huấn luyện và tinh chỉnh của Harness-1 được thực hiện trực tiếp thông qua API Tinker của công ty Thinking Machines. Đây là dịch vụ huấn luyện mô hình AI phân tán trên nền tảng đám mây, chứng minh hiệu quả tuyệt vời trong việc tối ưu hóa cơ sở hạ tầng tương tác cho các tác nhân AI tự chủ thế hệ mới.

Sự xuất hiện của Harness-1 là minh chứng rõ ràng nhất cho thấy: nút thắt cổ chai đối với các tác nhân AI tự chủ thực sự không nằm ở quy mô (kích thước tham số) của mô hình, mà là cách chúng ta thiết kế và tối ưu hóa môi trường làm việc của chúng. Raw model tuy quan trọng, nhưng chính "bộ khung điều khiển" (harness) bên ngoài mới quyết định giới hạn tối đa của sự tự chủ và chính xác trong kỷ nguyên AI mới.