Bỏ qua đến nội dung chính
Về trang chủ
AI tools-ai 15 phút đọc

Harness-1: Đặc Vụ Tìm Kiếm AI Nguồn Mở 'Vượt Trội' Hơn GPT-5.4 Trong Khả Năng Ghi Nhớ Thông Tin Liên Quan! 🧠🔍

Các nhà nghiên cứu đã phát triển Harness-1, một đặc vụ tìm kiếm AI nguồn mở 20 tỷ tham số, đã chứng minh khả năng ghi nhớ thông tin liên quan vượt trội hơn cả GPT-5.4 nhờ kiến trúc quản lý trạng thái bên ngoài hiệu quả.

Tier 2 · nguồn 99% độ tin cậy Auto-priority
Nguồn gốc venturebeat.com

Chào mừng quý độc giả của Kalera News! Hôm nay, Sylvie muốn giới thiệu một bước tiến đột phá trong lĩnh vực AI tìm kiếm, hứa hẹn sẽ thay đổi cách chúng ta tương tác với các hệ thống thông minh. Hãy cùng khám phá Harness-1, đặc vụ tìm kiếm AI nguồn mở với hiệu suất đáng kinh ngạc! 🚀

Giới thiệu Harness-1: Đặc vụ tìm kiếm AI nguồn mở "đáng gờm"! 💡

Một sự hợp tác nghiên cứu giữa các nhà khoa học tại Đại học Illinois tại Urbana-Champaign (UIUC), UC Berkeley và nền tảng cơ sở dữ liệu vector AI nguồn mở Chroma đã công bố Harness-1. Đây là một đặc vụ tìm kiếm nguồn mở với 20 tỷ tham số, được xây dựng dựa trên mô hình gpt-oss-20B nguồn mở của OpenAI, với thiết kế cơ bản nhằm định hình lại cách AI thực hiện các tác vụ truy xuất thông tin phức tạp.

Harness-1 đã tạo ra một cú nhảy vọt về hiệu suất, đạt 73% điểm trung bình trong khả năng ghi nhớ chính xác thông tin liên quan từ một bộ dữ liệu được chọn lọc. Điều này khiến nó vượt trội hơn cả GPT-5.4 (70.9%) và đặc vụ tìm kiếm nguồn mở chính xác tiếp theo, Tongyi DeepResearch 30B, tới 11.4 điểm phần trăm. (Mặc dù GPT-5.5 cũng đã được ra mắt hơn một tháng, các nhà nghiên cứu không thử nghiệm với mô hình này vì nó chưa có sẵn khi họ xây dựng Harness-1).

Điểm cực kỳ quan trọng đối với các nhà phát triển là mô hình và môi trường của nó có sẵn ngay lập tức dưới giấy phép Apache 2.0 rất rộng rãi, cùng với mã và trọng số mô hình trên Hugging Face. Điều này mở ra cánh cửa lớn cho sự đổi mới và ứng dụng.

Harness-1 cũng là bằng chứng về hiệu quả của một nỗ lực khác, Tinker – API đào tạo và tinh chỉnh mô hình AI phân tán, dựa trên web, được phát triển bởi Thinking Machines. Tinker đã được sử dụng để huấn luyện và chạy suy luận cho Harness-1, cho thấy cơ sở hạ tầng tương tác đang tích cực hỗ trợ thế hệ mô hình tự chủ tiếp theo.

Khi AI "quên": Giải pháp cho "chứng mất trí tìm kiếm" của các mô hình cũ 💾

Khi các trường hợp sử dụng trong doanh nghiệp ngày càng trở nên phức tạp hơn, yêu cầu các mô hình phải tự động sàng lọc hàng ngàn tài liệu hoặc hồ sơ tài chính, các hệ thống này thường gặp phải "chứng mất trí tìm kiếm" (search amnesia)—quên đi các truy vấn ban đầu, lặp lại các tài liệu bị từ chối, hoặc mất dấu các tuyên bố cụ thể mà chúng đang cố gắng xác minh.

Cho đến nay, giải pháp phổ biến cho "chứng mất trí" này là phương pháp "vét cạn" (brute force). Các kỹ sư thường buộc mô hình phải liên tục đọc lại một bản ghi các hành động của chính chúng, ngày càng mở rộng và chỉ có thể bổ sung, chất chồng mọi lần tìm kiếm, đọc và suy nghĩ vào một cửa sổ ngữ cảnh khổng lồ.

Harness-1 giới thiệu một sự thay đổi mô hình triệt để khỏi phương pháp này, chứng minh rằng nút thắt cổ chai cho quyền tự chủ AI thực sự không nhất thiết là kích thước của mô hình, mà là cách môi trường làm việc của nó quản lý trạng thái một cách hiệu quả. Điều này một lần nữa nhấn mạnh rằng mô hình cơ bản có thể ít quan trọng hơn so với "khung làm việc" (harness) – hay tập hợp các điều kiện – mà nó hoạt động trong đó.

Công nghệ cốt lõi: "Văn phòng làm việc" cho AI thông minh hơn 🏢

Để hiểu được bước nhảy vọt về mặt kỹ thuật của Harness-1, hãy xem xét một phép ẩn dụ trong thế giới thực:

Hãy tưởng tượng bạn thuê một trợ lý nghiên cứu xuất sắc và đặt họ vào một căn phòng trống không có bàn làm việc, sổ ghi chép hay tủ hồ sơ. Bạn yêu cầu họ viết một báo cáo toàn diện về một chủ đề cực kỳ phức tạp, yêu cầu họ đọc hàng chục cuốn sách trong khi phải ghi nhớ hoàn hảo mọi trích dẫn, tham chiếu và tìm kiếm không thành công trong đầu. Cuối cùng, bất kể trợ lý đó thông minh đến đâu, tải trọng nhận thức của họ sẽ đạt mức tối đa, và họ sẽ bắt đầu bỏ sót thông tin hoặc mất đi mạch của nhiệm vụ.

Đây chính xác là cách các đặc vụ tìm kiếm truyền thống hoạt động hiện nay. Chúng được huấn luyện như các chính sách hoạt động trên các bản ghi ngày càng lớn, nghĩa là mô hình tìm kiếm, đọc, tìm kiếm lại và bổ sung mọi thứ vào cửa sổ ngữ cảnh của chính nó.

Như nhà nghiên cứu chính Patrick (Pengcheng) Jiang từ Đại học Illinois đã lưu ý trên X: "Đến một lúc nào đó, mô hình không chỉ 'tìm kiếm' nữa. Nó còn được yêu cầu trở thành một hệ thống bộ nhớ, một người ghi chép, một người xác minh và một người thủ thư."

Harness-1 giải quyết vấn đề này bằng cách cung cấp cho AI một bàn làm việc và một tủ hồ sơ—những gì nhóm nghiên cứu gọi là "khung làm việc ngoài trạng thái" (state-externalizing harness).

Khung làm việc này là một môi trường hoạt động chủ động, bao quanh, đảm nhận việc ghi chép định kỳ, duy trì một bộ nhớ làm việc có thể phục hồi bao gồm một tập hợp các tài liệu ứng cử viên, một tập hợp bằng chứng được tuyển chọn với các thẻ quan trọng, các liên kết bằng chứng nhỏ gọn và hồ sơ xác minh. Bằng cách tách biệt các lựa chọn ngữ nghĩa khỏi quản lý trạng thái cấu trúc, AI được giải phóng để làm những gì nó giỏi nhất: chính sách vẫn quyết định tìm kiếm gì, xác định tài liệu nào cần giữ lại và biết khi nào nên dừng, trong khi môi trường chỉ đơn thuần lưu giữ trạng thái.

Phương pháp huấn luyện đỉnh cao: Hiệu quả dữ liệu đến bất ngờ! ✨

Quy trình huấn luyện Harness-1 đại diện cho một sự thay đổi cơ bản trong cách ngành công nghiệp AI tiếp cận học tập đại lý. Trong lịch sử, các nhà phát triển đã coi các tác nhân tìm kiếm là các chính sách hoạt động trên các bản ghi lớn, liên tục tăng, buộc các thuật toán học tăng cường (RL) phải đồng thời tối ưu hóa cả lập luận ngữ nghĩa và khả năng ghi nhớ thô của trạng thái tìm kiếm.

Các nhà tạo lập Harness-1 đã thực hiện một phương pháp tiếp cận hoàn toàn khác: vì "khung làm việc" tùy chỉnh của họ xử lý tất cả các công việc ghi chép định kỳ—như duy trì các liên kết bằng chứng, các nhóm ứng cử viên và hồ sơ xác minh—quá trình huấn luyện chỉ cần dạy mô hình cách vận hành giao diện có cấu trúc này. Sự phân chia công việc này đã đơn giản hóa đáng kể những gì mô hình 20 tỷ tham số cơ bản thực sự cần học.

Quá trình này bắt đầu với giai đoạn Tinh chỉnh Giám sát (SFT) cực kỳ tinh gọn. Thay vì thu thập hàng petabyte dữ liệu hành vi mới, nhóm chỉ tạo ra 899 quỹ đạo được lọc bằng cách sử dụng một tác nhân "giáo viên" GPT-5.4 được tích hợp vào cùng môi trường khung làm việc mà mô hình "học sinh" cuối cùng sẽ sử dụng. Mục tiêu của giai đoạn SFT này không phải là truyền một lượng lớn kiến thức miền vào mô hình, mà đơn thuần là dạy nó các nhịp điệu cơ học của một nhà nghiên cứu giỏi: cách định dạng các lệnh gọi công cụ, cách gắn thẻ các tài liệu theo mức độ quan trọng và kỷ luật xác minh một tuyên bố trước khi quảng bá nó vào tập hợp cuối cùng.

Sau SFT, mô hình đã trải qua Học tăng cường (RL) bằng cách sử dụng thuật toán CISPO, được áp dụng trong các tập tìm kiếm đầy đủ giới hạn ở 40 lượt. Nhóm đã thiết kế một hàm thưởng cuối cùng rất cụ thể, tách biệt rõ ràng phát hiện khỏi chọn lọc. Mô hình được thưởng không chỉ vì tìm thấy một tài liệu liên quan mà còn vì đã thành công quảng bá nó vào bộ câu trả lời cuối cùng, đồng thời bị phạt nếu tìm thấy câu trả lời nhưng không thể tuyển chọn nó. Các nhà nghiên cứu cũng thiết lập một phần thưởng "đa dạng công cụ"; nếu không có khuyến khích cụ thể này, họ nhận thấy chính sách sẽ nhanh chóng sụp đổ thành một chiến lược lười biếng, nặng về tìm kiếm, nơi nó gửi hàng loạt truy vấn nhưng bỏ qua công việc khó hơn là đọc và xác minh văn bản.

Điều làm cho Harness-1 thực sự đổi mới so với các công trình trước đây là hiệu quả dữ liệu chưa từng có. Toàn bộ mô hình được huấn luyện trên khoảng 4.400 mục duy nhất—899 quỹ đạo SFT và 3.453 truy vấn RL. Ngược lại, các mô hình nguồn mở cạnh tranh yêu cầu các bộ dữ liệu lớn hơn rất nhiều để đạt được kết quả kém hơn: Context-1 sử dụng hơn 17.200 mục huấn luyện, trong khi Search-R1 dựa vào con số khổng lồ 221.300 mục để học các hành vi tìm kiếm. Bằng cách chứng minh rằng một kiến trúc nhận thức bên ngoài thông minh hơn có thể thay thế việc mở rộng dữ liệu bằng "vét cạn", Harness-1 cho thấy tương lai của AI đại lý nằm ở việc xây dựng các môi trường tốt hơn để các mô hình hoạt động trong đó, thay vì chỉ huấn luyện các mô hình lớn hơn trên nhiều dữ liệu hơn.

Ứng dụng thực tiễn cho doanh nghiệp và khả năng mở rộng 💼

Từ góc độ sản phẩm, Harness-1 được cung cấp dưới dạng một tác nhân 20B có khả năng cao được tích hợp vào kiến trúc cơ sở openai/gpt-oss-20b. Đối với các bộ công nghệ doanh nghiệp, khả năng ứng dụng là rất lớn vì các doanh nghiệp cần AI để thực hiện nghiên cứu đa bước trên các cơ sở dữ liệu độc quyền mà không bị "ảo giác" hoặc tốn kém chi phí tính toán. Harness-1 duy trì hiệu suất cấp cao với mức "chi phí và độ trễ ở mức Context-1". Vì cửa sổ ngữ cảnh được quản lý chặt chẽ bởi khung làm việc (harness) có tính đến ngân sách thay vì liên tục mở rộng, các doanh nghiệp có thể triển khai tác nhân này một cách tự chủ mà không phải chịu chi phí token tăng theo cấp số mũ thường liên quan đến các tác vụ AI dài hạn.

Ấn tượng hơn nữa, Harness-1 chứng minh rằng nó có thể khái quát hóa tốt hơn nhiều so với dữ liệu huấn luyện của nó. Theo nhóm nghiên cứu, việc huấn luyện nó cực kỳ rẻ, chỉ sử dụng 899 quỹ đạo tinh chỉnh giám sát (SFT) được lọc và vỏn vẹn 3.453 truy vấn học tăng cường (RL).

"Thay vì huấn luyện mô hình để tồn tại trong một bản ghi khổng lồ chỉ có thể bổ sung, chúng tôi huấn luyện nó sử dụng một giao diện tìm kiếm có cấu trúc: tìm kiếm, tuyển chọn, xem lại, xác minh và gửi," Jiang giải thích. Sự tinh gọn này chứng minh một điểm quan trọng đối với ngành AI: các nhà phát triển không nhất thiết cần petabyte dữ liệu hành vi mới nếu họ xây dựng một khung nhận thức tốt hơn để mô hình hoạt động trong đó.

Sức mạnh của giấy phép Apache 2.0: Mở đường cho thương mại hóa 🤝

Một trong những khía cạnh quan trọng nhất của việc phát hành Harness-1 là giấy phép của nó. Nói một cách đơn giản, Apache 2.0 là một giấy phép phần mềm cực kỳ linh hoạt, thân thiện với doanh nghiệp, về cơ bản cho phép thương mại hóa.

Không giống như các giấy phép "copyleft" (như GPL) có thể buộc các công ty phải mở mã nguồn phần mềm độc quyền của họ nếu họ tích hợp mã đó, hoặc các giấy phép "chỉ dành cho nghiên cứu" cấm hoàn toàn việc sử dụng thương mại, Apache 2.0 cho phép các doanh nghiệp thoải mái xây dựng, sửa đổi và kiếm tiền từ công nghệ này. Đối với các nhà phát triển và các công ty khởi nghiệp, điều này có nghĩa là Harness-1 có thể được tích hợp liền mạch vào các sản phẩm tìm kiếm doanh nghiệp thương mại, các công cụ truy xuất dữ liệu nội bộ hoặc các ứng dụng AI hướng tới khách hàng mà không sợ bị kiện tụng. Yêu cầu chính duy nhất là người dùng phải bao gồm thông báo bản quyền gốc và nêu rõ bất kỳ sửa đổi đáng kể nào họ thực hiện đối với mã nguồn, định vị Harness-1 là một khối xây dựng nền tảng rất khả thi cho doanh nghiệp.

Phản hồi cộng đồng: Một bước ngoặt được mong đợi! 👏

Thông báo này rõ ràng đã tạo được tiếng vang lớn trong cộng đồng các nhà phát triển, xác nhận những khó khăn rất thực tế mà các kỹ sư phải đối mặt khi xây dựng các hệ thống tác nhân. Chuỗi bài đăng thông báo đa phần của Jiang trên X nhanh chóng thu hút sự chú ý lớn, đạt hơn 256.1K lượt xem, 3.7K lượt thích, 2.9K lượt lưu và gần 300 lượt đăng lại chỉ trong vài ngày.

Sự tương tác cao này nhấn mạnh một sự đồng thuận ngày càng tăng trong không gian AI rằng việc "vét cạn" các cửa sổ ngữ cảnh là một cuộc chiến không có hồi kết. Khi Jiang đăng trên X: "Tôi đã tự hỏi: có lẽ các tác nhân tìm kiếm kém hiệu quả một phần là do chúng ta buộc chúng phải tự làm tất cả các công việc giấy tờ trong đầu," sự đồng cảm là ngay lập tức. Đối với các nhà phát triển đã dành cả năm qua để vật lộn với các tác nhân AI tự tin quên các hướng dẫn chính của mình giữa chừng một tìm kiếm cơ sở dữ liệu, cách tiếp cận của Harness-1 giống như một sự điều chỉnh hướng đi cấp thiết.

Cuối cùng, tình cảm cộng đồng làm nổi bật sự thay đổi trong các ưu tiên của ngành. Các nhà phát triển đang chuyển từ việc hỏi cửa sổ ngữ cảnh của mô hình AI có thể lớn đến mức nào, sang việc hỏi môi trường của mô hình AI có thể quản lý ngữ cảnh đó cho nó một cách hiệu quả đến mức nào. Bằng cách "giải phóng" AI khỏi công việc giấy tờ, Harness-1 đang chứng minh rằng các hệ thống nhỏ hơn, thông minh hơn có thể vượt qua những "người khổng lồ"—miễn là chúng có "chiếc bàn làm việc" phù hợp để làm việc. ✨