Các tác nhân trí tuệ nhân tạo (AI Agent) ngày nay dựa trên các mô hình ngôn ngữ lớn (LLM) để thực hiện các tác vụ phức tạp thông qua việc gọi và sử dụng các công cụ ngoại vi (APIs, CLIs, v.v.). Tuy nhiên, khi đối mặt với danh mục công cụ khổng lồ, việc truy xuất công cụ chính xác (tool retrieval) đang trở thành một nút thắt cổ chai lớn.
Để giải quyết vấn đề này, phương pháp truy xuất công cụ tham số (parametric tool retrieval) ra đời — bằng cách mã hóa mỗi công cụ thành một token ảo trong bộ từ vựng của LLM và tinh chỉnh qua hai giai đoạn (ghi nhớ và tinh chỉnh SFT) nhằm biến LLM thành một bộ truy xuất công cụ tự nhiên. Phương pháp này hoạt động cực kỳ hiệu quả trên các bài kiểm tra chuẩn như ToolBench. Nhưng câu hỏi đặt ra là: Liệu LLM có thực sự hiểu các công cụ mà nó gọi ra, hay chỉ đơn thuần là ghi nhớ máy móc các đường dẫn token?
Để làm rõ điều này, bộ phận nghiên cứu của tập đoàn công nghệ SAP đã ra mắt và mở nguồn mở ToolSense, một khung chẩn đoán thông minh hỗ trợ kiểm tra và đánh giá chuyên sâu kiến thức về công cụ của LLM.
Khung chẩn đoán đa chiều ToolSense
ToolSense hoạt động bằng cách nhận vào bất kỳ danh mục công cụ nào và tự động tạo ra ba bài kiểm tra chuẩn hóa (benchmarks) riêng biệt:
1. Realistic Retrieval Benchmark (RRB - Thử thách truy xuất thực tế): Tạo ra các câu truy vấn với ba mức độ mơ hồ khác nhau để thử thách khả năng suy luận của mô hình thay vì chỉ sử dụng các câu lệnh mô tả chi tiết, đầy đủ có sẵn như trước đây. 2. MCQ Probing Benchmark (Trắc nghiệm): Các bài kiểm tra trắc nghiệm nhằm thăm dò kiến thức thực tế của LLM về công cụ (mục đích, tham số, kiểu dữ liệu đầu ra). 3. QA Probing Benchmark (Hỏi đáp tự do): Bộ câu hỏi tự luận để đánh giá mức độ hiểu sâu về ngữ cảnh sử dụng của từng công cụ.
Phát hiện chấn động: Sự phân tách giữa Truy xuất và Hiểu biết (Knowledge-Retrieval Dissociation)
Khi áp dụng ToolSense để chẩn đoán hệ thống ToolBench (bao gồm khoảng 47.000 công cụ) và đánh giá 5 cấu hình huấn luyện mô hình tham số khác nhau, các nhà nghiên cứu tại SAP đã phát hiện một hiện tượng bất ngờ: sự phân tách giữa khả năng truy xuất và mức độ hiểu biết thực tế.
* Hiệu suất sụt giảm nghiêm trọng: Trên các truy vấn RRB thực tế, hiệu suất truy xuất của nhiều mô hình đã bị sụp đổ từ 50 đến 64 điểm phần trăm so với các bài đánh giá ToolBench tiêu chuẩn, thậm chí rơi xuống dưới cả mức cơ sở (baseline) của các mô hình nhúng (embedding models) truyền thống. * Suy luận ngẫu nhiên: Mặc dù trước đó đạt điểm truy xuất rất cao, một số mô hình khi đối mặt với các câu hỏi kiểm tra kiến thức thực tế (factual probes) chỉ đạt điểm số tương đương với việc đoán ngẫu nhiên.
Điều này cho thấy các mô hình ngôn ngữ hiện tại chỉ đang "học vẹt" cách gọi tên các token đại diện cho công cụ dựa trên từ khóa câu lệnh, chứ không hề tích lũy kiến thức thực sự về chức năng và cách thức vận hành của công cụ đó.
Mã nguồn mở và Đóng góp cho cộng đồng
Phát hiện của SAP chỉ ra rằng việc phát triển AI Agent đáng tin cậy đòi hỏi các kiến trúc huấn luyện mới, nơi khả năng hiểu ngữ nghĩa công cụ phải được tích hợp đồng thời với khả năng định vị công cụ.
Toàn bộ khung chẩn đoán ToolSense cùng các bài test chuẩn hóa đi kèm đã được SAP mở nguồn mở trên GitHub nhằm giúp các nhà phát triển tự đánh giá và nâng cấp hệ thống Agent của mình.
* GitHub Repository: SAP/toolsense * ArXiv Paper: arXiv:2606.12451