Nghiên cứu mới từ arXiv giới thiệu Evoflux, một phương pháp tìm kiếm tiến hóa tại thời điểm suy luận nhằm giúp các mô hình ngôn ngữ nhỏ gọn (compact LMs) chạy các luồng công việc phức tạp với công cụ một cách hiệu quả hơn. Thay vì cố gắng huấn luyện lại mô hình, Evoflux tập trung vào việc tự động sửa lỗi và tinh chỉnh các luồng xử lý bị hỏng khi chạy thực tế.
Bối cảnh
Các mô hình AI nhỏ gọn được ưa chuộng nhờ chi phí thấp và tốc độ nhanh, nhưng chúng thường gặp khó khăn khi phải điều phối nhiều công cụ cùng lúc, đặc biệt là theo chuẩn giao thức MCP. Theo báo cáo từ arXiv, các mô hình nhỏ này dễ dàng tạo ra sơ đồ công việc trông có vẻ hợp lý nhưng lại nhanh chóng thất bại khi đối mặt với việc xác thực tham số, phụ thuộc dữ liệu hoặc sự thay đổi của danh mục công cụ. Phương pháp tinh chỉnh truyền thống (SFT hay DPO) từ dữ liệu của mô hình lớn không giúp ích nhiều vì thiếu khả năng tự phục hồi khi có lỗi xảy ra.
Diễn biến
Để giải quyết vấn đề này, giải pháp Evoflux tiếp cận việc sử dụng công cụ dưới dạng một tiến trình sửa lỗi liên tục cho các luồng xử lý. Hệ thống này tiến hóa các đồ thị luồng công việc thông qua các chỉnh sửa có cấu trúc, tận dụng phản hồi trực tiếp từ môi trường thực thi, tinh chỉnh cường độ thích ứng và cắt bỏ các nhánh trùng lặp để giữ tính đa dạng. Thử nghiệm trên bộ benchmark MCP-Bench với 250 công cụ cho thấy Evoflux đã giúp tăng tỷ lệ thực thi thành công của các mô hình lập kế hoạch nhỏ từ mức chỉ 3% lên khoảng 17% đến 24%.
Vì sao đáng chú ý
Nghiên cứu này mở ra cơ hội lớn cho việc triển khai các AI Agent cục bộ hoặc trên các thiết bị có cấu hình giới hạn mà không cần phụ thuộc vào API đắt đỏ của các mô hình lớn. Đối với các nhà phát triển tại Việt Nam, việc tối ưu hóa các mô hình nguồn mở cỡ nhỏ chạy mượt mà các chuỗi công cụ phức tạp sẽ giúp giảm đáng kể chi phí vận hành hệ thống AI.