Giả định rằng các tác nhân AI cần một “ông chủ” trung tâm để điều phối mọi hoạt động có thể đã lỗi thời, và chi phí cho giả định này đang được đo bằng hàng triệu đô la chi phí suy luận và độ trễ phối hợp. Một framework mới từ Đại học Stanford, có tên là Mô hình Ngôn ngữ Phi tập trung (DeLM), được xây dựng dựa trên tiền đề rằng các tác nhân có thể phối hợp trực tiếp mà không cần mọi cập nhật phải thông qua một bộ điều khiển trung tâm. 🧠
Theo Yuzhen Mao và Azalia Mirhoseini, đồng phát triển framework, DeLM sử dụng một cơ sở kiến thức chung làm “nền tảng giao tiếp”, cho phép các tác nhân xây dựng dựa trên tiến trình đã được xác minh của nhau mà không cần bộ điều khiển trung tâm để “hợp nhất, lọc và phát lại” thông tin. Điều này không chỉ khả thi mà còn rất đáng mong đợi trong nhiều trường hợp.
Thách Thức Của Các Hệ Thống Đa Tác Nhân Truyền Thống
Trong các hệ thống đa tác nhân tập trung truyền thống, một tác nhân chính sẽ chia nhỏ nhiệm vụ, phân công cho các tác nhân phụ, chờ phản hồi, tổng hợp tiến trình và đưa ra các chỉ thị tiếp theo. Mặc dù đây là cách tự nhiên để mở rộng khả năng suy luận của LLM, các nhà nghiên cứu Stanford lập luận rằng nó lại kém hiệu quả khi mở rộng quy mô. 📉
Mọi phát hiện, dù là một phần hay thất bại, đều phải được báo cáo về tác nhân chính, sau đó tác nhân này mới quyết định thông tin nào được hợp nhất và phát lại. “Khi số lượng tác vụ phụ tăng lên, bộ điều khiển này trở thành nút thắt cổ chai về giao tiếp và tích hợp,” Mao và Mirhoseini chỉ rõ. Thêm vào đó, tác nhân điều phối chính có thể “làm loãng, bỏ sót hoặc bóp méo” thông tin hữu ích, dẫn đến mất mát tiến độ. Tình trạng này cũng xuất hiện trong các kịch bản suy luận ngữ cảnh dài, gây ra vòng lặp phản hồi làm chậm quá trình phối hợp.
DeLM Giải Quyết Điều Gì Và Hoạt Động Ra Sao?
Ngược lại, DeLM được xây dựng dựa trên các tác nhân song song, ngữ cảnh chia sẻ và hàng đợi tác vụ. 💡
* Ngữ cảnh chia sẻ là một kho lưu trữ các “gists” (tóm tắt thông tin hữu ích) đã được chọn lọc, bao gồm các phát hiện đã được xác minh, phát hiện một phần và cả những thất bại, cùng với bằng chứng chi tiết mà các tác nhân có thể truy xuất. * Hàng đợi tác vụ là tập hợp các tác vụ phụ đang chờ xử lý mà các tác nhân có thể tự nhận độc lập.
Các nhà nghiên cứu giải thích: “Các tác nhân ghi các cập nhật ngắn gọn, đã được xác minh vào ngữ cảnh chia sẻ để các tác nhân sau có thể đọc trực tiếp.” Những phát hiện hữu ích, thất bại và ràng buộc sẽ tích lũy thành một “trạng thái vấn đề chung” thay vì phải qua một bộ điều khiển trung tâm.
Quy trình hoạt động của DeLM như sau:
1. Khởi tạo: Đầu vào được chia thành các đơn vị công việc và thêm vào hàng đợi. 2. Thực thi song song: Các tác nhân làm việc độc lập và đồng thời, lấy tác vụ và đọc ngữ cảnh chia sẻ khi tiến hành. 3. Nén và xác minh: Kết quả được nén thành “gists” có thể tái sử dụng và được kiểm tra dựa trên bằng chứng hỗ trợ. Chỉ những gists đã được xác minh đầy đủ mới được chia sẻ. 4. Công việc bổ sung (nếu cần): Khi hàng đợi trống, tác nhân cuối cùng trả lời sẽ kiểm tra toàn bộ ngữ cảnh chia sẻ để xác định có cần thêm công việc hay không. 5. Bước cuối cùng: Tác nhân cuối cùng xác định không cần thêm bước nào và trả về kết quả cuối cùng.
Nhờ đó, các tác nhân “trao đổi tiến độ thông qua trạng thái chia sẻ, tự nhận tác vụ sẵn sàng một cách không đồng bộ và mở rộng quy mô linh hoạt hơn khi số lượng tác vụ phụ tăng lên.” 🚀
Hiệu Suất Của DeLM Trong Thực Tế
Với DeLM, các tác nhân có thể tránh khám phá trùng lặp, tái sử dụng và xây dựng dựa trên những phát hiện cũng như thất bại của nhau, đồng thời tập trung vào các vấn đề chưa được giải quyết. Framework này đặc biệt hữu ích trong việc mở rộng quy mô thời gian kiểm thử phần mềm, nơi các mô hình cần “suy nghĩ” để cải thiện khả năng suy luận và giải quyết vấn đề. 🛠️ Các tác nhân khác nhau có thể khám phá các giả thuyết riêng hoặc theo đuổi các con đường suy luận song song, trong khi vẫn chia sẻ tiến độ trung gian, ví dụ như trong việc gỡ lỗi đồng thời.
DeLM cũng phù hợp cho suy luận ngữ cảnh dài và trả lời câu hỏi đa tài liệu; các tác nhân có thể đồng thời kiểm tra các cụm bằng chứng riêng (tập hợp các bài báo, mã nguồn hoặc tài liệu khác) trong khi vẫn duy trì “cái nhìn tổng thể” về bằng chứng đã tích lũy. 📚 Các nhà nghiên cứu khẳng định rằng nó giúp các tác vụ tác nhân chính xác hơn và rẻ hơn đáng kể. Điều này được chứng minh qua hiệu suất trên các tiêu chuẩn thực tế:
* Trên SWE-bench Verified (đánh giá khả năng giải quyết vấn đề kỹ thuật phần mềm thực tế của các mô hình và tác nhân AI), DeLM hoạt động tốt hơn 10.5% so với baseline mạnh nhất và giảm chi phí cho mỗi tác vụ khoảng 50%. 💰 * Trên LongBench-v2 Multi-Doc QA (đánh giá khả năng xử lý các vấn đề ngữ cảnh dài, thực tế của LLM), DeLM đạt độ chính xác cao nhất trên bốn dòng mô hình, bao gồm GPT-5.4, Claude Sonnet, Gemini Flash và DeepSeek-V4-Pro.
Yuzhen Mao đã giải thích trên X (trước đây là Twitter) về một số lý do khiến DeLM vượt trội so với các mô hình khác trên SWE-Bench: 🗣️
* Chia sẻ thất bại: Trong các chạy song song thông thường, khi một tác nhân đi sai hướng, thất bại đó chỉ mang tính cá nhân. Các tác nhân sau có thể lãng phí thời gian và tiền bạc theo đuổi cùng một ngõ cụt. Nhưng với DeLM, các giả thuyết thất bại được ghi vào ngữ cảnh chia sẻ. “Các tác nhân sau có thể đọc chúng như một ràng buộc, tránh khám phá lặp lại và định hướng tìm kiếm của họ đến những giải pháp khả thi hơn,” Mao chia sẻ. * Chia sẻ ràng buộc: Các ràng buộc, một khi đã được xác minh, sẽ được thêm ngay vào ngữ cảnh chia sẻ của các tác nhân. Điều này có nghĩa là chúng trở thành một trạng thái ràng buộc chung. “Các tác nhân sau thừa hưởng chúng, xây dựng xung quanh chúng và tránh lặp lại những đơn giản hóa không hợp lệ trên toàn cầu,” Mao nói. * Tiến độ chia sẻ gọn nhẹ và có thể “mở rộng” (unfoldable): DeLM giữ cho tiến độ chia sẻ đủ gọn nhẹ để tái sử dụng. Nó có thể “mở rộng”, nghĩa là các tác nhân xem các gists ngắn gọn theo mặc định, nhưng có thể chọn “mở rộng” chúng thành các bản tóm tắt chi tiết hơn và bằng chứng thô. Các nhà nghiên cứu lưu ý rằng việc cung cấp tất cả các tài liệu và dấu vết thô sẽ cung cấp lượng thông tin tối đa cho các tác nhân, nhưng điều đó có thể làm tràn cửa sổ ngữ cảnh và cuối cùng làm tăng chi phí. 🚧 “Nếu các tác nhân chia sẻ toàn bộ dấu vết, mỗi tác nhân sẽ cần đọc lịch sử lệnh dài, các bản đổ tập tin, các chỉnh sửa thất bại và suy luận trung gian, biến chính sự phối hợp thành một nút thắt cổ chai ngữ cảnh dài khác,” Mao giải thích. Ngược lại, việc chia sẻ các bản tóm tắt gọn nhẹ tuy rẻ hơn nhưng có thể làm mất đi các chi tiết và bằng chứng quan trọng, dẫn đến suy luận kém tin cậy hơn. Do đó, tính năng “mở rộng” cung cấp quyền truy cập “từ thô đến tinh” tùy chọn, giúp cải thiện độ chính xác và giảm chi phí.
Kết Luận
Cuối cùng, với một framework như DeLM, các tác nhân có thể hoạt động hiệu quả hơn vì chúng được ngăn chặn việc đọc lặp lại các tài liệu hoặc chạy lại các phân tích thất bại; hiệu quả hơn vì các phát hiện hữu ích được lan truyền qua các luồng song song; và mạnh mẽ hơn vì chúng chỉ chia sẻ các tuyên bố đã được xác minh. Đối với các nhà phát triển doanh nghiệp, DeLM thách thức một giả định cốt lõi: rằng mọi quy trình làm việc đa tác nhân đều cần một bộ điều khiển trung tâm. Kết quả từ SWE-bench và LongBench-v2 cho thấy mô hình phi tập trung không chỉ “sạch sẽ” về mặt lý thuyết mà còn nhanh hơn, chính xác hơn và chi phí thấp hơn khoảng một nửa. 🎉