Bỏ qua đến nội dung chính
Về trang chủ
AI tools-ai 8 phút đọc

Kỹ năng Khai báo hay Lập trình Chỉ thị: Phương pháp nào tối ưu cho AI Agent? 🤖💡

Nghiên cứu tiên phong từ Đại học Quản lý Singapore khám phá cách điều phối AI Agent, chỉ ra rằng các “kỹ năng khai báo” bằng ngôn ngữ tự nhiên vượt trội so với logic lập trình cứng nhắc, nhưng nhấn mạnh rằng chất lượng truy xuất thông tin vẫn là yếu tố then chốt quyết định thành công của mọi Agent.

Tier 2 · nguồn 99% độ tin cậy Auto-priority
Nguồn gốc arxiv.org

Kỹ năng Khai báo cho AI Agent: Chìa khóa Vàng hay Lời Hứa Hão? 🤖💡

Tại Kalera News, chúng tôi luôn tìm kiếm những đột phá có thể định hình tương lai công nghệ. Một nghiên cứu mới mang tính bước ngoặt từ Đại học Quản lý Singapore (Singapore Management University), được công bố trên arXiv, đã đào sâu vào cách chúng ta điều phối các Agent AI sử dụng công cụ trong các quy trình làm việc phức tạp. Với nhan đề "Declarative Skills for AI Agents in Knowledge-Grounded Tool-Use Workflows" (arXiv:2606.06923), công trình này do M. Danish Lim và cộng sự thực hiện, mang đến những cái nhìn sâu sắc cho bất kỳ ai đang xây dựng các hệ thống AI thế hệ tiếp theo. Hãy cùng Sylvie phân tích! 🧐

1. Ba Phương Pháp Điều Phối Agent Được Đánh Giá

Nghiên cứu tập trung so sánh ba kiến trúc Agent chính khi xử lý các quy trình dịch vụ khách hàng phức tạp trên các cơ sở tri thức (Knowledge Bases - KBs) phi cấu trúc:

* DeclarativeAgent (Agent Khai báo): Một Agent được trang bị các "tệp kỹ năng" bằng ngôn ngữ tự nhiên, được thêm vào prompt hệ thống. Điều này cho phép Mô hình Ngôn ngữ Lớn (LLM) tự quyết định luồng điều khiển một cách linh hoạt. ✨ * ImperativeAgent (Agent Chỉ thị): Một máy trạng thái hữu hạn (FSM) được lập trình sẵn với các giai đoạn rõ ràng, chuyển đổi xác định và các cổng xác minh được "hard-code". Nó tuân theo một kịch bản nghiêm ngặt. * BaselineAgent (Agent Cơ sở): Một Agent không được trang bị cấu trúc hỗ trợ đặc biệt, mô phỏng theo benchmark $\tau$-Knowledge gốc.

2. Những Phát Hiện Nổi Bật: Ai là Vua? 👑

Các kết quả của nghiên cứu cực kỳ rõ ràng và mang tính cảnh báo:

* Truy xuất thông tin là Nút thắt Cổ chai Cuối cùng: Khi chất lượng truy xuất kém hoặc nhiễu, tất cả các Agent đều suy giảm hiệu suất đáng kể. Các tệp kỹ năng bằng ngôn ngữ tự nhiên không thể bù đắp cho hiệu suất bị mất do truy xuất kém. Đây là một lời nhắc nhở quan trọng: "Rác vào thì rác ra" (Garbage in, garbage out) vẫn đúng! 🗑️ * Điều phối Khai báo Thắng Thế: Với khả năng truy xuất chất lượng cao (golden retrieval), DeclarativeAgent liên tục vượt trội hơn cả Baseline và ImperativeAgent về tỷ lệ thành công tác vụ và độ chính xác của các đối số ghi. * Điều phối Chỉ thị Dễ Gãy đổ: Các máy trạng thái được lập trình hạn chế không gian hành động của Agent, và tệ hơn là, chúng không cải thiện được sự tuân thủ. Các lỗi phân loại giai đoạn cho phép LLM bỏ qua các cổng xác định, dẫn đến tỷ lệ thất bại cao và các vòng lặp thử lại không cần thiết. 🤯

3. Kiến Trúc Agent Chi Tiết

DeclarativeAgent: Sự Linh Hoạt Là Sức Mạnh

DeclarativeAgent sử dụng ba tệp kỹ năng Markdown được gắn vào prompt hệ thống trong một khối <skills>:

1. banking-procedures.md: Ánh xạ các nghiệp vụ (ví dụ: đóng tài khoản, tranh chấp) tới các điều kiện tiên quyết, công cụ có thể khám phá, ràng buộc thứ tự và schema đối số. 2. customer-interaction.md: Phác thảo một cấu trúc hội thoại 4 bước linh hoạt (Chào hỏi, Phân loại, Xác minh/Thực hiện hành động, Xác nhận) và hướng dẫn Agent xác định tất cả các yêu cầu của người dùng ngay từ đầu. 3. knowledge-discovery.md: Hướng dẫn Agent khi nào và làm thế nào để tìm kiếm KB để khám phá các công cụ được đặt tên động (ví dụ: close_bank_account_7392).

Sự linh hoạt này cho phép Agent tự điều chỉnh hành vi dựa trên ngữ cảnh mà không bị ràng buộc bởi các quy tắc cứng nhắc.

ImperativeAgent: Bị Ràng Buộc Bởi Logic

ImperativeAgent điều phối hành vi một cách lập trình bằng cách sử dụng một máy trạng thái bên ngoài. Nó chuyển đổi một cách xác định giữa bốn giai đoạn nghiêm ngặt:

* Giai đoạn I (Phân loại): Hạn chế không gian hành động chỉ cho hội thoại. * Giai đoạn II (Tìm kiếm KB): Hạn chế không gian hành động chỉ cho các công cụ khám phá API. * Giai đoạn III (Thực thi Ghi): Buộc gọi tuần tự các API tiền yêu cầu và ghi, với các cổng xác minh bắt buộc. * Giai đoạn IV (Kết thúc): Đưa ra phản hồi cuối cùng và đóng phiếu yêu cầu.

Chính sự cứng nhắc này đã trở thành gót chân Achilles của ImperativeAgent.

4. Đánh Giá Thực Nghiệm: Con Số Không Biết Nói Dối 📊

Các tác giả đã đánh giá các kiến trúc trên năm mô hình hàng đầu (GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Llama 3 70B, Command R+) và hai chế độ truy xuất:

* Golden Retrieval (Truy xuất Vàng): Các dữ kiện cần thiết được cung cấp chính xác 100%. * Vector DB Retrieval (RAG): Các đoạn dữ liệu được tìm nạp động từ cơ sở dữ liệu vector.

Phân tích Tỷ lệ Thành công (Golden Retrieval)

* DeclarativeAgent đạt tỷ lệ thành công 74.5% tổng thể (ví dụ: cao hơn 14.2% so với Baseline, và 8.8% so với Imperative). * ImperativeAgent suy giảm hiệu suất do sự cứng nhắc trong lập trình. Các lỗi phân loại giai đoạn hoặc lỗi định dạng dẫn đến vòng lặp thử lại vô tận hoặc treo hệ thống. Các hạn chế cứng nhắc về không gian hành động ngăn LLM thực hiện các "hành động phụ" cần thiết (như làm rõ ý định người dùng giữa quy trình), điều mà DeclarativeAgent dễ dàng xử lý.

Phân tích Tỷ lệ Thành công (Noisy RAG Retrieval)

* Thật đáng báo động, tỷ lệ thành công của tất cả các Agent đều sụt giảm xuống chỉ còn từ 22.0% đến 28.5%. * Khi các dữ kiện cần thiết bị thiếu trong ngữ cảnh truy xuất, "khoảng cách năng lực" trở nên không còn ý nghĩa. Các tệp kỹ năng có thể hướng dẫn Agent cách hành động, nhưng không thể thay thế cho dữ liệu hoạt động bị thiếu. Điều này khẳng định lại Đề xuất 4: Nhiễu truy xuất làm suy giảm kênh thông tin. 📉

5. Hàm Ý Sâu Sắc Cho Tương Lai AI 🚀

Nghiên cứu này cung cấp bằng chứng lý thuyết và thực nghiệm vững chắc, ủng hộ một xu hướng lớn trong kỹ thuật AI: sự chuyển dịch từ các máy trạng thái dựa trên mã lệnh chỉ thị sang các kỹ năng dựa trên prompt khai báo.

* Tại sao các khung máy trạng thái (như LangGraph) có thể dễ gãy đổ: Mặc dù phổ biến, các máy trạng thái chỉ thị thường hạn chế lớp chính sách quá mức. Nếu mô hình cần đi chệch khỏi đường trạng thái (ví dụ: để xử lý cảnh báo bảo mật bất ngờ hoặc sự điều chỉnh từ người dùng), nó không thể làm được, dẫn đến các lỗi dây chuyền. * Sức mạnh của "Tệp Kỹ năng": Việc thêm các tệp kỹ năng Markdown có cấu trúc hoạt động như một lớp điều phối nhẹ, động và thích ứng. LLM duy trì khả năng suy luận và không gian hành động đầy đủ của mình, sử dụng các kỹ năng như "lan can mềm" và hướng dẫn thủ tục. * Chất lượng ngữ cảnh là ưu tiên số 1: Không có lượng cấu trúc hỗ trợ, lập trình hay prompting tiên tiến nào có thể cứu một Agent hoạt động trên dữ liệu rác. Đầu tư vào truy xuất có độ chính xác cao và làm giàu ngữ cảnh mạnh mẽ là điểm đòn bẩy cao nhất để Agent thành công. 🎯

Với những phát hiện này, Kalera News tin rằng việc tập trung vào việc phát triển các kỹ năng khai báo linh hoạt và đặc biệt là nâng cao chất lượng dữ liệu truy xuất sẽ là chìa khóa để mở khóa tiềm năng thực sự của AI Agent trong tương lai. Đừng bao giờ đánh giá thấp sức mạnh của dữ liệu tốt! 💪