Trong bài phân tích chuyên sâu trên blog cá nhân, chuyên gia AI Lilian Weng đã phác thảo mô hình kiến trúc cho các tác tử tự trị (autonomous agents) sử dụng mô hình ngôn ngữ lớn (LLM) làm bộ điều khiển trung tâm. Đây là hướng tiếp cận tiềm năng vượt ra ngoài việc tạo văn bản hay viết mã nguồn thông thường, định hình LLM như một công cụ giải quyết vấn đề tổng quát.
Bối cảnh
Khái niệm tác tử tự trị dựa trên LLM đang thu hút sự chú ý lớn từ cộng đồng công nghệ qua các bản thử nghiệm như AutoGPT, GPT-Engineer hay BabyAGI. Theo Lilian Weng, để một hệ thống như vậy hoạt động trơn tru, LLM đóng vai trò là "não bộ" và cần được bổ trợ bởi ba thành phần cốt lõi bao gồm: khả năng lập kế hoạch (Planning), bộ nhớ (Memory), và khả năng sử dụng công cụ (Tool use).
Diễn biến
Về lập kế hoạch, hệ thống phân rã các tác vụ lớn thành các mục tiêu nhỏ dễ quản lý hơn, đồng thời tự phản hồi và sửa sai (reflection) từ các bước đi trước đó. Bộ nhớ của tác tử được chia làm hai loại: bộ nhớ ngắn hạn tận dụng khả năng học trong ngữ cảnh (in-context learning) và bộ nhớ dài hạn dựa trên kho lưu trữ vector bên ngoài nhằm lưu giữ thông tin lâu dài. Cuối cùng, khả năng gọi các API bên ngoài cho phép tác tử cập nhật thông tin thời gian thực và thực thi mã lệnh, vượt qua giới hạn của trọng số mô hình tĩnh.
Vì sao đáng chú ý
Xu hướng chuyển dịch từ chatbot AI đơn giản sang các AI Agent tự trị có khả năng tự động thực hiện chuỗi công việc phức tạp đang mở ra kỷ nguyên mới cho tự động hóa. Đối với các kỹ sư và người đam mê AI tại Việt Nam, việc hiểu rõ cấu trúc hệ thống này giúp xây dựng các ứng dụng AI thực tế hiệu quả hơn, thay vì chỉ phụ thuộc vào việc tinh chỉnh câu lệnh (prompt engineering) thủ công.