AI Agent Tăng Cường Công Cụ "Chật Vật" Phân Tích Năng Lượng Thực Tế: Liệu 62% Đã Đủ? ⚡️📊
Nguồn: arXiv:2606.26346v1 [cs.AI] Tác giả: David Akinpelu, Akintonde Abbas (Tume AI), Rereloluwa Alimi (Tume AI), Ayodeji Lana
---
Tóm tắt Điều hành 🌐
Trong khi các tiêu chuẩn đánh giá tác nhân LLM (mô hình ngôn ngữ lớn) đã phát triển mạnh mẽ trong các lĩnh vực như tài chính, lập trình, luật và y học, thì ngành năng lượng vẫn còn hạn chế ở việc truy xuất kiến thức tĩnh. 📉 Một nghiên cứu đột phá mới đã giới thiệu EnergyEvals – khung đánh giá toàn diện đầu tiên được thiết kế để kiểm tra các tác nhân LLM tăng cường công cụ trên các tác vụ phân tích thị trường năng lượng thực tế, đa bước.
Sử dụng bộ dữ liệu gồm 243 tác vụ do chuyên gia biên soạn qua ba cấp độ khó, nghiên cứu đã đánh giá bảy LLM tiên tiến (cả mã nguồn mở và đóng) được trang bị chín công cụ chuyên biệt theo lĩnh vực (bao gồm API ISO trực tiếp, cơ sở dữ liệu biểu phí tiện ích và mô hình tối ưu hóa pin). Kết quả cho thấy, dù các mô hình mã nguồn đóng dẫn đầu, ngay cả mô hình hoạt động tốt nhất (Gemini-3.1-Pro) cũng chỉ đạt độ chính xác 62% – một con số đáng báo động. Điều này làm nổi bật "khoảng cách lớn giữa lập kế hoạch và thực thi" và sự cần thiết của các công cụ chuyên biệt theo lĩnh vực cùng với hướng dẫn từ chuyên gia.
---
1. Tiêu chuẩn Đánh giá EnergyEvals 💡
Bộ dữ liệu gồm 243 tác vụ được thiết kế tỉ mỉ bởi các chuyên gia trong ngành năng lượng, những người có trình độ tiến sĩ và hơn 25 năm kinh nghiệm tổng cộng tại các tổ chức hàng đầu như McKinsey, ICF, LCG Consulting và General Electric. Các tác vụ này tập trung vào các thị trường điện của Hoa Kỳ (ERCOT, PJM, NYISO, ISO-NE, CAISO).
Các Lĩnh vực Năng lực 🛠️
1. Truy xuất và Phân tích Dữ liệu Thị trường ("Dữ liệu" - 107 tác vụ): Trích xuất, tổng hợp và định dạng dữ liệu có cấu trúc từ các cơ sở dữ liệu ISO/RTO. * Ví dụ: "Hãy cho tôi biết giá trung bình hàng tháng của giá giao ngay cho trung tâm ERCOT Houston vào năm 2023 dựa trên cơ sở dữ liệu ERCOT của bạn." 2. Truy xuất và Giải thích Kiến thức ("Kiến thức" - 86 tác vụ): Điều hướng các tài liệu quy định, biểu phí tiện ích và quy trình kết nối liên lưới. * Ví dụ: "Các khoản phí liên quan đến mỗi cột mốc trong quy trình kết nối liên lưới phát điện của ERCOT là gì dựa trên biểu phí ERCOT và Sổ tay Kết nối Tài nguyên?" 3. Mô hình Định lượng Nâng cao và Phân tích Quyết định ("Định lượng" - 50 tác vụ): Mô hình hóa tài chính và vận hành đa bước dưới các ràng buộc rõ ràng. * Ví dụ: "Nếu một viên pin 4 giờ chỉ kiếm doanh thu từ chênh lệch giá tại trung tâm ERCOT West trong 15 năm, thì chi phí vốn $/MW nên là bao nhiêu để đạt IRR 13%? Giả sử hiệu suất vòng tròn 81%, chi phí suy giảm $25/MWh, giới hạn trạng thái sạc 10–90%, và sử dụng giá từ năm 2010–2024 làm cửa sổ đại diện 15 năm."
Phân tích Bộ dữ liệu theo Độ khó 📊
| Lĩnh vực Năng lực | Dễ | Trung bình | Khó | Tổng cộng | | :--- | :---: | :---: | :---: | :---: | | Dữ liệu | 13 | 61 | 33 | 107 | | Kiến thức | 40 | 43 | 3 | 86 | | Định lượng | 0 | 8 | 42 | 50 | | Tổng cộng | 53 | 112 | 78 | 243 |
---
2. Kiến trúc Tác nhân & Bộ Công cụ 🛠️
Các tác nhân được triển khai bằng khung ReAct (Suy nghĩ -> Hành động -> Quan sát), một cách tiếp cận mạnh mẽ cho phép các LLM thực hiện chuỗi lý luận và hành động.
[Câu hỏi] -> [Suy nghĩ] -> [Hành động (Gọi Công cụ)] -> [Quan sát (Đầu ra Công cụ)] -> [Câu trả lời Cuối cùng]
Các Mô hình được Đánh giá 🤖
* Mã nguồn đóng: GPT-5.2, GPT-5-mini, Gemini-3.1-Pro, Claude Sonnet 4.6. * Mã nguồn mở: Kimi-K2.5, Qwen3-Max-Thinking, DeepSeek-V3.2.
9 Danh mục Công cụ Chuyên biệt theo Lĩnh vực ⚙️
* API GridStatus: Dữ liệu trực tiếp trên tất cả các thị trường điện bán buôn lớn của Hoa Kỳ. * Cơ sở dữ liệu (MCP): Truy cập SQL vào dữ liệu thị trường lịch sử. * RAG (MCP): Tìm kiếm tài liệu qua các báo cáo thị trường, sổ tay và hồ sơ quy định. * Hồ sơ pháp lý (Dockets): Công cụ tìm kiếm cho FERC và các PUC cấp tiểu bang (DC, MD, NY, NC, SC, TX, VA). * Biểu phí (Tariffs): API Biểu phí Tiện ích OpenEI. * Năng lượng tái tạo (Renewables): Mô phỏng hồ sơ phát điện mặt trời/gió qua Renewables.ninja. * Tối ưu hóa Pin (Battery Optimization): Mô hình tối ưu hóa doanh thu chỉ từ chênh lệch giá. * Thời tiết (Weather): Dữ liệu lịch sử và dự báo từ OpenWeatherMap. * Tìm kiếm Web (Web Search): API Exa để truy xuất web mở. * Công cụ Hệ thống (System Tools): Sandbox thực thi mã Python, liệt kê tệp và grep.
---
3. Kết quả & Đánh giá 📈
Để nắm bắt các yêu cầu chuyên biệt của lĩnh vực, các phản hồi được đánh giá trên ba khía cạnh bởi một ban giám khảo LLM (GPT-5-mini, Gemini-3.1-Flash-Lite và DeepSeek V3.2).
Phát hiện Chính 🚨
1. Khoảng cách hiệu suất: Ngay cả mô hình hoạt động tốt nhất (Gemini-3.1-Pro) cũng chỉ đạt độ chính xác tổng thể 62.1%, trong khi mô hình kém nhất (Kimi-K2.5) đạt 34.2%. Điều này nhấn mạnh rằng phân tích năng lượng thực tế vẫn là một thách thức lớn đối với các LLM tiên tiến đa năng. 2. Tác vụ dễ so với tác vụ khó: Các tác vụ dễ (ví dụ: truy xuất thông tin cơ bản) đạt độ chính xác cao (>85% đối với các mô hình hàng đầu), nhưng các tác vụ khó (ví dụ: tối ưu hóa doanh thu pin đa bước và mô hình tài chính) giảm xuống dưới 25% độ chính xác cho tất cả các mô hình. 3. Khoảng cách giữa Lập kế hoạch và Thực thi: Hầu hết các lỗi trong các tác vụ "Định lượng" đều do lỗi lập kế hoạch – chẳng hạn như công thức sai, bỏ qua suy giảm hoặc ràng buộc trạng thái sạc, hoặc sử dụng sai đơn vị – thay vì lỗi cú pháp gọi công cụ. Điều này chỉ ra rằng các LLM cần cải thiện khả năng tư duy chiến lược và thực hiện phức tạp. 4. Lợi ích từ việc cung cấp thông tin hướng dẫn (Scaffolding): Việc cung cấp một nguồn cụ thể (ví dụ: chỉ cho mô hình đến cẩm nang quy định chính xác) giúp tăng độ chính xác trung bình 12–18% trên tất cả các mô hình. Điều này cho thấy rằng sự can thiệp và hướng dẫn của con người vẫn còn rất quan trọng trong việc hỗ trợ các tác nhân AI giải quyết các vấn đề phức tạp.