Bỏ qua đến nội dung chính
Về trang chủ
AI 1 phút đọc

DynaSchedBench: Giải mã 'Nghịch lý Quan sát' của LLM trong lập lịch động

Nghiên cứu mới giới thiệu DynaSchedBench, bộ benchmark chuẩn hóa cho bài toán lập lịch công việc động (DFJSP), vạch trần hạn chế của các agent AI khi tiếp cận quá nhiều dữ liệu.

Tier 2 · nguồn 86% độ tin cậy Đã được duyệt
Nguồn gốc arxiv.org

Các nhà nghiên cứu vừa công bố DynaSchedBench, một khung đánh giá (benchmark) mới dành cho bài toán Lập lịch phân xưởng linh hoạt động (DFJSP), nhằm giải quyết tình trạng các bộ dữ liệu cũ thường khiến mô hình AI bị học vẹt (overfitting).

Diễn biến

DynaSchedBench sử dụng Sequential Event-Space Calibrator (SESC) để kiểm soát chặt chẽ quá trình tạo dữ liệu mẫu, phân loại độ khó bài toán dựa trên SSI (Schedule Stress Index). Điểm đáng chú ý nhất trong nghiên cứu là việc phát hiện ra 'Nghịch lý Quan sát' (Observability Paradox): Khi các agent dựa trên LLM được cung cấp toàn bộ thông tin cấu trúc hệ thống, hiệu suất của chúng thực tế lại giảm so với khi chỉ nhận được thông tin tóm tắt, súc tích.

Vì sao đáng chú ý

Kết quả cho thấy phần lớn các agent AI hiện nay chưa thể vượt qua các thuật toán điều phối (dispatching) truyền thống một cách ổn định trong môi trường động. Với các kỹ sư Việt Nam đang xây dựng hệ thống agent cho logictics hoặc sản xuất, nghiên cứu này cảnh báo rằng việc 'nhồi nhét' quá nhiều dữ liệu đầu vào cho LLM có thể phản tác dụng, biến agent thành một bộ ước lượng heuristic thay vì bộ tối ưu hóa thông minh.