Các nhà nghiên cứu vừa công bố DynaSchedBench, một khung đánh giá (benchmark) mới dành cho bài toán Lập lịch phân xưởng linh hoạt động (DFJSP), nhằm giải quyết tình trạng các bộ dữ liệu cũ thường khiến mô hình AI bị học vẹt (overfitting).
Diễn biến
DynaSchedBench sử dụng Sequential Event-Space Calibrator (SESC) để kiểm soát chặt chẽ quá trình tạo dữ liệu mẫu, phân loại độ khó bài toán dựa trên SSI (Schedule Stress Index). Điểm đáng chú ý nhất trong nghiên cứu là việc phát hiện ra 'Nghịch lý Quan sát' (Observability Paradox): Khi các agent dựa trên LLM được cung cấp toàn bộ thông tin cấu trúc hệ thống, hiệu suất của chúng thực tế lại giảm so với khi chỉ nhận được thông tin tóm tắt, súc tích.
Vì sao đáng chú ý
Kết quả cho thấy phần lớn các agent AI hiện nay chưa thể vượt qua các thuật toán điều phối (dispatching) truyền thống một cách ổn định trong môi trường động. Với các kỹ sư Việt Nam đang xây dựng hệ thống agent cho logictics hoặc sản xuất, nghiên cứu này cảnh báo rằng việc 'nhồi nhét' quá nhiều dữ liệu đầu vào cho LLM có thể phản tác dụng, biến agent thành một bộ ước lượng heuristic thay vì bộ tối ưu hóa thông minh.