JobBench: Benchmark mới đo lường khả năng AI làm việc theo ý muốn con người
Thay vì tập trung vào việc thay thế con người, JobBench đánh giá AI qua 130 tác vụ thực tế mà chuyên gia muốn ủy quyền. Claude Opus 4.7 mới chỉ đạt 45.9% điểm số.
Tag
Tổng hợp 5 bài Kalera News liên quan đến Agents — viết tiếng Việt, có dẫn nguồn gốc.
Thay vì tập trung vào việc thay thế con người, JobBench đánh giá AI qua 130 tác vụ thực tế mà chuyên gia muốn ủy quyền. Claude Opus 4.7 mới chỉ đạt 45.9% điểm số.
IBM Research lập luận rằng mặc dù LLM rất mạnh mẽ, nhưng việc triển khai AI quy mô lớn trong doanh nghiệp đòi hỏi "Agent Logic" (Logic của Agent) — các thành phần phần mềm như đồ thị tri thức và phân tích chương trình — để dẫn dắt các agent một cách tin cậy và tiết kiệm chi phí trong các quy trình phức tạp.
The Agency cung cấp một bộ sưu tập các đặc vụ AI chuyên biệt, từ phát triển frontend đến quản lý cộng đồng, mỗi đặc vụ đều có tính cách và quy trình riêng, sẵn sàng tối ưu hóa quy trình làm việc của bạn.
Clement Delangue (Hugging Face) đưa ra cảnh báo về việc nhiều quy trình huấn luyện Reinforcement Learning (RL) cho các Agentic LLM hiện nay đang bị lỗi mà người dùng không hề hay biết. Trong khi RL đơn lượt (single-turn) hoạt động ổn định, việc thêm công cụ để mô hình tương tác giữa chừng thường khiến hệ thống mất kiểm soát hoặc hội tụ sai hướng.
MiniMax ra mắt dòng mô hình MoE M2 với 229.9B tham số, tối ưu cho agent và có khả năng tự sửa lỗi mã nguồn của chính mình.