CEO của Abacus.ai, Bindu Reddy, vừa đưa ra nhận định gây tranh cãi: các mô hình AI thế hệ tiếp theo không còn mặc định là sẽ tốt hơn bản cũ.
Diễn biến
Reddy dẫn chứng cụ thể: Opus 4.7 bị đánh giá là kém hơn bản 4.6, Gemini 3.1 tệ hơn bản 2.5, và Sonnet 4.6 gặp nhiều lỗi (bug) hơn so với bản 4.5. Bà cho rằng các mô hình SOTA (State-of-the-Art) dường như đang rơi vào trạng thái 'chạy vòng quanh' mà không tạo ra được bước đột phá thực sự nào về chất lượng.
Vì sao đáng chú ý
Thông tin này rất quan trọng cho các team AI tại Việt Nam đang có ý định nâng cấp hệ thống lên các model mới nhất. Việc model mới 'regress' (thụt lùi) đòi hỏi quy trình đánh giá (eval) nghiêm ngặt hơn trước khi triển khai thực tế. Đừng giả định rằng phiên bản số cao hơn luôn mang lại kết quả tốt hơn.