Patronus AI nhận 50 triệu USD để xây dựng ‘Thế giới Số’ kiểm thử tác nhân AI
Các tác nhân AI (AI agents) đang ngày càng tinh vi hơn, từ việc chỉ trả lời câu hỏi đến tự động thực hiện các tác vụ phức tạp gồm nhiều bước. Tuy nhiên, trước khi có thể tin tưởng giao phó cho chúng các công việc như đặt vé du lịch hay phân tích tài chính thay mặt người dùng, các nhà cung cấp mô hình và startup phát triển tác nhân cần đảm bảo rằng chúng hoạt động đáng tin cậy trong một loạt các kịch bản đa dạng.
Vượt xa điểm chuẩn: Giải pháp "Thế giới Số" độc đáo 🎯
Các phòng thí nghiệm AI thường dùng điểm chuẩn để phô trương năng lực mô hình, nhưng điểm số cao, ngay cả với điểm chuẩn dành cho tác nhân, không thực sự chứng minh AI có thể hoàn thành chính xác các công việc phức tạp trong thế giới thực. Đây chính là lỗ hổng mà Patronus AI, một startup thành lập năm 2023 bởi cựu nghiên cứu viên Meta AI Anand Kannappan và Rebecca Qian, đang giải quyết.
Patronus AI giúp các nhà phát triển mô hình và công ty tinh chỉnh AI bằng cách xây dựng môi trường kỹ thuật số mô phỏng (gọi là "digital world models") để đánh giá hiệu suất của các tác nhân. Những môi trường này tái tạo các trang web và hệ thống nội bộ, nơi tác nhân được kiểm thử cường độ cao sau khi huấn luyện bằng học tăng cường – một quá trình lặp lại nhằm thưởng cho việc hoàn thành nhiệm vụ thành công và phạt các lỗi.
50 triệu USD minh chứng cho nhu cầu cấp thiết 💰
Nhu cầu thị trường đối với giải pháp của Patronus AI được Glenn Solomon, giám đốc điều hành tại Notable Capital, mô tả là "gần như không thể thỏa mãn". Với doanh thu tăng gấp 15 lần trong năm qua, công ty đã thu hút sự quan tâm lớn từ các nhà đầu tư.
Vào thứ Năm vừa qua, Patronus AI đã công bố vòng gọi vốn Series B trị giá 50 triệu USD, do Greenfield Partners dẫn đầu, cùng sự tham gia của Notable Capital, Lightspeed, Datadog và Samsung. Khoản đầu tư này nâng tổng số vốn Patronus AI huy động được lên 70 triệu USD.
Cách Patronus AI kiểm tra "độ lỳ" của AI 🧪
Patronus AI so sánh cách tiếp cận của mình với việc Waymo đã huấn luyện xe tự lái bằng cách tạo ra các thế giới tổng hợp để kiểm tra phương tiện trước những mối nguy hiểm hiếm gặp, như thời tiết khắc nghiệt hay trẻ em chạy đuổi theo bóng. Sự khác biệt với tác nhân AI là chúng thường có xu hướng "đi đường tắt" và không hoàn thành nhiệm vụ một cách chính xác.
> "Patronus rất giỏi trong việc phát hiện những mánh khóe và đảm bảo các mô hình phải chịu trách nhiệm," ông Solomon từ Notable Capital nhận định.
Hiện tại, Patronus đang cung cấp các thế giới kỹ thuật số mô phỏng cho lĩnh vực kỹ thuật phần mềm và tài chính. Tuy nhiên, Anand Kannappan cho biết đây mới chỉ là khởi đầu.
> "Ngày nay chúng tôi rất tập trung vào các vấn đề có thể kiểm chứng được, nhưng còn rất nhiều lĩnh vực không thể kiểm chứng hoặc rất khó kiểm chứng," ông nói. "Chúng tôi muốn có thể tạo ra môi trường mà trong đó bạn có thể vận hành một tác nhân trong 10 giờ, 10 ngày hoặc 10 tuần."
Tầm nhìn và đối thủ cạnh tranh 🌐
Về đối thủ cạnh tranh, Patronus tin rằng họ chủ yếu đối đầu với các đội ngũ nội bộ mà các phòng thí nghiệm AI đã xây dựng để đánh giá hành vi của tác nhân. Mặc dù các công ty dữ liệu con người như Mercor và Surge giúp nhà phát triển mô hình với học tăng cường, Patronus hoạt động khác biệt bằng cách đánh giá hành vi của tác nhân mà không có sự can thiệp của con người. Điều này đảm bảo tính khách quan và khả năng kiểm thử quy mô lớn, liên tục.
Patronus AI đang đặt nền móng cho một tương lai nơi các tác nhân AI thực sự đáng tin cậy và sẵn sàng đảm nhận những nhiệm vụ phức tạp nhất trong thế giới thực. 🌟