Bỏ qua đến nội dung chính
Về trang chủ
AI tools-ai 5 phút đọc

Microsoft “ASSERT” ra mắt: Công cụ cách mạng hóa kiểm thử hành vi AI bằng ngôn ngữ tự nhiên! 🚀

Microsoft vừa giới thiệu ASSERT, một khung công tác mã nguồn mở cho phép các nhà phát triển dễ dàng kiểm thử hành vi AI của ứng dụng thông qua mô tả bằng ngôn ngữ tự nhiên, đảm bảo hệ thống hoạt động đúng mục đích sản phẩm.

Tier 1 · nguồn 99% độ tin cậy Auto-priority
Nguồn gốc techcrunch.com

Microsoft "ASSERT" Ra Mắt: Kiểm Định AI Dễ Dàng Hơn Nhờ Mô Tả Văn Bản! 🤖

Các nhà nghiên cứu và phòng thí nghiệm AI đã đạt những bước tiến vượt bậc trong việc đánh giá các mô hình AI về mọi mặt, từ an toàn, tuân thủ đến tính nịnh bợ và căn chỉnh. Tuy nhiên, một nhu cầu cụ thể đang nổi lên đối với các công ty và nhà phát triển: làm thế nào để đảm bảo hệ thống AI của họ hoạt động đúng như mong đợi cho sản phẩm hoặc dịch vụ riêng biệt?

Trong nỗ lực đơn giản hóa quy trình kiểm thử này, Microsoft vào thứ Ba đã chính thức trình làng ASSERT, viết tắt của "Adaptive Spec-driven Scoring for Evaluation and Regression Testing" (Đánh giá và Kiểm thử Hồi quy dựa trên Đặc tả Thích ứng). Đây là một công cụ hứa hẹn sẽ thay đổi cách chúng ta tiếp cận việc kiểm thử AI ứng dụng.

ASSERT Hoạt Động Như Thế Nào? 🤔

Microsoft khẳng định rằng khung công tác mã nguồn mở này giúp việc đánh giá hành vi AI cụ thể cho ứng dụng trở nên dễ dàng hơn. ASSERT sử dụng AI để chuyển đổi các mô tả mục tiêu, chính sách hoặc hành vi dự kiến bằng ngôn ngữ tự nhiên, cấp cao thành các bài kiểm thử chi tiết, được chấm điểm và có thể điều tra.

Cụ thể, ASSERT sẽ thực hiện các bước sau:

- Tiếp nhận các mô tả bằng ngôn ngữ tự nhiên về hành vi và chính sách mong đợi của mô hình AI. - Chuyển đổi chúng thành một bộ hành vi được chấp nhận và không chấp nhận có cấu trúc. - Tạo ra các kịch bản vấn đề và trường hợp kiểm thử. - Chạy các trường hợp kiểm thử đó trên hệ thống AI mục tiêu và chấm điểm kết quả. - Ghi lại lộ trình mà hệ thống AI đã thực hiện, bao gồm các hành động trung gian và lệnh gọi công cụ, giúp nhà phát triển dễ dàng kiểm tra nơi xảy ra lỗi.

Các nhà phát triển cũng có thể cung cấp ngữ cảnh hệ thống, công cụ và các ràng buộc để tùy chỉnh thêm phạm vi đánh giá.

> Ví dụ, một nhà phát triển có thể chỉ định rằng một tác nhân AI nghiên cứu tài liệu không được gửi email cho những người bên ngoài công ty, giới hạn thông tin bí mật cho các giám đốc cấp C, và cung cấp các bản tóm tắt súc tích có xét đến ngữ cảnh trước đó. ASSERT sẽ sử dụng các quy tắc này để tạo ra các trường hợp kiểm thử nhằm kiểm tra xem hệ thống có tuân thủ các quy tắc đó một cách liên tục hay không.

Tại Sao ASSERT Lại Quan Trọng? 🎯

Theo Microsoft, khung công tác này lấp đầy một khoảng trống mà các đánh giá tổng quát, rộng hơn không thể đáp ứng, đặc biệt khi các mô hình AI được thiết kế để hoạt động theo cách được định hình bởi ngữ cảnh, chính sách và công cụ của một ứng dụng hoặc sản phẩm cụ thể.

Sarah Bird, Giám đốc Sản phẩm AI có trách nhiệm tại Microsoft, chia sẻ:

> "Một trong những điều chúng tôi học được là các đánh giá là cực kỳ quan trọng để đưa ra quyết định đúng đắn. Bởi vì nếu bạn không hiểu hành vi của hệ thống AI, rất khó để biết liệu nó có đạt được tiêu chuẩn của tổ chức bạn hay không... Những gì chúng tôi thấy là nếu bạn thực sự muốn có một hệ thống đáng tin cậy, bạn nên đánh giá nhiều khía cạnh cụ thể theo ứng dụng hơn."

Bird cũng cho biết ASSERT có thể được sử dụng để đánh giá hệ thống trong quá trình xây dựng, sau khi triển khai và thậm chí để giám sát liên tục. Điều này mang lại sự linh hoạt và đảm bảo chất lượng AI xuyên suốt vòng đời sản phẩm.

Sự ra mắt của ASSERT diễn ra trong bối cảnh ngành công nghiệp AI đang có một sự chuyển dịch dần nhưng rộng lớn. Khi các mô hình trở nên mạnh mẽ hơn, các nhà nghiên cứu đang tập trung vào kiểm thử lặp lại và kiểm tra hồi quy, với các sáng kiến như HELM của Stanford, AILuminate của MLCommons và các nhóm đánh giá như METR đang triển khai các tiêu chuẩn để đo lường cách các mô hình hành xử trong các điều kiện khác nhau. ASSERT của Microsoft chính là một mảnh ghép quan trọng trong bức tranh lớn này, giúp các nhà phát triển tạo ra những ứng dụng AI đáng tin cậy và phù hợp hơn với nhu cầu thực tế. ✨