Anthropic vừa công bố một bộ công cụ đánh giá mới mang tên BioMysteryBench, được thiết kế để kiểm tra khả năng sáng tạo của mô hình trí tuệ nhân tạo Claude trong việc giải quyết các bài toán nghiên cứu sinh học mở. Thử nghiệm này đánh dấu nỗ lực mới nhất của hãng trong việc đưa AI tham gia sâu hơn vào các quy trình nghiên cứu khoa học thực tiễn, thay vì chỉ thực hiện các tác vụ văn phòng thông thường.
Diễn biến
Trong một bài đăng trên blog khoa học, Anthropic cho biết họ đã giao cho Claude tổng cộng 99 bài toán phân tích dữ liệu sinh học thực tế để đối chiếu hiệu suất với một hội đồng chuyên gia là con người. Kết quả cho thấy, có 23 bài toán cực khó khiến ngay cả các chuyên gia cũng phải bế tắc. Tuy nhiên, các mô hình Claude mới nhất của Anthropic đã giải quyết được khoảng 30% trong số 23 bài toán hóc búa này, đồng thời hoàn thành hầu hết các câu hỏi còn lại trong bộ đề.
Theo Anthropic, bộ đánh giá BioMysteryBench tập trung vào việc đo lường xem liệu AI có thể tự đề xuất các giải pháp sáng tạo cho các bài toán sinh học mở hay không. Việc sử dụng dữ liệu sinh học thực tế thay vì các bài kiểm tra lý thuyết giúp phản ánh chân thực hơn năng lực giải quyết vấn đề của mô hình trong môi trường nghiên cứu thực tế.
Vì sao đáng chú ý
Kết quả thử nghiệm từ BioMysteryBench cho thấy tiềm năng của các mô hình ngôn ngữ lớn (LLM) trong việc hỗ trợ nghiên cứu chuyên sâu như tin sinh học (bioinformatics). Đối với cộng đồng công nghệ và y sinh tại Việt Nam, các mô hình AI như Claude có thể sớm trở thành trợ lý đắc lực trong việc phân tích các chuỗi dữ liệu sinh học phức tạp, giúp rút ngắn thời gian thử nghiệm lâm sàng hoặc giải mã gene. Dù vậy, người dùng vẫn cần lưu ý đây là các số liệu do chính Anthropic công bố và năng lực thực tế của AI trong môi trường phòng thí nghiệm thực tế vẫn cần thêm nhiều kiểm chứng độc lập.