Các hệ thống AI mang tính tác nhân (agentic AI) ngày càng có khả năng thực hiện các nhiệm vụ khoa học. Tuy nhiên, theo OpenAI, mức độ hữu ích của chúng đối với các nhà nghiên cứu khoa học sự sống phụ thuộc vào việc chúng xử lý độ phức tạp của nghiên cứu thực tế tốt đến đâu. Công việc này hiếm khi chỉ là một câu hỏi đơn thuần về việc nhớ dữ kiện hay một vấn đề dự đoán rõ ràng. Thay vào đó, các nhà khoa học phải diễn giải bằng chứng không đầy đủ, dung hòa các kết quả mâu thuẫn, thiết kế thí nghiệm khó khăn, khắc phục sự cố, đánh giá rủi ro chuyển dịch và đưa ra quyết định dưới sự không chắc chắn. 🤯
Các bộ tiêu chuẩn hiện tại chưa thể nắm bắt đầy đủ những khả năng này. Nhiều đánh giá trong khoa học sự sống chỉ tập trung vào các lĩnh vực hẹp hoặc kỹ năng riêng lẻ, dẫn đến các câu hỏi có định dạng cấu trúc và câu trả lời tham chiếu rõ ràng. Mặc dù có giá trị, chúng thường không thực sự đánh giá được liệu một mô hình có thể đóng góp vào phạm vi rộng lớn hơn của công việc cấp độ nghiên cứu hay không.
LifeSciBench: Một Bước Tiến Mới
Để khắc phục khoảng cách này, OpenAI đã thiết kế LifeSciBench. Mỗi nhiệm vụ trong bộ tiêu chuẩn này đều được xây dựng dựa trên sự đánh giá của các nhà khoa học sự sống đang hành nghề, có trình độ tiến sĩ và kinh nghiệm trực tiếp trong việc thúc đẩy các chương trình khám phá thuốc trong môi trường công nghệ sinh học và dược phẩm. 👩🔬
LifeSciBench bao gồm 750 nhiệm vụ do chuyên gia biên soạn, trải dài trên bảy quy trình làm việc và bảy lĩnh vực sinh học khác nhau. Nó còn được hỗ trợ bởi 1.062 tài liệu liên quan, với sự đóng góp của 173 nhà khoa học, sử dụng 19.020 tiêu chí chấm điểm và được 453 chuyên gia đánh giá độc lập.
LifeSciBench Đo Lường Điều Gì?
LifeSciBench đo lường liệu các hệ thống AI có thể hỗ trợ các nhiệm vụ nghiên cứu khoa học sự sống thực tế hay không, thay vì chỉ trả lời các câu hỏi sinh học. Để định nghĩa phân loại chuẩn, OpenAI đã khảo sát các nhà khoa học sự sống về các quy trình làm việc mà họ sử dụng thường xuyên nhất trong nghiên cứu ứng dụng. Các phản hồi này được nhóm thành bảy danh mục lặp lại: xử lý bằng chứng, phân tích, thiết kế và tối ưu hóa, lý luận khoa học, xác thực và vận hành, chuyển dịch, và truyền thông khoa học.
Mỗi nhiệm vụ được cấu trúc giống như một yêu cầu mà một nhà khoa học có thể đưa ra cho một cộng tác viên am hiểu: một yêu cầu khoa học, bất kỳ ngữ cảnh hoặc tài liệu liên quan nào và một câu trả lời tự do. Các tiêu chí chấm điểm do chuyên gia biên soạn sẽ đánh giá liệu một mô hình có thể tạo ra câu trả lời đúng cho một vấn đề cụ thể, với mức độ chi tiết, biện minh, cảnh báo và định dạng phù hợp mà một nhà khoa học mong đợi.
Quá Trình Xây Dựng Bộ Dữ Liệu Chặt Chẽ
LifeSciBench đánh giá khả năng lý luận khoa học cùng với các kỹ năng thực tế, ít được định nghĩa rõ ràng hơn, cần thiết cho việc sử dụng khoa học trong thế giới thực. Các nhiệm vụ yêu cầu mô hình xử lý các vấn đề nghiên cứu thực tế: diễn giải bằng chứng, đưa ra các đánh giá dựa trên lĩnh vực chuyên môn và truyền đạt các kết luận hữu ích cho các chuyên gia đánh giá. Nhiều nhiệm vụ cũng yêu cầu mô hình xử lý sự không chắc chắn và suy luận từ các tệp dữ liệu hỗ trợ, thay vì chỉ dựa vào văn bản nhắc nhở.
Bộ tiêu chuẩn này được thiết kế để phản ánh sự phức tạp của công việc khoa học sự sống. Tổng cộng, 79% nhiệm vụ yêu cầu nhiều bước lý luận hoặc ra quyết định, với trung bình bốn bước mỗi nhiệm vụ. LifeSciBench bao gồm 1.062 tài liệu đính kèm, bao gồm hình ảnh, PDF, bảng biểu, tệp trình tự, tệp cấu trúc hóa học và tài liệu tham khảo web. Hơn một nửa số nhiệm vụ (53%) yêu cầu mô hình diễn giải hoặc tổng hợp thông tin từ ít nhất một tài liệu.
Các nhiệm vụ được tạo bởi 173 nhà khoa học chuyên gia từ các lĩnh vực khoa học sự sống khác nhau, tất cả đều có trình độ tiến sĩ và kinh nghiệm trong ngành công nghệ sinh học hoặc dược phẩm. Quy trình đánh giá rất nghiêm ngặt, với trung bình sáu chu kỳ tự động và ít nhất hai vòng đánh giá của chuyên gia, đảm bảo sự đồng thuận trên 90% về tính khoa học và khả năng chấm điểm.
Chấm Điểm và Các Tiêu Chí Chi Tiết
Các nhiệm vụ của LifeSciBench được chấm điểm bằng một tiêu chí chi tiết, dành riêng cho từng nhiệm vụ, phân tích phản hồi mong đợi thành các tuyên bố khoa học, tính toán, quyết định, biện minh cụ thể. Trên toàn bộ bộ tiêu chuẩn, các tiêu chí do chuyên gia phát triển bao gồm 19.020 tiêu chí—trung bình 25 tiêu chí mỗi nhiệm vụ—để đánh giá cả tính đúng đắn khoa học và tính hữu ích cho các quyết định nghiên cứu. Thiết kế này phản ánh cách công việc khoa học được đánh giá trong thực tế, nơi nhiều nhiệm vụ khoa học sự sống không thể chỉ được chấm điểm bằng cách kiểm tra câu trả lời cuối cùng.
Xác Thực Từ Chuyên Gia
LifeSciBench đã được xác thực thông qua một đánh giá độc lập từ 453 chuyên gia, những người không tham gia vào việc biên soạn nhiệm vụ. 97% trong số đó có bằng tiến sĩ hoặc tương đương, với trung bình 12 năm kinh nghiệm và 14 ấn phẩm được bình duyệt. Phản hồi cho thấy sự đồng thuận vượt quá 96% ở mọi hạng mục về mức độ phản ánh công việc nghiên cứu thực tế, kiểm tra lý luận khoa học, dựa trên bằng chứng và hữu ích tổng thể.
Kết Quả Ban Đầu: AI Thể Hiện Thế Mạnh và Hạn Chế
LifeSciBench sử dụng hai số liệu bổ sung: tỉ lệ đạt (pass rate) – phần trăm nhiệm vụ đạt ngưỡng thành công 70% – và điểm số trung bình dựa trên tiêu chí chấm điểm, cho phép tính điểm một phần. Cả hai đều quan trọng vì một phản hồi khoa học có thể đúng một phần hoặc hữu ích mà không cần đáp ứng mọi yêu cầu cho một câu trả lời hoàn chỉnh.
AI Thể Hiện Điểm Mạnh Nào? 💪
Các mô hình tiên tiến cho thấy sức mạnh tương đối tốt nhất trong các nhiệm vụ liên quan đến tổng hợp khoa học, truyền thông và diễn giải có cấu trúc. Mặc dù tỉ lệ đạt tuyệt đối vẫn còn khiêm tốn, nhưng GPT-Rosalind cho thấy sự tiến bộ đáng kể so với GPT-5.5, cải thiện tỉ lệ đạt tổng thể từ 25.7% lên 36.1%.
Các hướng phát triển mạnh nhất của AI xuất hiện trong Truyền thông Khoa học (tăng từ 56.3% lên 71.1%) và Chuyển dịch (từ 36.8% lên 57.7%). Điều này cho thấy các mô hình tiên tiến đang nhanh chóng cải thiện khả năng tổ chức bằng chứng và tạo ra các giải thích thuyết phục cho chuyên gia, cũng như kết nối bằng chứng tiền lâm sàng với các hàm ý lâm sàng.
AI Vẫn Còn Những Hạn Chế Nào? 🚧
Hiệu suất của AI vẫn còn yếu hơn nhiều đối với các công việc khoa học nặng về tài liệu (artifact-heavy), thiết kế (design-heavy) và bị hạn chế về mặt vận hành. Cụ thể, Thiết kế, Tối ưu hóa & Dự đoán và Phân tích vẫn là những quy trình làm việc khó khăn nhất, với tỉ lệ đạt của GPT-Rosalind chỉ khoảng 30.7% và 30.3%.
Sử dụng tài liệu (artifacts) là một lỗ hổng rõ ràng. Mặc dù GPT-Rosalind hoạt động tốt hơn GPT-5.5 trong các môi trường nặng về tài liệu, nhưng tỉ lệ đạt của nó vẫn giảm từ 45.1% (nhiệm vụ chỉ có văn bản) xuống 28.1% (nhiệm vụ có tài liệu hoặc URL). Điều này cho thấy các mô hình tiên tiến vẫn gặp khó khăn trong việc trích xuất thông tin từ các hình ảnh phức tạp hoặc tệp trình tự lớn và tích hợp thông tin đó vào câu trả lời cuối cùng.
Định dạng câu trả lời cũng quan trọng. Các nhiệm vụ yêu cầu đầu ra chính xác ở cấp độ trình tự, cấu trúc hoặc cấu tạo cho thấy tỉ lệ đạt thấp hơn: GPT-Rosalind chỉ đạt 14.8% trong các nhiệm vụ số học và 24.0% trong các đầu ra trình tự hoặc cấu trúc. Điều này có ý nghĩa khoa học vì nhiều quy trình làm việc trong khoa học sự sống yêu cầu các đầu ra đủ chính xác để sử dụng trực tiếp.
Hạn Chế và Hướng Đi Tiếp Theo
LifeSciBench là một bước tiến quan trọng trong việc đo lường mức độ hữu ích của các hệ thống AI đối với nghiên cứu khoa học sự sống, nhưng nó không thể thay thế cho việc nghiên cứu các mô hình trong môi trường nghiên cứu thực tế. Bộ tiêu chuẩn này tập trung vào các nhiệm vụ độc lập, phản ánh các quy trình làm việc phổ biến trong ngành, nhưng vẫn còn nhiều chuyên ngành khoa học và loại nhiệm vụ nằm ngoài phạm vi hiện tại.
Nghiên cứu thực tế mang tính lặp đi lặp lại: các nhà khoa học thu thập bằng chứng mới, sửa đổi giả thuyết, thiết kế các thí nghiệm tiếp theo và điều chỉnh kế hoạch khi kết quả xuất hiện. Do đó, hiệu suất cao trên LifeSciBench nên được hiểu là bằng chứng về khả năng ở cấp độ nhiệm vụ thực tế, chứ không phải là thước đo trực tiếp về tác động nghiên cứu hạ nguồn.
Bước tiếp theo của OpenAI là kết nối hiệu suất của bộ tiêu chuẩn với các nghiên cứu triển khai trong các quy trình nghiên cứu thực tế, trong thời gian dài hơn và qua nhiều vòng lý luận, phản hồi và theo dõi thử nghiệm. Điều này sẽ giúp đánh giá liệu các hệ thống AI có thực sự thúc đẩy khám phá hoặc cải thiện kết quả R&D hay không. 🚀