Hệ thống mới giải quyết lỗi phổ biến của LLM trong việc trích dẫn sai hoặc không khớp bằng chứng, đặc biệt quan trọng trong các lĩnh vực nghiên cứu khoa học và y tế.
Diễn biến
DeepSciVerify kết hợp lập luận ở cấp độ tóm tắt (abstract-level) với việc 'leo thang' có chọn lọc lên bằng chứng cấp độ đoạn văn (passage-level). Quy trình bắt đầu bằng việc xác minh khẳng định qua bản tóm tắt; chỉ khi có sự không chắc chắn, hệ thống mới truy xuất và phân tích toàn văn. Thiết kế này tận dụng hành vi bổ trợ của các LLM khác nhau, nơi một số mô hình bảo thủ hơn trong khi số khác quyết đoán hơn dưới sự không chắc chắn.
Vì sao đáng chú ý
Trên benchmark SCitance, DeepSciVerify đạt 86,7 Micro-F1, vượt qua các phương pháp chỉ dùng abstract +4,5 điểm. Đáng chú ý, hệ thống giải quyết được 67% trường hợp mà không cần truy xuất toàn văn, giúp tối ưu hóa cả độ chính xác lẫn hiệu suất. Với người dùng Việt Nam đang sử dụng AI để tổng hợp tài liệu khoa học, đây là một giải pháp thiết thực để lọc bỏ các 'ảo giác' trích dẫn thường gặp.