Hugging Face vừa công bố Ettin Reranker, một gia đình mô hình CrossEncoder mới được thiết kế để tối ưu hóa kết quả tìm kiếm và truy xuất thông tin.
Diễn biến
Theo kỹ sư Tom Aarsen từ Hugging Face, dòng Ettin Reranker bao gồm 6 mô hình với kích thước đa dạng từ 17 triệu đến 1 tỷ tham số. Các mô hình này được xây dựng trên nền tảng bộ mã hóa Ettin ModernBERT và được huấn luyện trên bộ dữ liệu khổng lồ lên tới 143 triệu bộ ba (triples). Toàn bộ công thức huấn luyện (training recipe) cũng được công khai để cộng đồng có thể tái hiện.
Vì sao đáng chú ý
Reranking là mắt xích quan trọng trong hệ thống RAG (Retrieval-Augmented Generation) để đảm bảo AI trả lời chính xác. Với việc ra mắt các mô hình "nhỏ nhưng có võ" (chỉ từ 17M tham số), Hugging Face giúp các nhà phát triển Việt Nam có thể triển khai hệ thống tìm kiếm chất lượng cao ngay trên hạ tầng phần cứng khiêm tốn. Đây là một bước tiến lớn cho AI mã nguồn mở.