AI tools-ai 20 thg 6, 2026 4 phút đọc

Liquid AI Trình Làng LFM2.5-Embedding & ColBERT: Tìm Kiếm Đa Ngôn Ngữ Siêu Tốc, Chỉ 1.5ms! 🚀🌐

Liquid AI vừa giới thiệu hai mô hình LFM2.5-Embedding-350M và LFM2.5-ColBERT-350M đột phá, là những thành viên song hướng đầu tiên của dòng Liquid Foundation Model, hứa hẹn khả năng tìm kiếm đa ngôn ngữ cực nhanh và chính xác trên 11 thứ tiếng, tối ưu cho các thiết bị biên.

Tier 1 · nguồn 99% độ tin cậy Auto-priority

Nguồn gốc x.com

Liquid AI Ra Mắt LFM2.5-Embedding-350M và LFM2.5-ColBERT-350M: Đột Phá Tìm Kiếm Đa Ngôn Ngữ Siêu Tốc

Hôm nay, Liquid AI đã chính thức giới thiệu hai mô hình truy xuất đa ngôn ngữ mới đầy ấn tượng: LFM2.5-Embedding-350M và LFM2.5-ColBERT-350M. Đây là những thành viên song hướng đầu tiên trong dòng Liquid Foundation Model (LFM), được xây dựng trên kiến trúc LFM2.5-350M-Base quen thuộc của hãng. Với 350 triệu tham số, các mô hình này được thiết kế để mang lại khả năng tìm kiếm nhanh chóng, đáng tin cậy trên 11 ngôn ngữ, đồng thời đủ nhỏ gọn để chạy hiệu quả trên CPU, thiết bị biên và laptop thông qua định dạng llama.cpp GGUF.

Các Mô Hình Nền Tảng Lỏng (LFM) Song Hướng Đột Phá

Liquid AI đã công bố hai mô hình truy xuất đa ngôn ngữ hàng đầu trong phân khúc:

1. LFM2.5-Embedding-350M — Đây là một bộ mã hóa hai chiều (bi-encoder) dày đặc, sử dụng một vector duy nhất cho mỗi tài liệu. Thiết kế này tạo ra chỉ mục tìm kiếm nhỏ nhất và nhanh nhất, lý tưởng để thay thế trực tiếp trong các kiến trúc RAG (Retrieval-Augmented Generation) truyền thống. 2. LFM2.5-ColBERT-350M — Một mô hình tương tác muộn, tạo ra một vector cho mỗi token, được khớp thông qua MaxSim. Phương pháp này mang lại độ chính xác truy xuất cao hơn và khả năng tổng quát hóa tốt hơn, dù có yêu cầu chỉ mục lớn hơn.

Cả hai đều là mô hình 350 triệu tham số và đánh dấu lần đầu tiên Liquid AI giới thiệu các mô hình song hướng trong dòng LFM, tiếp nối thành công của mô hình LFM2.5-350M-Base ra mắt vào tháng 3 năm 2026.

Hiệu Năng và Tối Ưu Hóa Thiết Bị Biên

Các mô hình này được chế tạo đặc biệt cho các tác vụ tìm kiếm ngữ cảnh ngắn cực nhanh và tiết kiệm chi phí. Các trường hợp sử dụng mục tiêu bao gồm danh mục sản phẩm, cơ sở tri thức FAQ, tài liệu hỗ trợ khách hàng và tìm kiếm doanh nghiệp đa ngôn ngữ.

Theo báo cáo của Liquid AI, các số liệu hiệu suất chính bao gồm:

* Độ trễ cực thấp: Độ trễ truy xuất đầu cuối chỉ 1.5ms khi sử dụng nền tảng doanh nghiệp của Liquid AI. Điều này thực sự ấn tượng và mở ra nhiều tiềm năng. * Tốc độ nhúng truy vấn: Độ trễ nhúng truy vấn chỉ 7.3ms cho LFM2.5-Embedding-350M và 8.1ms cho LFM2.5-ColBERT-350M. * Độ trễ MaxSim: Nhúng truy vấn + tương tác muộn MaxSim chỉ mất 8.2ms trong các kịch bản bộ đệm tài liệu điển hình. * Hỗ trợ llama.cpp / GGUF: Để cho phép thực thi cục bộ, với chi phí gần như bằng không, Liquid AI đang phát hành các phiên bản lượng tử hóa GGUF cho cả hai mô hình. Chúng có thể chạy hiệu quả trên CPU thông thường, laptop, xe cộ, điện thoại thông minh và các thiết bị biên IoT, mở ra cánh cửa cho AI trên mọi thiết bị cá nhân! 📱💻🚗

Thông Số Kỹ Thuật Kiến Trúc

Các mô hình song hướng này sở hữu một số đặc tính cấu trúc ấn tượng:

* Backbone: LFM2.5-350M-Base với các lớp vá hai chiều. * Số lớp: 17 lớp bao gồm 10 lớp tích chập, 6 lớp chú ý và 1 lớp gộp (Pooling) cho Embedding hoặc lớp dày đặc (Dense) cho ColBERT. * Cửa sổ ngữ cảnh: Độ dài ngữ cảnh mở rộng lên tới 32.768 token. * Kích thước từ vựng: 65.536 (Embedding) hoặc 64.402 (ColBERT). * Kích thước đầu ra: Vector CLS 1024 chiều cho Embedding, vector 128 chiều trên mỗi token cho ColBERT. * Nhắc lệnh bất đối xứng: Các nhắc lệnh tích hợp sử dụng query: cho truy vấn và document: cho đoạn văn, được cấu hình tự động thông qua tích hợp SentenceTransformer của Hugging Face. * Phạm vi ngôn ngữ: Hỗ trợ đa ngôn ngữ đầy đủ trên 11 ngôn ngữ chính toàn cầu: Tiếng Anh, Tây Ban Nha, Đức, Pháp, Ý, Bồ Đào Nha, Ả Rập, Thụy Điển, Na Uy, Nhật Bản và Hàn Quốc.

Khả Năng Sẵn Có và Tích Hợp

Cả hai mô hình đều là mã nguồn mở và có sẵn trên Hugging Face theo Giấy phép Mở LFM v1.0. Do tuân thủ định dạng SentenceTransformer và tương tác muộn tiêu chuẩn, các nhà phát triển có thể triển khai chúng ngay lập tức vào các framework RAG hiện có (như LlamaIndex hoặc LangChain) như một sự thay thế hiệu quả cao, tiết kiệm chi phí cho các mô hình transformer lớn hơn nhiều. Đây là một bước tiến quan trọng trong việc dân chủ hóa AI truy xuất hiệu năng cao! ✨