Bỏ qua đến nội dung chính
Về trang chủ
AI 1 phút đọc

Soro: Mô hình ngôn ngữ lớn tiếng Tajik siêu nhẹ từ Gemma 3

Các nhà nghiên cứu giới thiệu Soro, dòng mô hình ngôn ngữ lớn chuyên biệt cho tiếng Tajik, được phát triển trên nền Gemma 3 và tối ưu cho triển khai tại biên.

Tier 2 · nguồn 90% độ tin cậy Đã được duyệt
Nguồn gốc arxiv.org

Dòng mô hình Soro được thiết kế để triển khai thực tế trong điều kiện tính toán và kết nối hạn chế tại Tajikistan, mở ra khả năng tiếp cận AI cho các ngôn ngữ ít phổ biến.

Diễn biến

Bắt đầu từ các checkpoint của Gemma 3, đội ngũ phát triển đã thực hiện tiền huấn luyện tiếp nối (continual pretraining) trên tập dữ liệu tiếng Tajik được tinh lọc gồm 1,9 tỷ token. Sau đó, mô hình được tinh chỉnh hướng dẫn (instruction tuning) với 40.000 ví dụ phong cách giáo viên Tajik. Để đánh giá, nhóm nghiên cứu cũng ra mắt bộ benchmark tiếng Tajik bao quát kiến thức chung và năng lực ngôn ngữ, hiện đã được mở nguồn trên Hugging Face.

Vì sao đáng chú ý

Soro vượt trội đáng kể so với các mô hình Gemma 3 cùng kích thước trong các bài kiểm tra tiếng Tajik trong khi vẫn giữ nguyên hiệu năng tiếng Anh. Việc hỗ trợ lượng tử hóa FP8 và INT4 giúp giảm đáng kể yêu cầu bộ nhớ, phù hợp cho các thiết bị tại biên (edge device). Dự án đang được thí điểm trong lĩnh vực giáo dục và kế hoạch mở rộng quy mô ra các trường học tại Tajikistan, cho thấy hướng đi thực tế cho các cộng đồng ngôn ngữ thiểu số khi tận dụng nền tảng mô hình mở.