Bỏ qua đến nội dung chính
Về trang chủ
AI 1 phút đọc

Marlin-2B: Mô hình Vision-Language siêu nhỏ giúp trích xuất thông tin từ video

Marlin-2B là mô hình VLM mã nguồn mở chỉ với 2 tỷ tham số nhưng có khả năng phân tích video mạnh mẽ, cạnh tranh trực tiếp với các mô hình lớn hơn như Gemini-2.5-flash.

Tier 1 · nguồn 90% độ tin cậy Đã được duyệt
Nguồn gốc x.com

Cộng đồng AI vừa đón nhận Marlin-2B, một mô hình Vision-Language (VLM) mã nguồn mở siêu nhỏ gọn được tối ưu chuyên biệt cho việc trích xuất thông tin có cấu trúc từ dữ liệu video.

Diễn biến

Marlin-2B được tinh chỉnh (fine-tuned) để trả lời hai câu hỏi cốt lõi mà các nhà phát triển thường cần khi xử lý video: "điều gì đang xảy ra?" và "khi nào nó diễn ra?". Dù chỉ sở hữu 2 tỷ tham số, Marlin được đánh giá là mô hình tốt nhất trong phân khúc trọng lượng của mình và có hiệu suất cạnh tranh với cả Gemini-2.5-flash trong các tác vụ phân tích video.

Việc mã nguồn mở mô hình này giúp các nhà phát triển dễ dàng tích hợp khả năng hiểu video vào các ứng dụng edge hoặc môi trường hạn chế tài nguyên.

Vì sao đáng chú ý

Xu hướng "small but mighty" (nhỏ nhưng mạnh) đang lên ngôi trong giới AI. Marlin-2B cho thấy chúng ta không nhất thiết phải dùng đến các siêu mô hình tốn kém để giải quyết các bài toán trích xuất dữ liệu video. Với chi phí vận hành thấp, Marlin-2B là lựa chọn lý tưởng cho các startup công nghệ tại Việt Nam muốn xây dựng hệ thống giám sát thông minh hoặc phân tích nội dung số quy mô lớn.