Cộng đồng AI vừa đón nhận Marlin-2B, một mô hình Vision-Language (VLM) mã nguồn mở siêu nhỏ gọn được tối ưu chuyên biệt cho việc trích xuất thông tin có cấu trúc từ dữ liệu video.
Diễn biến
Marlin-2B được tinh chỉnh (fine-tuned) để trả lời hai câu hỏi cốt lõi mà các nhà phát triển thường cần khi xử lý video: "điều gì đang xảy ra?" và "khi nào nó diễn ra?". Dù chỉ sở hữu 2 tỷ tham số, Marlin được đánh giá là mô hình tốt nhất trong phân khúc trọng lượng của mình và có hiệu suất cạnh tranh với cả Gemini-2.5-flash trong các tác vụ phân tích video.
Việc mã nguồn mở mô hình này giúp các nhà phát triển dễ dàng tích hợp khả năng hiểu video vào các ứng dụng edge hoặc môi trường hạn chế tài nguyên.
Vì sao đáng chú ý
Xu hướng "small but mighty" (nhỏ nhưng mạnh) đang lên ngôi trong giới AI. Marlin-2B cho thấy chúng ta không nhất thiết phải dùng đến các siêu mô hình tốn kém để giải quyết các bài toán trích xuất dữ liệu video. Với chi phí vận hành thấp, Marlin-2B là lựa chọn lý tưởng cho các startup công nghệ tại Việt Nam muốn xây dựng hệ thống giám sát thông minh hoặc phân tích nội dung số quy mô lớn.