VLM Có Thể "Nhìn" Mà Không Cần Bộ Mã Hóa Thị Giác? 👁️🗨️ Nghiên Cứu Viên Hugging Face Đào Tạo VLM Không Mã Hóa Chỉ Với 100 USD! 💸
Andi Marafioti, một nhà nghiên cứu AI nổi bật tại Hugging Face và đồng tác giả của chuỗi SmolVLM & SmolVLM2, đã chia sẻ một thử nghiệm đột phá đáng kinh ngạc: đào tạo một Mô hình Ngôn ngữ-Thị giác (VLM) hoạt động hiệu quả và không bộ mã hóa (encoder-free) với tổng chi phí tính toán chỉ 100 USD. 🤯
Lấy cảm hứng từ các đột phá đa phương thức gần đây của Google như Gemma 4 12B – giới thiệu một kiến trúc đa phương thức thống nhất, không bộ mã hóa – thử nghiệm này đang thách thức mô hình thiết kế truyền thống của các VLM hiện đại. Điều này có ý nghĩa gì cho tương lai AI? 🤔
---
Sự Thay Đổi Mô Hình: Từ VLM Dựa trên Bộ Mã hóa đến VLM Không Bộ Mã hóa 🚀
Hầu hết các VLM hiện tại (như PaliGemma, LLaVA, hoặc SmolVLM) đều dựa vào một bộ mã hóa thị giác nặng nề, được đào tạo trước – thường là Vision Transformer (ViT) hoặc SigLIP – để xử lý hình ảnh. Các đặc trưng đầu ra của bộ mã hóa thị giác này sau đó được chiếu (thường thông qua Multi-Layer Perceptron hoặc cơ chế Cross-Attention) vào không gian đầu vào của một Mô hình Ngôn ngữ Lớn (LLM).
Mặc dù thiết kế này tận dụng các biểu diễn chỉ thị giác mạnh mẽ đã được đào tạo trước, nhưng nó lại gặp phải một số nhược điểm nghiêm trọng: 1. Độ trễ thị giác cao: Bộ mã hóa thị giác tốn kém về mặt tính toán. Việc chạy nó trong quá trình suy luận tạo ra một nút thắt cổ chai lớn về độ trễ, đặc biệt trên các thiết bị biên có tài nguyên hạn chế. 🐢 2. Thiên vị quy nạp: Các bộ mã hóa thị giác áp đặt các ràng buộc cứng nhắc về độ phân giải, tỷ lệ khung hình và các tiên nghiệm ngữ nghĩa, giới hạn tính linh hoạt của mô hình. 🖼️ 3. Quy trình phức tạp: Duy trì các tệp mô hình riêng biệt, các cấu trúc tối ưu hóa khác nhau và quản lý bộ nhớ phức tạp trên thiết bị (ví dụ trong vLLM hoặc llama.cpp) làm tăng ma sát trong quá trình phát triển. 🚧
Giải Pháp Thống Nhất Không Bộ Mã hóa ✨
Một VLM không bộ mã hóa loại bỏ hoàn toàn bộ mã hóa thị giác riêng biệt. Thay vào đó: 1. Hình ảnh thô được chia thành các mảng nhỏ (patchification). 2. Mỗi mảng được chiếu tuyến tính vào một không gian vector. 3. Các nhúng vị trí (positional embeddings) được thêm vào các vector mảng. 4. Các vector kết quả được đưa trực tiếp vào bộ giải mã thống nhất của LLM dưới dạng các token trình tự, giống hệt như các token văn bản tiêu chuẩn.
Đây là một kiến trúc đa phương thức "chỉ bộ giải mã" (pure decoder-only) thực sự.
---
Thử nghiệm 100 USD và Kết quả của Andi Marafioti 💰
Theo truyền thống, việc đào tạo các VLM không bộ mã hóa từ đầu được coi là cực kỳ khó khăn. Các nỗ lực ban đầu (như Fuyu-8B của Adept hoặc EVE mã nguồn mở) gặp phải tốc độ hội tụ chậm, đòi hỏi các tập dữ liệu khổng lồ và ngân sách đào tạo lớn để thu hẹp khoảng cách giữa các phương thức thị giác và văn bản. 📉
Bằng cách tận dụng các kỹ thuật căn chỉnh hiện đại và công thức đào tạo tiên tiến, Marafioti đã có thể căn chỉnh và đào tạo thành công một VLM không bộ mã hóa nhỏ gọn chỉ với 100 USD chi phí tính toán. Một thành tựu đáng nể! 👏
Hiệu suất Vượt Trội trên Thiết bị ⚡
Hiệu suất của mô hình thu được, được đánh giá trên một M3 Pro MacBook, cho thấy những cải thiện hiệu quả đáng kể khi loại bỏ bộ mã hóa thị giác:
* Độ trễ xử lý hình ảnh: Giảm từ 112 ms (với bộ mã hóa thị giác truyền thống) xuống chỉ 1.1 ms (không bộ mã hóa)! Đây là một tốc độ tăng gấp 100 lần cho giai đoạn tiền xử lý hình ảnh. 🚀 * Độ trễ đầu cuối: Đạt được mức giảm 30% tổng độ trễ đầu cuối cho việc xử lý kết hợp truy vấn hình ảnh và văn bản. Nhanh hơn đáng kể! 💨
---
Tại Sao Điều Này Quan Trọng cho Hệ Sinh Thái AI Mã Nguồn Mở 🌍
Thử nghiệm này chứng minh rằng các mô hình đa phương thức thống nhất không phải là đặc quyền chỉ dành riêng cho các gã khổng lồ công nghệ với hàng triệu đô la chi phí tính toán. 🤝
Bằng cách sử dụng các kiến trúc nền tảng nhẹ (chẳng hạn như SmolLM2) và các phép chiếu từ mảng sang token đơn giản, các nhà nghiên cứu độc lập và các công ty khởi nghiệp nhỏ giờ đây có thể: * Xây dựng VLM hiệu quả cao, thời gian thực trên thiết bị. 📱 * Triển khai các mô hình này một cách liền mạch lên di động, môi trường phát triển cục bộ hoặc hệ thống robot. 🤖 * Giảm đáng kể chi phí triển khai trong các máy chủ suy luận bằng cách sử dụng các framework như vLLM. 💰
Với việc các nhà nghiên cứu của Hugging Face đang tích cực đẩy lùi ranh giới của những gì có thể thực hiện được với ngân sách hạn hạn chế, quá trình chuyển đổi sang các VLM không bộ mã hóa được thiết lập để tăng tốc, đưa chúng ta đến gần hơn với tương tác đa phương thức thực sự nguyên bản và theo thời gian thực. Tương lai tươi sáng của AI mở đang ở phía trước! ✨