Trong bài viết chia sẻ trên trang cá nhân, chuyên gia Lilian Weng đã thảo luận về phương pháp tiếp cận mới trong việc xây dựng các mô hình ngôn ngữ thị giác tổng quát (VLM). Thay vì sử dụng các hệ thống phức tạp rời rạc, xu hướng hiện nay là mở rộng các mô hình ngôn ngữ tiền huấn luyện (LLM) để chúng có khả năng tiếp nhận và xử lý trực tiếp các tín hiệu hình ảnh.
Bối cảnh
Theo Lilian Weng, việc xử lý hình ảnh để tạo văn bản—như chú thích ảnh hay trả lời câu hỏi trực quan—đã được nghiên cứu nhiều năm qua. Trước đây, các hệ thống này thường phụ thuộc vào một mạng phát hiện vật thể (object detection) đóng vai trò bộ mã hóa thị giác (vision encoder) để trích xuất đặc trưng hình ảnh, sau đó mới chuyển qua bộ giải mã văn bản (text decoder). Cách tiếp cận này tuy hiệu quả ở một số tác vụ nhất định nhưng lại thiếu tính linh hoạt và khó mở rộng quy mô một cách đồng bộ khi đối mặt với các dạng dữ liệu đa phương tiện phức tạp hơn.
Diễn biến
Phương pháp mới được tập trung khai thác là tích hợp trực tiếp khả năng hiểu thị giác vào các mô hình ngôn ngữ lớn đã được huấn luyện sẵn. Điều này giúp tận dụng tối đa tri thức dạng văn bản khổng lồ mà LLM đã tích lũy, đồng thời tối ưu hóa quá trình huấn luyện bằng cách "dạy" mô hình cách căn chỉnh (align) các biểu diễn hình ảnh với không gian vector của ngôn ngữ. Nghiên cứu tập trung vào việc biến đổi các tín hiệu thị giác thành các token mà mô hình ngôn ngữ có thể hiểu được, từ đó xử lý đồng thời cả hai loại dữ liệu đầu vào.
Vì sao đáng chú ý
Đối với cộng đồng phát triển AI tại Việt Nam, việc chuyển dịch sang các mô hình ngôn ngữ thị giác tổng quát mở ra cơ hội tối ưu hóa tài nguyên phần cứng cực kỳ lớn. Thay vì phải duy trì song song nhiều mô hình chuyên biệt cồng kềnh, các kỹ sư có thể tinh chỉnh (fine-tune) một LLM duy nhất để giải quyết đồng thời cả tác vụ thị giác lẫn ngôn ngữ. Đây được coi là bước đệm quan trọng hướng tới việc xây dựng các trợ lý AI đa phương tiện (multimodal agents) có khả năng tương tác tự nhiên và hiểu sâu sắc thế giới vật lý xung quanh.