Tag

#Multimodal

Tổng hợp 9 bài Kalera News liên quan đến Multimodal — viết tiếng Việt, có dẫn nguồn gốc.

AI 8 thg 6, 2026

Google ra mắt Gemini Omni: Bước tiến lớn tới AI 'sáng tạo mọi thứ từ mọi thứ'

Gemini Omni là mô hình AI đa phương thức mới nhất của Google, có khả năng hiểu và tạo ra nội dung video, hình ảnh và âm thanh vượt trội.

Nguồn x.com

AI · tools-ai 6 thg 6, 2026

Kimi Moonshot ra mắt Kimi K2.6 — mô hình đa phương thức hỗ trợ 300 sub-agent

Kimi Moonshot giới thiệu Kimi K2.6, mô hình AI agent đa phương thức có khả năng mở rộng tới 300 sub-agent thông qua Agent Swarm, hiện đã khả dụng trên Together AI.

Nguồn x.com

AI 6 thg 6, 2026

Google lộ diện Gemini Omni — mô hình video siêu cấp sắp ra mắt tại I/O

Gemini Omni được kỳ vọng là mô hình video tiên tiến nhất của Google, có khả năng chỉnh sửa video chuyên nghiệp và hiểu thế giới trực quan sâu sắc hơn.

Nguồn x.com

AI · tools-ai 5 thg 6, 2026

Trải nghiệm Gemini Omni Flash — mô hình đa phương thức thế hệ mới trên YouTube và Gemini

Người dùng hiện đã có thể dùng thử Gemini Omni Flash, mô hình đầu tiên trong dòng Omni đa phương thức, trên các nền tảng của Google.

Nguồn x.com

AI 29 thg 5, 2026

NVIDIA Nemotron-3 Nano Omni hiện đã có mặt trên Microsoft Azure Foundry

NVIDIA Nemotron-3 Nano Omni, mô hình AI đa phương thức (unifies video, audio, image, and text) mã nguồn mở, đã có thể triển khai trực tiếp trên Microsoft Azure Foundry thông qua Hugging Face.

Nguồn x.com

AI 27 thg 5, 2026

NVIDIA và DeepSeek đua hiệu năng mô hình ngữ cảnh lớn cho AI agent

Các đợt ra mắt của NVIDIA Nemotron 3 Nano Omni và DeepSeek-V4 đánh dấu bước tiến quan trọng trong việc xử lý siêu ngữ cảnh cho các tác vụ AI agent đa phương tiện.

Nguồn huggingface.co huggingface.co

AI 27 thg 5, 2026

Apple đề xuất TC-JEPA: Dùng văn bản giúp AI hiểu hình ảnh chính xác hơn

Apple giới thiệu TC-JEPA, một phương pháp tự giám sát mới sử dụng chú thích văn bản để định hướng và giảm độ nhiễu khi AI học nhận diện hình ảnh.

Nguồn machinelearning.apple.com

Tech 23 thg 5, 2026

ChatGPT hỗ trợ điền biểu mẫu tự động từ ảnh chụp và giọng nói 📝

OpenAI cập nhật tính năng mới giúp ChatGPT tự động điền các loại biểu mẫu thông qua hình ảnh tải lên, kết hợp cùng chỉ dẫn bằng văn bản hoặc giọng nói, giúp tối ưu hóa việc xử lý giấy tờ.

Nguồn x.com x.com

AI 22 thg 5, 2026

Hugging Face Hub v1.16.0 ra mắt: Hỗ trợ mạnh mẽ AI đa phương thức

Phiên bản mới nhất của huggingface_hub chính thức tích hợp Together Compute như một nhà cung cấp Inference mới, hỗ trợ 5 loại tác vụ đa phương thức từ TTS đến Text-to-Video.

Nguồn x.com