Google ra mắt Gemini Omni: Bước tiến lớn tới AI 'sáng tạo mọi thứ từ mọi thứ'
Gemini Omni là mô hình AI đa phương thức mới nhất của Google, có khả năng hiểu và tạo ra nội dung video, hình ảnh và âm thanh vượt trội.
Tag
Tổng hợp 9 bài Kalera News liên quan đến Multimodal — viết tiếng Việt, có dẫn nguồn gốc.
Gemini Omni là mô hình AI đa phương thức mới nhất của Google, có khả năng hiểu và tạo ra nội dung video, hình ảnh và âm thanh vượt trội.
Kimi Moonshot giới thiệu Kimi K2.6, mô hình AI agent đa phương thức có khả năng mở rộng tới 300 sub-agent thông qua Agent Swarm, hiện đã khả dụng trên Together AI.
Gemini Omni được kỳ vọng là mô hình video tiên tiến nhất của Google, có khả năng chỉnh sửa video chuyên nghiệp và hiểu thế giới trực quan sâu sắc hơn.
Người dùng hiện đã có thể dùng thử Gemini Omni Flash, mô hình đầu tiên trong dòng Omni đa phương thức, trên các nền tảng của Google.
NVIDIA Nemotron-3 Nano Omni, mô hình AI đa phương thức (unifies video, audio, image, and text) mã nguồn mở, đã có thể triển khai trực tiếp trên Microsoft Azure Foundry thông qua Hugging Face.
Các đợt ra mắt của NVIDIA Nemotron 3 Nano Omni và DeepSeek-V4 đánh dấu bước tiến quan trọng trong việc xử lý siêu ngữ cảnh cho các tác vụ AI agent đa phương tiện.
Apple giới thiệu TC-JEPA, một phương pháp tự giám sát mới sử dụng chú thích văn bản để định hướng và giảm độ nhiễu khi AI học nhận diện hình ảnh.
OpenAI cập nhật tính năng mới giúp ChatGPT tự động điền các loại biểu mẫu thông qua hình ảnh tải lên, kết hợp cùng chỉ dẫn bằng văn bản hoặc giọng nói, giúp tối ưu hóa việc xử lý giấy tờ.
Phiên bản mới nhất của huggingface_hub chính thức tích hợp Together Compute như một nhà cung cấp Inference mới, hỗ trợ 5 loại tác vụ đa phương thức từ TTS đến Text-to-Video.