Google DeepMind vừa công bố Gemini Omni, một bước tiến quan trọng hướng tới mô hình AI có thể tạo ra bất cứ thứ gì từ bất cứ nguồn dữ liệu nào, bắt đầu với trọng tâm là video.
Diễn biến
Gemini Omni là sự kết hợp giữa trí tuệ suy luận của dòng Gemini với các hệ thống truyền thông tạo sinh (generative media systems) tiên tiến nhất của Google. Mô hình này đại diện cho một bước nhảy vọt trong khả năng hiểu biết thế giới, tính đa phương thức và khả năng biên tập nội dung số một cách thông minh.
Vì sao đáng chú ý
Gemini Omni không chỉ dừng lại ở việc tạo ảnh hay text; nó hướng tới việc trở thành một cỗ máy sáng tạo toàn năng. Khả năng 'hiểu thế giới' qua video giúp AI có thể thực hiện các tác vụ phức tạp hơn như điều khiển robot hoặc biên tập phim chuyên nghiệp. Đây là đối trọng trực tiếp với các mô hình như Sora của OpenAI trong tương lai gần.