Việc tạo ra một video đào tạo 90 giây hay một video giới thiệu sản phẩm chưa bao giờ là dễ dàng đối với hầu hết các doanh nghiệp. Quá trình này đòi hỏi một kế hoạch chi tiết, đội ngũ làm phim nội bộ hoặc nhà cung cấp bên ngoài, quay, chỉnh sửa và nhiều vòng phản hồi. Chỉ cần thay đổi một dòng văn bản do yêu cầu pháp lý, toàn bộ quy trình lại phải chạy lại từ đầu. Chi phí và thời gian kéo dài là lý do khiến nhiều video nội bộ không bao giờ được thực hiện. 😩
Google đang đặt mục tiêu thay đổi phương trình này với Gemini Omni Flash, mô hình đầu tiên trong gia đình 'Omni' mới của hãng. Sau khi ra mắt người dùng tại I/O 2026, Gemini Omni Flash hiện đã có mặt rộng rãi cho các nhà phát triển và khách hàng doanh nghiệp thông qua một API. Tham vọng của Google là tạo ra bất cứ thứ gì 'từ bất kỳ đầu vào nào', bắt đầu với video. Tuy nhiên, điểm nhấn chính không chỉ là cải thiện khả năng chuyển văn bản thành video, mà là khả năng chỉnh sửa một clip đã hoàn thiện thông qua trò chuyện. 🗣️✨
Trước đây, theo phân tích của VentureBeat, Omni được xem là công cụ dành cho người dùng cá nhân và chuyên nghiệp chứ không phải cho sản xuất quy mô lớn do thiếu giao diện lập trình. Nhưng với việc ra mắt API này, mọi thứ đã thay đổi. Khả năng chỉnh sửa video bằng hội thoại giờ đây đã nằm trong tay các đội ngũ marketing và phát triển đào tạo – những bộ phận tạo ra nhiều video nhất trong một tổ chức. 🚀
Từ Ống Dẫn 5 Bước Đến Một Cuộc Trò Chuyện Duy Nhất 💬
Cho đến nay, nhiều đội ngũ đã phải tạo video AI theo cách phức tạp: kết hợp một mô hình ngôn ngữ lớn (LLM) để viết kịch bản, một mô hình chuyển văn bản thành hình ảnh, một mô hình chuyển hình ảnh thành video, một công cụ đồng bộ hóa môi riêng biệt và một bộ tạo giọng nói – mỗi công cụ lại có hợp đồng, thanh toán và đường dẫn dữ liệu riêng. Rất rườm rà! 😵💫
Lập luận của Omni dành cho doanh nghiệp là sự hợp nhất: một mô hình duy nhất chấp nhận văn bản, hình ảnh và video, sau đó trả về một clip hoàn chỉnh với âm thanh được đồng bộ hóa. Yếu tố đơn giản này là điều các nhà ra quyết định nên xem xét đầu tiên. Việc hợp nhất nhiều công cụ riêng lẻ thành một mô hình đồng nghĩa với việc ít nhà cung cấp hơn và một nơi duy nhất để giám sát đầu ra cũng như thực thi các quy tắc xử lý dữ liệu. Đối với các tổ chức đã tránh video tạo sinh vì việc kết nối các công cụ quá phức tạp, thì phương trình giờ đã thay đổi đáng kể. ✅
Với khả năng chỉnh sửa bằng hội thoại, mỗi hướng dẫn đều được xây dựng dựa trên hướng dẫn trước đó. Điều này cho phép một nhà tiếp thị có thể điều chỉnh ánh sáng cho một cảnh quay sản phẩm, thay đổi bố cục hoặc thay đổi trang phục mà không cần phải tạo lại từ đầu và mất đi những phần đã hoàn thiện. Đây là sự khác biệt giữa việc phải lên lịch quay lại và chỉ cần gửi một ghi chú chỉnh sửa đơn giản. Tiết kiệm thời gian và công sức đáng kể! ⏰
Khả Năng Đa Phương Thức và 'Engine Vật Lý' Cho Tài Sản Thương Hiệu 🌐
Omni không chỉ chấp nhận các gợi ý văn bản đơn thuần. Bên cạnh những từ mô tả điều bạn muốn, bạn có thể cung cấp nhiều hình ảnh tham chiếu, các clip video hiện có, và mô hình sẽ tích hợp những chi tiết cụ thể đó vào kết quả. Ví dụ, bạn đưa cho nó một bức ảnh về một vật thể cụ thể, yêu cầu mô hình đặt vật thể đó vào một cảnh, và nó sẽ tái tạo màu sắc cũng như hình dạng gần đúng của vật thật thay vì tạo ra một vật thể chung chung. Mặc dù sự khớp nối có thể không hoàn hảo đến từng pixel, nhưng đủ gần để có thể nhận ra. Khả năng kiểm soát dựa trên tham chiếu này chính là điều làm cho tính năng này trở nên thú vị về mặt thương mại: một bức ảnh sản phẩm, một logo thương hiệu hoặc một địa điểm cụ thể có thể được 'thả vào' như một thành phần thay vì phải mô tả bằng lời và hy vọng kết quả sẽ đúng. 🖼️
Hai trong bốn điểm mạnh nổi bật mà Google nhấn mạnh liên quan trực tiếp đến công việc của doanh nghiệp:
* Mô hình thế giới (World model): Là khả năng hiểu biết của hệ thống về cách các cảnh vật lý hoạt động. Nếu bạn thêm mưa nhẹ và vũng nước vào một cảnh quay hiện có, Omni sẽ tạo ra hình ảnh phản chiếu của người và vật thể trên mặt đường ướt, một sự nhất quán vật lý phân biệt cảnh quay thật với video AI rõ ràng. 💧 * Chèn văn bản và logo: Chỉ vào một cảnh đầy bảng hiệu, bạn có thể yêu cầu Omni viết lại những bảng hiệu đó bằng một ngôn ngữ khác, hoặc với thương hiệu bạn chọn, và thậm chí chèn logo của công ty. Kết quả không phải lúc nào cũng hoàn hảo: trong quá trình thử nghiệm, việc theo dõi bảng hiệu trong các cảnh phức tạp đôi khi không chính xác và một số văn bản quay trở lại ngôn ngữ gốc giữa các khung hình. Tuy nhiên, đối với video đào tạo cần nhãn trên màn hình hoặc quảng cáo cần đặt logo vào cảnh, đây là một khả năng đáng để xem xét kỹ lưỡng, và là lời nhắc nhở rằng đầu ra vẫn cần được con người xem xét trước khi đưa vào sử dụng. ⚠️
API Tương Tác và Những Hạn Chế Cần Lưu Ý 🚨
Về mặt kỹ thuật, Omni Flash hoạt động dựa trên API tương tác mới của Google, một giao diện có trạng thái (stateful) được xây dựng cho các tác vụ đa luồng thay vì các cuộc trò chuyện mở. Mỗi lượt tương tác đều mang theo video và các tham chiếu trước đó, cho phép các chỉnh sửa được tích lũy một cách mạch lạc. Các nhà phát triển có thể nối chuỗi các thế hệ: tạo một clip, chỉnh sửa con mèo thành một chú báo con, thay đổi phong cách video thành retro 8-bit rồi sang phong cách màu nước, và lưu trữ từng phiên bản để phân nhánh sau này. 🔄
Tuy nhiên, các hạn chế là có thật và cần được đưa vào kế hoạch ngân sách. Các clip hiện bị giới hạn ở 10 giây, theo thẻ mô hình công bố của Google DeepMind. Để tạo video dài hơn, bạn phải tạo các đoạn ngắn và ghép chúng lại với nhau. Các cảnh quay được tải lên cũng có thể được chỉnh sửa, miễn là chúng dài 10 giây trở xuống và người dùng giữ bản quyền. Thẻ mô hình của Google cũng thẳng thắn thừa nhận rằng việc duy trì sự nhất quán qua các chỉnh sửa và hiển thị văn bản chính xác vẫn là những vấn đề đang bỏ ngỏ. 🧐
Rào Cản An Toàn, Đóng Dấu Thủy và Giới Hạn Của Google 🔒
Đối với một Giám đốc An ninh Thông tin (CISO), các bản demo ít quan trọng hơn công tác xác thực nguồn gốc đi kèm với mô hình. Mỗi clip Omni đều mang dấu thủy SynthID của Google, và Google đang mở rộng Chứng chỉ Nội dung C2PA trên các công cụ tạo sinh của mình. Hãng cũng đã ra mắt API Phát hiện Nội dung AI để gắn cờ các phương tiện truyền thông do AI tạo ra, cả của Google và các nhà cung cấp khác. Điều này cho thấy cam kết của Google trong việc minh bạch hóa và chống lại nội dung giả mạo. ✅
Google cũng đã vạch ra một ranh giới rõ ràng. Mô hình sẽ không lấy một bức ảnh tĩnh của một người cộng với một đoạn âm thanh và đồng bộ hóa môi để tạo ra lời nói, một động thái rõ ràng nhằm hạn chế deepfake. Tuy nhiên, nó sẽ lấy một bản ghi âm của ai đó đang nói và dịch sang một ngôn ngữ khác, một con đường hữu ích để bản địa hóa nội dung đào tạo toàn cầu. Đối với các doanh nghiệp được quản lý chặt chẽ, những hạn chế này và khả năng xác thực nguồn gốc được tích hợp sẵn là những tính năng đáng giá, chứ không phải là rào cản. 👍
Giá Cả Hấp Dẫn, Chỉ 720p và Xếp Hạng Khá Cao 💰
Mức giá đã được công bố cùng với API và khá cạnh tranh. Omni Flash có giá 0.10 USD cho mỗi giây video 720p được tạo ra, nghĩa là một clip 10 giây có giá khoảng một đô la. Mức giá này tương đương với Veo 3.1 Fast ở cùng độ phân giải, gấp đôi Veo 3.1 Lite, và rẻ hơn ba phần tư so với Veo 3.1 tiêu chuẩn.
Tuy nhiên, bảng giá cũng hé lộ một hạn chế đáng chú ý: Omni Flash chỉ tạo video độ phân giải 720p. Không có tùy chọn 1080p hoặc 4K, trong đó các gói của Veo có thể mở rộng lên đến 4K. Đối với video đào tạo nội bộ và hầu hết các video mạng xã hội, 720p là chấp nhận được. Nhưng đối với các tác phẩm thương hiệu cao cấp dành cho màn hình lớn, đây là một giới hạn thực sự, và là lý do Veo 3.1 vẫn còn chỗ đứng trên thị trường. 📉
| Mỗi giây (USD) | Gemini Omni Flash | Veo 3.1 Lite | Veo 3.1 Fast | Veo 3.1 | |--------------------|-----------------------|------------------|------------------|---------------| | 720p | $0.10 | $0.05 | $0.10 | $0.40 | | 1080p | n/a | $0.08 | $0.12 | $0.40 | | 4K | n/a | n/a | $0.30 | $0.60 |
Các clip có độ dài từ 3 đến 10 giây ở độ phân giải gốc 720p, theo định dạng ngang (16:9) hoặc dọc (9:16). Là đầu vào tham chiếu, mô hình chấp nhận tối đa bảy hình ảnh và tối đa ba clip video dài ba giây trở xuống. Hiện tại, nó chưa chấp nhận âm thanh làm đầu vào, mặc dù nó tạo ra âm thanh cùng với video mà nó sản xuất. Đầu ra là tệp MP4 tiêu chuẩn, và mỗi clip đều được tích hợp dấu thủy SynthID và chứng chỉ C2PA.
Về chất lượng, tín hiệu ban đầu là rất khả quan. Trong LMArena's Text-to-Video Arena, một bảng xếp hạng nơi mọi người bình chọn kết quả đối đầu từ các mô hình cạnh tranh, Omni Flash đã giành vị trí số một với số điểm 1527. 🏆
Ý Nghĩa Đối Với Ngân Sách và Những Điều Còn Thiếu Sót 💸
Với mức giá thực tế trong tay, câu chuyện lặp lại trở nên cụ thể hơn. Mỗi lần chỉnh sửa bằng hội thoại là một thế hệ mới mà bạn phải trả tiền, vì vậy một phiên làm việc chỉnh sửa nhiều vẫn sẽ tốn kém, khoảng một đô la cho mỗi lần chạy 10 giây ở 720p. Điều mà mô hình có trạng thái thay đổi không phải là chi phí của một lần chỉnh sửa, mà là số lần chỉnh sửa lãng phí: vì ngữ cảnh được truyền qua các lượt, những lần tạo sinh đó hướng đến việc tinh chỉnh một bản nháp gần như hoạt động thay vì bắt đầu lại từ một gợi ý trống rỗng và hy vọng lần thử tiếp theo sẽ thành công. 💡
Omni không đơn độc trong lĩnh vực này. Veo 3.1 vẫn là tùy chọn cấp sản xuất của Google khi bạn cần độ phân giải cao hơn, và các đối thủ từ Bytedance, Alibaba và OpenAI đều đang theo đuổi cùng một thị trường. Điều Omni bổ sung là khả năng chỉnh sửa độc đáo: khả năng coi một video như một tài liệu sống động thay vì một bản kết xuất một lần. Tuy nhiên, giới hạn về độ phân giải và thời lượng vẫn là rào cản lớn nhất cần được Google cải thiện trong tương lai. Để thực sự trở thành công cụ 'chơi lớn' cho doanh nghiệp, Google cần phải giải quyết những điểm yếu này. 🤔