AI tools-ai 16 thg 6, 2026 8 phút đọc

Mô Hình Diffusion Tạo Video: Cuộc Chinh Phục Mới Của AI 🎬✨

Các mô hình diffusion, vốn rất thành công trong việc tạo ảnh, giờ đây đang mở rộng sang lĩnh vực tạo video đầy thách thức, với hai hướng tiếp cận chính: xây dựng từ đầu hoặc tinh chỉnh các mô hình ảnh có sẵn để giải quyết bài toán nhất quán thời gian và dữ liệu.

Tier 1 · nguồn 99% độ tin cậy Auto-priority

Nguồn gốc lilianweng.github.io

Các mô hình diffusion đã chứng tỏ sức mạnh vượt trội trong việc tổng hợp hình ảnh trong những năm gần đây. Giờ đây, cộng đồng nghiên cứu đã bắt đầu dấn thân vào một nhiệm vụ khó khăn hơn: ứng dụng chúng để tạo video. 🎥 Nhiệm vụ này phức tạp hơn nhiều so với tạo ảnh vì: 1. Tính nhất quán thời gian: Video đòi hỏi sự nhất quán giữa các khung hình theo thời gian, điều này yêu cầu mô hình phải mã hóa nhiều “kiến thức thế giới” hơn. 2. Dữ liệu: Khó thu thập lượng lớn dữ liệu video chất lượng cao, đa chiều, đặc biệt là các cặp văn bản-video, so với văn bản hoặc hình ảnh.

Mô hình Diffusion tạo video từ đầu

Đầu tiên, chúng ta hãy xem xét các phương pháp thiết kế và huấn luyện mô hình video diffusion từ đầu, tức là không dựa vào các bộ tạo ảnh đã được huấn luyện trước.

Tham số hóa & Nguyên tắc lấy mẫu cơ bản

Trong tạo video, một tham số hóa đặc biệt được gọi là v-prediction (Salimans & Ho, 2022) đã được chứng minh là hữu ích trong việc tránh hiện tượng lệch màu sắc, so với tham số hóa epsilon truyền thống. Để xử lý việc mở rộng độ dài video hoặc tăng tốc độ khung hình, các mô hình diffusion cần khả năng lấy mẫu video thứ hai có điều kiện. Mô hình Video Diffusion (VDM) (Ho & Salimans, et al. 2022) đã đề xuất phương pháp hướng dẫn tái tạo (reconstruction guidance) để lấy mẫu có điều kiện trên các khung hình video đã biết.

Kiến trúc Mô hình: 3D U-Net & DiT

Tương tự các mô hình text-to-image diffusion, U-Net và Transformer vẫn là hai lựa chọn kiến trúc phổ biến. * VDM (Ho & Salimans, et al. 2022) áp dụng 3D U-Net, mở rộng từ 2D U-Net cho dữ liệu video. U-Net 3D này được phân tách theo không gian và thời gian: * Xử lý không gian: Các lớp tích chập 2D được mở rộng thành tích chập 3D chỉ hoạt động trên không gian (ví dụ: 3x3 thành 1x3x3). * Xử lý thời gian: Một khối chú ý theo thời gian được thêm vào sau mỗi khối chú ý không gian, xử lý sự nhất quán giữa các khung hình và sử dụng mã hóa vị trí tương đối. Khối này rất quan trọng để mô hình nắm bắt được sự liền mạch về mặt thời gian. * Imagen Video (Ho, et al. 2022) xây dựng trên một chuỗi các mô hình diffusion để tạo video chất lượng cao (1280x768 ở 24 fps). Kiến trúc này bao gồm: * Một bộ mã hóa văn bản T5 đóng băng. * Một mô hình diffusion video cơ sở. * Một chuỗi các mô hình siêu phân giải không gian (SSR) và thời gian (TSR) xen kẽ (3 TSR và 3 SSR). Các mô hình này sử dụng các khối tách rời không-thời gian và áp dụng chưng cất lũy tiến (progressive distillation) để tăng tốc độ lấy mẫu. * Để đạt được khả năng mở rộng tốt hơn, Sora (Brooks et al. 2024) của OpenAI tận dụng kiến trúc Diffusion Transformer (DiT), hoạt động trên các “patch” không-thời gian của mã tiềm ẩn video và hình ảnh, coi chúng như các token đầu vào của Transformer. 🤯 Đây là một bước tiến lớn!

Điều chỉnh mô hình ảnh để tạo video

Một cách tiếp cận nổi bật khác là “mở rộng” một mô hình diffusion văn bản-thành-ảnh đã được huấn luyện bằng cách chèn các lớp thời gian. Điều này giúp tận dụng kiến thức về các cặp văn bản-ảnh có sẵn, giảm bớt yêu cầu về dữ liệu cặp văn bản-video.

Tinh chỉnh trên dữ liệu video

* Make-A-Video (Singer et al. 2022): Mở rộng mô hình ảnh diffusion tiền huấn luyện với một chiều thời gian, bao gồm: 1. Mô hình văn bản-thành-ảnh cơ sở. 2. Các lớp tích chập và chú ý không-thời gian. 3. Mạng nội suy khung hình để tạo tốc độ khung hình cao. Kiến trúc này sử dụng các lớp tích chập 3D giả (pseudo-3D convo) và chú ý 3D giả (pseudo-3D attention), trong đó các lớp không gian 2D được theo sau bởi các lớp 1D thời gian. * Tune-A-Video (Wu et al. 2023): Cho phép tinh chỉnh một lần (one-shot tuning) để tạo video từ văn bản. Mô hình này làm phồng mô hình diffusion ảnh và tích hợp khối Chú ý Không-Thời gian (ST-Attention) để duy trì tính nhất quán thời gian bằng cách truy vấn các vị trí liên quan trong các khung hình trước đó. Thích hợp cho chỉnh sửa đối tượng, thay đổi nền và chuyển đổi phong cách. 🎨 * Gen-1 (Esser et al. 2023) của Runway: Tập trung vào việc chỉnh sửa video hiện có theo đầu vào văn bản. Mô hình phân tách rõ ràng cấu trúc (structure) (hình dạng, vị trí, động lực học) và nội dung (content) (diện mạo, ngữ nghĩa) của video để tạo ra các điều kiện. Các thay đổi kiến trúc bao gồm việc thêm các lớp tích chập 1D và chú ý 1D theo thời gian. * Video LDM (Blattmann et al. 2023): Huấn luyện một bộ tạo ảnh LDM trước, sau đó tinh chỉnh để tạo video bằng cách thêm các lớp thời gian mới vào và chỉ tinh chỉnh những lớp này, giữ nguyên các lớp không gian đóng băng. Để khắc phục hiện tượng nhấp nháy, Video LDM bổ sung các lớp thời gian vào bộ giải mã và tinh chỉnh chúng với một bộ phân biệt temporal dựa trên tích chập 3D. * Stable Video Diffusion (SVD) (Blattmann et al. 2023): Cũng dựa trên LDM với các lớp thời gian được chèn, nhưng SVD tinh chỉnh toàn bộ mô hình. SVD đặc biệt nhấn mạnh vai trò quan trọng của sự tuyển chọn dữ liệu (dataset curation) chất lượng cao để đạt hiệu suất tốt. Quy trình huấn luyện gồm 3 giai đoạn: tiền huấn luyện text-to-image, tiền huấn luyện video và tinh chỉnh video chất lượng cao. 📊 * Lumiere (Bar-Tal et al. 2024): Thay vì phụ thuộc vào các thành phần siêu phân giải thời gian (TSR), Lumiere áp dụng kiến trúc U-Net Không-Thời gian (Space-Time U-Net – STUNet), tạo ra toàn bộ thời lượng video trong một lần chạy duy nhất. STUNet giảm mẫu video cả trong chiều thời gian và không gian, giúp các phép tính đắt tiền diễn ra trong một không gian tiềm ẩn nhỏ gọn. Đây là một cách tiếp cận đột phá để giải quyết vấn đề nhất quán thời gian! 🚀

Thích ứng không cần huấn luyện

Thật ngạc nhiên, có thể điều chỉnh một mô hình text-to-image tiền huấn luyện để tạo video mà không cần bất kỳ quá trình huấn luyện bổ sung nào! 🤯 * Text2Video-Zero (Khachatryan et al. 2023): Cho phép tạo video zero-shot, không cần huấn luyện bằng cách tăng cường mô hình diffusion ảnh tiền huấn luyện với hai cơ chế chính: 1. Lấy mẫu chuỗi mã tiềm ẩn với động lực chuyển động (motion dynamics) để giữ cho cảnh tổng thể và nền nhất quán theo thời gian. 2. Lập trình lại chú ý tự thân cấp khung hình bằng cách sử dụng chú ý xuyên khung hình mới (cross-frame attention) của mỗi khung hình vào khung hình đầu tiên, để duy trì ngữ cảnh, diện mạo và danh tính của đối tượng tiền cảnh. 👀 * ControlVideo (Zhang et al. 2023): Nhằm mục đích tạo video có điều kiện dựa trên prompt văn bản và chuỗi chuyển động (ví dụ: bản đồ độ sâu hoặc cạnh). Mô hình này được điều chỉnh từ ControlNet với ba cơ chế mới: 1. Chú ý xuyên khung hình (Cross-frame attention): Tương tác đầy đủ giữa tất cả các khung hình (khác với Text2Video-Zero chỉ tập trung vào khung hình đầu tiên). 2. Bộ làm mịn khung xen kẽ (Interleaved-frame smoother): Sử dụng nội suy khung hình trên các khung xen kẽ để giảm hiệu ứng nhấp nháy. ✨ 3. Bộ lấy mẫu phân cấp (Hierarchical sampler): Cho phép tạo video dài với tính nhất quán thời gian dưới hạn chế bộ nhớ, bằng cách chia video thành các clip ngắn và sử dụng các khung hình chính được tạo trước. 🎞️