tools-ai AI 14 thg 6, 2026 3 phút đọc

Mirage của Microsoft Research: Bộ Nhớ Không Gian Ẩn Thay Đổi Cách AI Tạo Video Thế Giới! 🎥💡

Mirage, một mô hình video thế giới mới từ Microsoft Research và các đối tác, đột phá trong việc tạo ra các chuỗi video dài, nhất quán về hình học bằng cách lưu trữ nội dung 3D trực tiếp dưới dạng token tiềm ẩn, loại bỏ nút thắt cổ chai tính toán truyền thống.

Tier 2 · nguồn 99% độ tin cậy Auto-priority

Nguồn gốc the-decoder.com

Mirage: Bước Đột Phá Từ Microsoft Research Trong Mô Hình Video Thế Giới 🚀

Các nhà nghiên cứu từ Đại học Chiết Giang, Microsoft Research, Đại học Adelaide và Đại học Monash đã giới thiệu Mirage – một mô hình video thế giới đột phá được xây dựng dựa trên Bộ nhớ Không gian Ẩn (Latent Spatial Memory). Đây được xem là một bước tiến vĩ đại trong việc tạo ra các chuỗi video dài, có tính nhất quán hình học cao từng phân đoạn.

Vấn Đề Cũ và Giải Pháp Mới Của Mirage 🧠

Trước đây, để duy trì tính nhất quán 3D trong các mô hình video thế giới, thông tin cảnh thường được lưu trữ trong không gian pixel (ví dụ: đám mây điểm màu RGB hoặc bộ đệm 3D tường minh). Tuy nhiên, cách tiếp cận này đòi hỏi quá trình rasterization/rendering lặp đi lặp lại và mã hóa lại vào không gian tiềm ẩn cho mô hình khuếch tán, tạo ra một nút thắt cổ chai lớn về điện toán.

Mirage giải quyết triệt để vấn đề này bằng cách lưu trữ nội dung cảnh 3D bền vững trực tiếp dưới dạng token tiềm ẩn trong không gian tiềm ẩn VAE. Việc giữ toàn bộ bộ đệm 3D trong không gian tiềm ẩn giúp Mirage:

* Tránh chu trình "rasterize-và-mã hóa lại" tốn kém. * Giải phóng đường dẫn xử lý quan trọng khỏi các phép toán không gian pixel. * Giảm đáng kể dung lượng bộ nhớ theo hệ số nén bình phương của VAE.

Chu Trình Bộ Nhớ Tiềm Ẩn Độc Đáo 🔄

Mirage tạo ra các video dài theo từng phân đoạn thông qua một chu trình bộ nhớ tiềm ẩn gồm bốn giai đoạn:

1. Khởi tạo (Initialize): Mã hóa khung hình ban đầu và chiếu ngược các token tiềm ẩn VAE của nó vào bộ đệm 3D bằng cách sử dụng nâng cao dựa trên độ sâu. 2. Đọc ra (Readout): Đối với mỗi tư thế camera mục tiêu của phân đoạn tiếp theo, nó chiếu bộ đệm tiềm ẩn để tạo ra các tensor đặc trưng không gian tiềm ẩn. Các tensor này được đưa vào diffusion backbone bằng một nhánh phụ kiểu ControlNet. 3. Khử nhiễu/Tạo (Denoise/Generation): Tạo phân đoạn video tiếp theo bằng cách sử dụng diffusion backbone đã được điều kiện. 4. Cập nhật (Update): Giải mã các khung hình, ước tính độ sâu, phân đoạn các đối tượng động, mã hóa lại các phần cảnh tĩnh thành các đặc trưng tiềm ẩn "sạch", và chiếu ngược chúng vào bộ đệm 3D.

Hiệu Suất Đáng Kinh Ngạc! ✨

So với kiến trúc bộ nhớ đám mây điểm màu RGB truyền thống, Mirage mang lại hiệu suất vượt trội:

* Tốc độ tạo video end-to-end nhanh hơn 10.57 lần! ⚡ * Giảm 55 lần mức sử dụng bộ nhớ cache 3D! 💾 * Đạt kết quả hiện đại nhất trên các tiêu chuẩn WorldScore cho việc tạo thế giới. * Tổng hợp góc nhìn mới cạnh tranh trên bộ dữ liệu RealEstate10K.

Hạn Chế Cần Lưu Ý 🤔

Mặc dù Mirage rất hiệu quả trong việc bảo toàn tính nhất quán hình học tĩnh trên các quỹ đạo camera dài, nó vẫn còn gặp khó khăn trong việc theo dõi và duy trì đáng tin cậy tính nhất quán của các đối tượng động di chuyển nhanh trên các phân đoạn video riêng biệt. Đây là một thách thức lớn mà các nhà nghiên cứu cần giải quyết trong tương lai.

Tài Liệu Tham Khảo 📚

* Bài báo khoa học: "Latent Spatial Memory for Video World Models" (arXiv:2606.09828) * Trang dự án: https://aka.ms/latent-spatial-memory * Mã nguồn GitHub: https://github.com/microsoft/LatentSpatialMemory