AI 1 thg 6, 2026 2 phút đọc

NVIDIA công bố Cosmos 3: Mô hình thế giới đa phương thức cho AI vật lý

NVIDIA Cosmos 3 là mô hình thế giới hợp nhất có khả năng hiểu và tạo ra ngôn ngữ, hình ảnh, video, âm thanh và cả hành động cho robot.

Tier 1 · nguồn 90% độ tin cậy Đã được duyệt

Nvidia Cosmos 3 Physical AI Robotics

Nguồn gốc x.com

NVIDIA vừa chính thức công bố Cosmos 3, một hệ thống mô hình thế giới đa phương thức (Omnimodal World Model) thế hệ mới được thiết kế đặc biệt cho Physical AI. Đây là một bước tiến khổng lồ hướng tới việc tạo ra các robot có khả năng hiểu thế giới như con người.

Bối cảnh

Physical AI (AI vật lý) yêu cầu các mô hình không chỉ xử lý dữ liệu số mà còn phải hiểu được các quy luật vật lý của môi trường thực tế. Cosmos 3 được xây dựng để trở thành "bộ não" cho robot, giúp chúng dự đoán các tình huống và thực hiện hành động chính xác trong không gian 3D.

Diễn biến

Điểm khác biệt của Cosmos 3 nằm ở kiến trúc hợp nhất (unified architecture). Nó có thể đồng thời xử lý và tạo ra nhiều loại dữ liệu khác nhau: từ văn bản, hình ảnh, video cho đến âm thanh và các tín hiệu điều khiển hành động. Khả năng dự đoán thế giới (world modeling) cho phép robot "hình dung" ra kết quả của hành động trước khi thực sự thực hiện, giúp giảm thiểu sai sót và tăng độ an toàn.

Vì sao đáng chú ý

Cosmos 3 đánh dấu sự chuyển dịch từ các mô hình AI chuyên biệt sang các mô hình thế giới tổng quát cho robot. Việc NVIDIA tích hợp khả năng sinh hành động (action generation) vào cùng một mô hình với thị giác và ngôn ngữ cho thấy một tương lai nơi robot có thể học hỏi từ video và tương tác với con người một cách tự nhiên hơn bao giờ hết.