Cosmos-Reason and Cosmos-Predict2.5 and Cosmos-Transfer2.5
Cosmos-Predict2.5 是一个“世界模拟器” (World Simulator)。它的核心任务是生成视频来模拟和预测世界的未来状态。它能根据文本、图片或视频输入,生成符合物理规律的未来视频画面。简单来说,它是一个视频生成模型。
Cosmos-Reason系列 是一个“推理大脑” (Reasoning VLM)。它的核心任务是理解视频并输出文本推理。它是一个视觉语言模型(VLM),能像人类一样,利用物理常识和先验知识,对观察到的视频场景进行有逻辑的推理、分析和决策。