豆包大模型团队开源视频生成模型VideoWorld_理想久石吧

08月20日漏签0天

理想久石吧关注：71贴子：2,061

6回复贴，共1页

<返回理想久石吧

豆包大模型团队开源视频生成模型VideoWorld

只看楼主收藏回复

豆包大模型团队联合北京交通大学、中国科学技术大学共同开发的视频生成实验模型“VideoWorld”正式开源。
该模型在业界首次实现无需依赖语言模型即可认知世界。

送TA礼物

IP属地:广东

本楼含有高级字体1楼2025-02-10 15:26回复

VideoWorld模型的核心亮点包括：
纯视觉知识学习：该模型能够通过无标注的视频数据自主学习复杂的规则和策略，例如围棋的落子逻辑和机器人的操作时序，无需依赖语言指令或强化学习的奖励机制5。
高效视觉表征压缩：VideoWorld引入了潜在动态模型（LDM），能够将视频帧间的变化编码为紧凑的潜在序列，从而降低冗余信息干扰，并实现长短期动态依赖的联合建模5。
跨场景泛化能力：该模型在多种环境和任务中表现出卓越的泛化能力，例如在围棋对弈中达到职业五段水平，以及在机器人测试集上接近Oracle模型性能5。

IP属地:广东

来自Android客户端2楼2025-03-03 00:48

不感兴趣

开通SVIP免广告