理想久石吧 关注:71贴子:2,061
  • 6回复贴,共1

豆包大模型团队开源视频生成模型VideoWorld

只看楼主收藏回复

豆包大模型团队联合北京交通大学、中国科学技术大学共同开发的视频生成实验模型“VideoWorld”正式开源。
该模型在业界首次实现无需依赖语言模型即可认知世界。


IP属地:广东本楼含有高级字体1楼2025-02-10 15:26回复
    VideoWorld模型的核心亮点包括:
    纯视觉知识学习:该模型能够通过无标注的视频数据自主学习复杂的规则和策略,例如围棋的落子逻辑和机器人的操作时序,无需依赖语言指令或强化学习的奖励机制5。
    高效视觉表征压缩:VideoWorld引入了潜在动态模型(LDM),能够将视频帧间的变化编码为紧凑的潜在序列,从而降低冗余信息干扰,并实现长短期动态依赖的联合建模5。
    跨场景泛化能力:该模型在多种环境和任务中表现出卓越的泛化能力,例如在围棋对弈中达到职业五段水平,以及在机器人测试集上接近Oracle模型性能5。


    IP属地:广东来自Android客户端2楼2025-03-03 00:48
    回复
      2025-08-20 23:33:41
      广告
      不感兴趣
      开通SVIP免广告
      VideoWorld模型的开发灵感来源于李飞飞教授在TED演讲中提到的理念,即幼儿可以不依靠语言理解真实世界。这一理念推动了模型的设计,使其能够独立进行知识学习,尤其是在如折纸、打领结等难以通过语言清晰表达的复杂任务中


      IP属地:广东来自Android客户端3楼2025-03-03 00:49
      回复


        IP属地:广东4楼2025-03-09 01:19
        回复


          IP属地:广东来自Android客户端5楼2025-03-17 01:07
          回复


            IP属地:广东来自Android客户端6楼2025-04-06 21:55
            回复


              IP属地:广东来自Android客户端7楼2025-05-31 12:06
              回复