类Sora模型终究懂不懂物理?字节完结系统性试验证明
时间: 2024-11-15 08:41:58 | 作者: 米乐m6易游下载
- 方案介绍
Sora爆火以来,“视频生成模型终究懂不懂物理规矩”遭到热议,但业界一向未有研讨证明。近来,字节跳动豆包大模型团队发布最新论文,研讨历时8个月,环绕“视频生成模型间隔国际模型有多远”初次在业界完结系统性试验并给出清晰定论:视频生成模型能够回忆练习事例,但暂时还没办法真实了解物理规矩,做到“触类旁通”。
图灵奖得主、Meta首席AI科学家杨立昆点赞并转发了该研讨,表明“定论不令人意外,但很快乐总算有人做了这个测验!”
自OpenAI发布Sora模型以来,许多视频生成模型都会着重其生成成果对物理规矩的遵从。豆包大模型视觉团队相关小组,对视频生成模型终究能否从视觉数据中“发现”并“了解”物理规矩感到猎奇,决议深入研讨。
历时8个月,该团队完结了业界首个系统性的试验研讨。团队经过专门开发的物理引擎合成了匀速直接运动、小球磕碰、抛物线运动等经典物理场景的运动视频,用于练习根据干流DiT架构的视频生成模型。然后,经过查验模型后续生成的视频在运动和磕碰方面是不是满意力学规矩,判别模型是否真实了解了物理规矩,并具有“国际模型”的潜力。
豆包大模型团队的试验发现,即便遵从“Scaling Law”增大模型参数规划和数据量,模型仍然无法笼统出一般物理规矩,做到真实“了解”。
以最简略的匀速直线运动为例,当模型学习了不同速度下小球坚持匀速直线运动的练习数据后,给定初始几帧,要求模型生成小球在练习集速度区间内匀速直线运动的视频,跟着模型参数和练习数据量的添加,生成的视频逐步更契合物理规矩。
但是,当要求模型生成未曾见过的速度区间(即超出练习数据规模)的运动视频时,模型忽然不再遵从物理规矩,而且无论如何添加模型参数或练习数据,生成的成果都没有明显改善。这表明,视频生成模型没办法真实了解物理规矩,也无法将这些规矩泛化应用到全新的场景中。
经过进一步的试验剖析,研讨团队得出定论,“生成新视频时,模型首要依靠对练习事例的回忆和匹配。视频生成模型就像一个只会‘抄作业’的学生,一旦遇到从未见过的场景,如不同巨细、速度的物体相互作用,就会‘犯模糊’,生成成果与物理规矩不符。”
不过,研讨中也有一个好消息:假如练习视频中所有概念和物体都是模型已了解的,此刻加大练习视频的复杂度,比方组合添加物体间的物理交互,经过加大练习数据,模型对物理规矩的遵从将渐渐的变好。这一成果可为视频生成模型继续提高体现供给启示。
据了解,本研讨两位中心一作都十分年青,一位是95后,一位是00后,在豆包大模型团队专心视觉范畴的根底研讨工作。作者们一向对国际模型感兴趣,在8个月的探究中,他们阅读了很多物理学研讨文献,也测验从游戏中取得研制创意,历经屡次失利后,终究一步步确认研讨思路和试验办法。
雷峰网(大众号:雷峰网)了解到,今年以来,字节跳动在大模型范畴不断加大投入。不久前,字节豆包大模型团队还建议Top Seed人才方案,在全国际继续招募大言语模型、视觉、语音、大模型基座等范畴的顶尖研讨人才,供给充沛的立异探究空间。