Bitget App
Trade smarter
行情交易合约跟单策略理财Web3

OpenAI 首个视频模型将如何影响游戏行业?

阿法兔研究笔记阿法兔研究笔记2024/02/19 08:00
作者:阿法兔研究笔记
欢迎大家转发到朋友圈~~这样兔儿就更有动力发更多好内容了~

* 转载本文,请附上所有参考文献链接

Sora MineCraft


*本文 1600 字左右


OpenAI 新推出的首个视频生成模型 Sora,基本刷屏了朋友圈。但是,笔者发现了一个新的现象——那就是,引发了科技圈外很多专业电影人的关注。可见文生视频,对于当今的应用场景是多么的重要。


但更值得阅读的是 OpenAI 发布的关于 Sora 的技术报告《作为世界模拟器的视频生成模型》(Video generation models as world simulators)》。


我写了一篇关于 Sora 技术报告的英文文章,地址为: https://medium.com/@Alphatue/introducing-sora-openais-groundbreaking-tool-transforms-text-into-instant-video-magic-34563debd89f 欢迎关注。


回到 Sora 的技术报告,这篇论文由 OpenAI 的多位研究人员共同撰写,有一些值得注意的要点 (强烈建议阅读原文,本文文末有链接)


这篇技术报告主要核心是两个方面: 首先,怎样将各种类型的视觉数据转化为统一表示形式,进而实现生成模型的大规模训练;其次,对 Sora 模型能力和局限性,进行了定性评价。


其中提到了一些重点细节:

  • 补片技术:视觉数据的创新转化。先将视频数据压缩到低维度潜在空间,再将它分解成时空补片,从而实现视频到补片的转化。
  • 视频压缩网络 OpenAI 开发了能够处理原始视频数据的降维技术,生成在时间和空间上都进行了压缩的潜在表征。 Sora 会在这种压缩的潜在空间中接受训练,继而生成新的视频内容。 OpenAI 还开发了一个解码器,能够将这些潜在表征还原为像素级的视频 + 图像。
  • 时空补片技术: 通过处理压缩后的视频输入,OpenAI 具备提取出一系列时空补片的能力,这些补片在模型中扮演着类似于 Transformer Tokens 的角色。 值得一提的是,这套方案同样适用于图像处理,因为从本质上来说,图像可以被视为单帧的视频。 采用基于补片的表现形式,Sora 能够适应不同分辨率、持续时间及宽高比的视频和图像。 在生成新视频内容时,OpenAI 可以通过将这些随机初始化的补片,按照需要的大小排列成网格,来控制最终视频的大小和形式。
  • 视频生成的 Transformer 扩展技术, Sora 是一种扩散模型,能接受带有噪声的图像块(及条件信息如文本提示)作为输入,并被训练,从而能够预测出原始的“清晰”图像块。 值得注意的是,Sora 属于扩散型 Transformer。



研究发现,扩散型 Transformer 同样能在视频模型领域高效扩展。


总结一下:这篇技术报告揭开了 Sora 架构的关键, 比如说,Sora 可以生成任意分辨率和长宽比(最高 1080p)的视频,能够执行一系列图像和视频编辑任务,从创建循环视频、向前或向后延长视频时间到更改现有视频的背景。


但笔者最关注的重要的其实是这一段:


数字世界模拟。 Sora 还能模拟数字化过程,如视频游戏,Sora 能在控制 Minecraft 游戏角色进行基本操作的同时,高质量渲染游戏世界及其动态。仅需通过提及“Minecraft”等字样的提示,即可激发这些能力的展现。Sora 能够 "模拟数字世界",OpenAI 的合著者如是说。在一次实验中,OpenAI 将 Sora 放到 Minecraft 上,让它在控制玩家的同时渲染世界及其动态(包括物理)。



原文是这样的:“Simulating digital worlds. Sora is also able to simulate artificial processes–one example is video games. Sora can simultaneously control the player in Minecraft with a basic policy while also rendering the world and its dynamics in high fidelity. These capabilities can be elicited zero-shot by prompting Sora with captions mentioning “Minecraft.”


这些功能表明,视频模型的持续扩展是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的途径。 These capabilities suggest that continued scaling of video models is a promising path towards the development of highly-capable simulators of the physical and digital world, and the objects, animals and people that live within them.


OpenAI Sora 与 Minecraft


Sora 在 Minecraft 中控制一名玩家,并同时渲染视频游戏世界。 注意,这里的颗粒感是由视频到 GIF 的转换工具引入的,而不是 Sora。


那么,Sora 是如何做到这一点的呢?根据 Nvidia 高级研究员 Jim Fan 提到,Sora 更像是一个 "数据驱动的物理引擎",而不是一个创意引擎。它不仅能生成单张照片或视频,还能确定环境中每个物体的物理特性,并根据这些计算结果渲染照片或视频(或交互式 3D 世界,视情况而定)。


现在,Sora 在视频游戏领域有其通常的局限性。该模型无法准确模拟玻璃破碎等基本交互的物理过程。即使是它能建模的互动,Sora 也经常出现不一致的情况,例如,在渲染一个正在吃汉堡的人时,却无法渲染咬痕。
不过,Sora 似乎可以为更逼真的程序生成游戏铺平道路。这既令人兴奋,又让人害怕。
因为对于我们来说,未来视频伪造的检验难度很可能会更高。



参考资料:

1.Video generation models as world simulators (openai.com)

2.OpenAI’s Sora video-generating model can render video games, too | TechCrunc

【阅读更多】

  • 谷歌搜索:被 ChatGPT 颠覆的可能性

  • 重新定义搜索:人工智能 + 搜索带来的机会

  • 最新!彻底颠覆 Office,微软发布 Copil

  • 生成式 AI 颠覆前端,你该何去何从?

  • 重磅突发!OpenAI 正式推出多模态 GPT-4

0

免责声明:文章中的所有内容仅代表作者的观点,与本平台无关。用户不应以本文作为投资决策的参考。

PoolX:质押赚新币
CEC、QTLX、GDV等热门新币火热进行中!
立即质押!

你也可能喜欢

鲍威尔兑现华尔街最想要的降息!但市场依旧疑虑重重

周三几乎所有主要资产都出现下跌,虽然跌幅并不大,但自2021年6月以来,美联储政策决议后市场从未出现过如此一致的回调。

Jin102024/09/20 20:09

美联储本次是“鹰派降息”?未来关键或在于鲍威尔会有多鸽!

花旗预计美联储将在11月再降息50个基点,并在12月降息25个基点。

Jin102024/09/20 20:09

美联储降息后,特朗普怒喷:这是在操控政治!

美联储的降息举措已经在两党之间产生巨大反响,哈里斯“点赞”,特朗普认为美联储居心叵测。

Jin102024/09/20 20:09

FBI:伊朗黑客一直在干预美国大选!

伊朗黑客据称窃取了特朗普的竞选材料,并发送给之前的拜登竞选团队。伊朗反驳:毫无根据!

Jin102024/09/20 20:09