一文读懂文生视频模型Sora、Sora使用入口+sora使用教程、应用前景

2024-02-20 13:39
摘要:OpenAI 宣布了一款名为 Sora 的新生成式人工智能系统,该系统可以根据文本提示生成短视频。虽然 Sora 尚未向公众开放(部分用户已获得内测资格),但迄今为止发布的高质量样本已经引起了兴奋和担忧的反应。OpenAI 发..

OpenAI 宣布了一款名为 Sora 的新生成式人工智能系统,该系统可以根据文本提示生成短视频。虽然 Sora 尚未向公众开放(部分用户已获得内测资格),但迄今为止发布的高质量样本已经引起了兴奋和担忧的反应。

OpenAI 发布的样本视频(该公司称这些视频是由 Sora 直接制作,未经修改)显示了提示的输出,例如“两艘海盗船在一杯咖啡内航行时互相战斗的逼真特写视频”和“加利福尼亚州的历史镜头”淘金热期间”。

乍一看,由于视频、纹理、场景动态、摄像机运动的高质量以及良好的一致性,通常很难看出它们是由人工智能生成的。

OpenAI 首席执行官 Sam Altman 还在 X(以前的 Twitter)上发布了一些根据用户建议的提示生成的视频,以展示 Sora 的功能。本文你将了解:

Sora 是什么?Sora如何运作?Sora与其它AI视频软件对比Sora使用入口网址、使用教程Sora应用前景Sora风险和道德问题

Sora 是什么?Sora如何运作?

Sora是一个基于大规模训练的文本控制视频生成扩散模型。它能够生成长达1分钟的高清视频,涵盖广泛的视觉数据类型和分辨率。Sora通过在视频和图像的压缩潜在空间中训练,将其分解为时空位置补丁,实现了可扩展的视频生成。Sora还展现出一些模拟物理世界和数字世界的能力,如三维一致性和交互,揭示了继续扩大视频生成模型规模来发展高能力模拟器的前景。

Sora 在所谓的“扩散变压器模型”中结合了文本和图像生成工具的功能。

Transformer 是Google 于2017年首次推出的一种神经网络。它们因在 ChatGPT 和 Google Gemini 等大型语言模型中的使用而闻名。

另一方面,扩散模型是许多人工智能图像生成器的基础。他们的工作原理是从随机噪声开始,迭代到适合输入提示的“干净”图像。

视频可以由一系列这样的图像制作。然而,在视频中,帧之间的连贯性和一致性是必不可少的。

Sora 使用 transformer 架构来处理帧之间的关联。虽然 transformers 最初设计用于在代表文本的标记中寻找模式,但 Sora 使用代表空间和时间的小块的标记。

Sora与其它AI视频软件对比

剩余75%的图文内容打赏作者后可查看联系客服

微信扫码打赏作者

金额:2.99元好的内容,值得赞赏!打赏后不支持退款! 联系客服 扫描下方二维码关注公众号“站长资讯”,及时联系客服解决。请把【打赏记录详情】截图给客服,同时把您打赏的文章【网址】发给客服。客服会在24小时内把完整文章内容发送给您。(客服在线时间为周一至周五9:00-11:30 14:00-17:30) 更新于:8个月前