OpenAI正式上线Sora - 王者归航。
今晚2点,OpenAI Day3的直播。
我们等了298天的Sora,终于,正式上线了。
而且不仅仅是一个模型,而是一个非常完善且体验极佳的真正的产品。
网址在此:sora.com
Sora背后接入的是一个新模型,Sora Turbo,推理成本肯定少了非常非常多,这也解释了为啥OpenAI把Sora拖了这么久,就是因为二月份的那个模型,推理起来太烧钱了,跑不动。
虽然是个新产品,但是会员体系是跟ChatGPT全面打通的。
20刀的Plus比较惨,最多生成50个视频,最多720P、5s,还有水印。
尊贵的200刀的Pro会员就比较香了,最多快速生成500个视频,还能无限慢速跑,1080P、20s,还有无水印。
所以,没办法,我只能,当场怒氪了200刀。。。
于是,我也成了尊贵的200刀的Pro会员了,o1没让我充钱,但是Sora这波,我是真的逃不了了。。。
真的都是宿命。
2月16号,OpenAI发布Sora,在全世界,掀起了新的浪潮。
而那天,我也写下了那篇传播最广的文章:
OpenAI全新发布文生视频模型Sora - 现实,不存在了
然后,就是死一般的沉寂。
那个Sora,成了所有人心中,最远的梦。宛如天上的星辰,美得不可方物,却又遥不可及。
有人说,5G只改变了何同学的生活,而Sora,也只改变了我的生活。
虽是一句玩笑,但也却只能是一声叹息。
而今天,298天之后。
在铁王座上的王已经换了无数次之后,在可灵、即梦、海螺、vidu等等AI视频模型已经一统江湖之后。
Sora回来了。
它说:
“重铸OpenAI荣光,吾辈义不容辞。”
这次,我用4句话总结这次Sora的完整特点:
极度完整的用户体验、还不错的运动效果、超丰富的视频修改与编辑、完美一致性的故事板。
一个一个来说。
一. 极度完整的用户体验
我最开始以为的Sora,是一个网页,就一个写Prompt的输入框,然后没了。
就跟很多AI视频刚上线的时候一样。
结果,Sora这个产品,掏出来的完整度,还是超出了我的预期。
在整体界面上,非常的Midjourney,有一种熟悉的感觉的即视感。
最左边的其实就是社区和你自己的生成出来的素材管理。
有喜欢的、收藏的等等,不赘述了,都大差不差。
而真正的操作区,放在了底部,功能比我想象的要多很多。
从左到右,分别是:
上传图片或者视频:Sora支持文生视频、图生视频。所以可以传图。
预设的风格模板:
当然你也可以新增自己喜欢的风格做成预设。
比例:支持的比较少,只有16:9、1:1、9:16三种尺寸。
分辨率:3种,480p到1080p,Plus会员只能生成720p的,pro会员才可以生成1080p。
持续时长:4种,5s、10s、15s、20s,这里需要注意,720p的是可以生成20s的,但是如果你选1080p,那最多只能生成10s了。
一次生成视频个数:1、2、4三种选择,1080p最多1个,720p最多2个、480p最多3个。
右边还有一个非常非常牛逼的故事板功能,这个我们放在第四趴细说。
非常牛逼,真的。
在这个功能的完整度上,已经比很多产品好了,但是,这不是最重要的,最可怕的完整度,是在生成视频后。
Remix(重新混合)、blend(混合)、Loop(循环),这些功能,是我全部第一次见,也都是Sora的独创功能,这一趴,我放在第三块细说。
我们先来看看,Sora生成出来的效果。
二.还不错的运动效果
现在几乎所有的AI视频模型还在努力追赶真实世界的运动质感,在让人能走起来、跑起来、做一些复合型动作。
那Sora作为整个的鼻祖,其实在运动效果上,会好一些,但是并没有好那么的超乎预期。
我直接放我跑的真实case:
80年代日本原宿时尚街。
2. 一只小焦糖色的兔子在它的木屋里跳来跳去,看起来非常无害。
3.一只拟人化的毛绒熊猫玩偶,穿着一件宽松的绿色针织开衫、条纹上衣、黑色高腰短裤(或裙子)、条纹薄透连裤袜以及厚底黑色系带靴子,头顶一顶芥末黄色贝雷帽,戴着一副有色墨镜。她站在一个工业风的摄影棚里,背景是暗色混凝土墙,头顶是灯光设备架,舞台设备的细节若隐若现。这只毛绒熊猫开始以自信而有节奏的动作表演流畅的嘻哈舞。
在运动质量、物理规律、镜头语言上,会比大部分的AI视频模型效果都要厉害。还有那个神级的审美。
太喜欢了。
当然,不足也有很多,而且跟2月的时候,我觉得没有太大的变化。
就是肢体变形、物体的突然出现以及消失、错位等等,这些也还是会有不少。
在一些复杂语义的理解上,也差点意思。
比如,我给的Prompt是:“在那间破旧的出租公寓里,刚毕业的年轻人疲惫地脱下西装外套,把它扔在椅背上。他走到窗边,呆呆地望着城市的夜景。远处,霓虹灯闪烁。”
你会发现完全没有理解脱 衣服、扔衣服这事...一直漫无目的在屋子里走来走去。。。
还会经常有莫名其妙的切镜,如果把时间拉到10s钟,我个人觉得,切镜的过于频繁了。
所以,整体来看,我觉得Sora如果对标GPT进度的话,那现在应该是GPT2.5左右的水平。
等到Sora的v2版本。
那可能就真的能达到GPT3.5,那种全民可用的地步。
产生巨大颠覆的效果了。
三.超丰富的视频修改与编辑
如果我说,我希望在刚刚生成的的草地上,加个游泳池。
我想,任何一个人都会用看煞笔的眼神来看我,不开口骂我我觉得都是轻的。
动动嘴,一句话改视频,听起来像天方夜谭,对吧。
但是Sora,做到了。
这就是我们在之前提到的,Remix(重混)功能。
可以一句话,改掉视频里面的素材。
比如在他们的直播演示里,他们先生成了一段猛犸象在荒原奔跑的视频。
那如果你对这个猛犸象不满意,想把他变成机械猛犸象。
那就可以直接点remix,来一句话,改视频。
你可以修改Remix强度。
来决定Remix值的大小。
可以选择温和,于是,你就有了,机械猛犸象在荒原上奔跑。
还有这个Blend混合功能。
比如我们有两段视频。
我想让雪花先开始放,然后无缝变成花朵的样子,中间无缝斜街。
Blend功能直接完美搞定。
你还可以用Loop功能,做一段无限循环的海浪。
甚至,OpenAI还给你开了剪辑功能。。
你可以,直接在Sora上面剪辑。
只能说,这一波,产品功能的完成度,实在太高了。
四. 完美一致性的故事板
就是这个玩意。
你可以通过不同的Prompt,生成几乎完美一致性的分镜,从而组成一段一分钟的影片。
其实用AI一键生成电影,是很多炒概念的公司,在打的点。
因为电影,或者视频,本质上是由一个一个的镜头组成的。
很多时候为了在前期就把大概的画面定好,就需要提前画故事板。
比如《流浪地球2》上映的时候,就有媒体对当时球2的故事板指导费雪豪老师做过专访,其中透露了一些故事板的设计,就是长这样的。
虽然是一帧一帧的,但是你也能看出来,其中的动态表达,还有那种强到夸张的戏剧张力,更重要的是。
每一帧之间的一致性。
而这一点,是每一个试图去做故事板的AI产品,都逃不过的核心点。
你前后镜头的人物、场景,如果都长得不一样,那还聊啥沉浸感,对吧。
所以,过往的类似于LTX Studio的产品,我觉得失败就失败在这。因为都是先生图,然后图生视频,一致性,太难太难保持了。
但是Sora这次,靠着自己的特性,把每一段的镜头的一致性,做到了完美。
你可以直接在时间轴中,加分镜帧,来引导每个画面应该怎么做。
不仅能实现一个镜头里面的多动作引导,还能实现可控的分镜切镜。
比如我写的这一段。
你可以随意拖动是时间轴上的分镜,以便控制让它从几秒钟开始。
然后,一段流畅的动作视频,就生成完毕了。
而且不止是文字。
你还可以输入图片,比如我上传两张图片进去。
就可以完美的实现首尾帧的效果。
写在最后
298天,说长不长,说短不短。
298天,也恍若一梦。
这298天里,我们见证了AI视频领域的群雄并起。
可灵首当其冲划破黑暗,即梦用完美的人物演绎征服观众,海螺用极致的表情赢得掌声,Vidu用完美的一致性获得赞誉,开源世界里也有智谱和混元让黎明升起。
每一个都像是一颗璀璨的星星,照亮了那一片天空。
但在这298天里,更看到了人性的投射。
有人用AI还原逝去至亲的音容笑貌,有人用它创作出天马行空的奇思妙想,有人用它表达内心最深处的情感。
AI不仅是冰冷的工具,而成为了我们创造力的延伸。
当影像制作的门槛被彻底打破,当每个人都能轻松创作出专业级的视频。
我觉得更值得思考的是:
我们要用这份能力做些什么?是沉迷于虚拟的完美,还是用它来表达真实的情感?是制造更多的喧嚣,还是传递更有价值的声音?
在这个即将影像即真相的时代,我们每个人都将面对这个选择。
而且,这亦不是终点,而是另一个起点。
因为在AI的世界里,永远没有最后一个奇迹。
只有,下一个奇迹。
更新于:2天前