阿里终于杀入AI视频生成!一键直出音画同步国风视频,还能读懂中国古诗

2024-09-21 12:11
摘要:阿里终于杀入AI视频生成赛道!9月19日云栖大会上,阿里CTO周靖人宣布通义万相全面升级。其中最大的亮点之一便是通义万相全自研AI视频生成大模型同时上线手机端和PC端,并且面向公众免费开放。不用排队、也不用到处借..

阿里终于杀入AI视频生成赛道!

9月19日云栖大会上,阿里CTO周靖人宣布通义万相全面升级。其中最大的亮点之一便是通义万相全自研AI视频生成大模型同时上线手机端和PC端,并且面向公众免费开放。

不用排队、也不用到处借号了,直接登陆通义万相官网或下载通义App即可体验。(相关链接已同步至文末)

颇有诚意的是,相比其他模型发布“先占位后迭代”的思路,阿里这次还一次性放出了两个创作入口:文生视频和图生视频。

看来是憋了个大的。

据官方介绍,通义万相AI目前能够一键生成最长5秒、每秒30帧、720P分辨率的音画同步视频,并且在核心架构Diffusion+Transformer的加持下,支持复杂与大幅度运动生成,对中式元素针对性优化了概念理解和生成能力,被第一波实测的网友和媒体誉为“更懂中国风”的大模型。

提示词:古风女孩,穿着古代服饰,头发在空中轻灵的摆动

官方演示Demo

据“AI新榜”观察,与以往发布的AI视频应用相比,通义万相是少见的能够同时生成视频和音频的应用。同赛道上别的产品往往单次只能生成视觉信息,需要通过后续的一套工作流添加配音或音效,才能制作出真正声画并茂的视频。

而这次,通义万相再次拉低了AI视频制作的门槛:生成的视频都自带声音,直接省去单独制作音效的环节。

更懂中式元素、使用更简单的通义万相在生成效果上表现如何?在竞争激烈的AI视频生成赛道上,通义万相的优势又在哪儿?“AI新榜”第一次时间进行了一番实测。

一键直出音画同步视频,AI视频生成结束默片时代

通义万相PC端目前每天登陆送50个灵感值,支持约10条视频生成。而手机端App则开放了每日不限次使用,量大管饱,因此我们这次实测选择在手机端App上进行。

测试分为文生视频和图生视频两个部分,主要从人物运动、音效生成、模型擅长风格、复杂语义理解等方面着手进行评测。

1.文生视频

风景与动物运动类

提示词:枯藤老树昏鸦,小桥流水人家,古道西风瘦马。夕阳西下,断肠人在天涯。

提示词:由巨大绿树组成的神秘森林,树枝像无尽的藤蔓向四周蔓延,森林中的光线从缝隙中洒落。

提示词:白色狼群在冰川峡谷中穿行,北风呼啸声,镜头跟随。

首轮我们就给通义万相上了上强度,投喂了一首以意境取胜流传千古的古诗给它,没想到最后生成的视频还真有两下子:诗中的主要视觉要素一个不落,整体风格也相当有“中国味”,自动配上的音效也都符合画面要求。

同首古诗让早前同样被认为擅长国风元素的可灵生成的画面效果是这样的:

在这里我们使用的是仍支持一定数量免费生成的可灵1.0

此外,通义万相在处理写实类风景和动物腿部方面表现出色,音效生成也与画面高度契合。

要知道,AI视频生成在处理动物运动时,尤其是腿部动作方面非常容易出错。虽然放在大屏幕上看,狼群移动还是存在残影等画面瑕疵,但在手机上观看,效果已经足够令人惊喜。

国风人物

通义万相在生成古风人物上的表现可谓是惊艳。人物走路和转身的动作都十分流畅,画面风格也是满满江湖武侠气息,随视频生成的音效也很不错,仔细听似乎还能听到人物的脚步声。不过提示词中的“一把长剑”直到视频末尾才展现出来,这位“江湖侠客”最后的眼神也没能够聚焦在“镜头”上。

提示词:一个年轻潇洒的江湖侠客,身着传统的劲装,背负一把长剑,面容飘逸洒脱。背景是茂密的山林和古朴的酒肆,身旁放着一个酒葫芦,增添了自由和冒险的气氛。

另一个视频生成的效果也很不错,能够理解提示词中诸如“云鬓轻挽”等古风词汇,唯一不足之处就是画面中人物拿的那把折扇“走着走着就散了”。

提示词:身着飘逸长裙的女子,云鬓轻挽,手持折扇,在古色古香的园林中悠然漫步,眼神中透露出一丝淡淡的忧伤。

2.图生视频

任何一个新的AI视频工具都逃不过这张经典表情包测试:

但通义万相却“拒绝”了我们的“玩梗”邀请,想着也许是图片人数过多,我们测试了几个有名的“单人”表情包。

盖茨比举杯但突然瞬移到草地:

火车卧铺陶喆秒变草地陶喆:

黑人思考变草地散步:

从视频生成的效果来看,除了存在人物不一致、动作奇怪等AI视频工具通病问题,通义万相的脑洞还是不错的,就是最终生成的结果好像是跟“草地”过不去了,同视频一起生成的声音也存在“高度一致性”——伴随着草地画面出现的一阵鸟叫声。

为了摆脱“草地困扰”,我们给这些图片加了一些简单的提示词。

提示词:人物吃薯条

提示词:人物将杯中酒一饮而尽

视频最终生成的效果有点“惨不忍睹”:我们想让陶喆老师吃点薯条,结果吃了块蛋糕,陶喆老师的面部表情也是生成得有点抽象;小李子这边稍微好一点,除了在“喝酒”这个动作时面部稍有变形,整体的面部一致程度还可以。

加了提示词之后视频的音效总算不是“鸟语花香”了,虽然仍有些突兀,但总体来看还是符合视频画面的。

阿里正式入局,新一轮大厂AI视频争夺赛打响

从综合表现来看,阿里通义万相在中式元素、复杂语义理解等方面展现了其差异化优势,但也存在和其他模型一样的通病:生成的人物/动物运动不符合物理规则,需要多轮抽卡。

但好在的是,在AI视频抽卡率普遍较高的当下,在手机端使用通义万相AI视频模型还是免费管饱的,所以目前可以放心大胆进行测试和体验。

此外,或许由于功能刚上线,目前通义万相生成视频的速度还很慢。实测下来,每支视频生成时间为10分30秒,系统最多允许同时提交3个视频在后台排队一一进行生成。

音效生成方面虽同质化比较严重,但总体而言表现尚可。不过如果提示词包含的画面元素过多、或视频设定环境复杂就容易出现视频内容与音频完全不相关的情况,甚至部分测试视频生成的音效可以说是“噪声”不为过。

经向官方证实,通义万相AI视频功能目前是自动生成声音的,无法通过相关操作关掉或是通过提示词取消音效。

可以说,音效生成的加入在特定类型上(尤其对视频质量要求不高的用户来说)能简化视频制作流程,但一旦音频生成效果不佳则多少有些“画蛇添足”了。

从产品层面上来看,在手机端上和AI生视频在同一入口的是早前在国内引爆C端创作热潮的“全民舞王”(如今已整合为“全民舞台”)。

无论是“全民舞王”还是AI生视频功能,可以看到通义都致力于在产品层面上降低普通用户的使用门槛。

进入通义AI生视频功能界面,“热门创意”允许用户轻松一键丝滑做同款,“灵感扩写”则用于优化提示词,为普通用户提供使用灵感。

国内已有多家大厂在AI视频生成领域有所布局并推出了相关产品。除了早前海内外破圈的快手AI视频模型可灵已“产品化”落地应用外,还有字节跳动的即梦、百度的AI成片工具、腾讯的云端视频创作平台“腾讯智影”。

阿里早前凭借通义App里的“全民舞王”功能引爆了一波讨论,但仅单点的图生视频玩法并不足以持续保持热度。

如今在可灵已经进化到1.5版本,各项功能如“去水印”“视频分辨率提升”“镜头控制”已逐渐补齐,阿里通义才发布自研AI视频生成模型,看起来姗姗来迟,但在AI视频生成底层技术仍待进化的情况下,国产AI视频生成的头把交椅会鹿死谁手还真不好说。

通义万相AI视频生成PC端地址:

https://tongyi.aliyun.com/wanxiang/wanxvideo

更新于:2个月前