字节跳动发布MagicVideo-V2 文生视频保真度更高更平滑

2024-01-11 13:34

默认

摘要：昨天，字节发布了他们的新视频生成模型MagicVideo-V2，其效果非常出色。该模型的动作幅度很大，而且看起来非常自然。与Runway和SVD相比，它的写实内容细节不够丰富，纹理缺失，给人一种塑料质感。项目地址:https://t..

昨天，字节发布了他们的新视频生成模型MagicVideo-V2，其效果非常出色。该模型的动作幅度很大，而且看起来非常自然。与Runway和SVD相比，它的写实内容细节不够丰富，纹理缺失，给人一种塑料质感。

MagicVideo-V2模型具有非常全面的功能，包括文本到图像（T2I）、图像到视频(I2V)、视频到视频(V2V)和视频帧插值(VFI)模块。

在训练方面，T2I模块会创建一个描述场景的1024×1024图像。随后，I2V模块对这个静态图像进行动画处理，生成一个600×600×32帧的序列，潜在噪声确保与初始帧的连续性。

V2V模块会增强这些帧至1048×048分辨率，并对视频内容进行细化。最后，插值模块将序列扩展至94帧，得到分辨率为1048×1048的视频，确保模型具有高美感和时间平滑性。

更新于：10个月前

相关文章