研究人员推视频运动控制器MotionCtrl 可有效独立控制摄像机和物体的运动

2023-12-08 12:33

默认

摘要：要点:MotionCtrl是一种用于视频生成的统一而灵活的运动控制器，能够有效地独立控制摄像机运动和物体运动，实现更精细和多样化的运动控制。MotionCtrl通过两个模块，即摄像机运动控制模块（CMCM）和物体运动控制模块(..

要点:
MotionCtrl是一种用于视频生成的统一而灵活的运动控制器，能够有效地独立控制摄像机运动和物体运动，实现更精细和多样化的运动控制。
MotionCtrl通过两个模块，即摄像机运动控制模块（CMCM）和物体运动控制模块(OMCM)，以及精心设计的架构和训练策略。
通过CMCM和OMCM的独立训练和结合LVDM，MotionCtrl能够在相对有限的数据集上进行训练，并在生成视频时灵活地控制摄像机和物体的运动，展示出较之前方法更为出色的性能。

近年来，视频生成领域取得了显著进展，但对于视频中的摄像机和物体运动的准确控制仍然是一个挑战。传统方法往往集中在其中一种运动类型，或者在两者之间没有明确的区分，从而限制了运动控制的多样性。为了解决这一问题，研究人员开发了一种名为MotionCtrl的技术，可以通过手绘的轨迹来控制摄像机和视频中物体的运动轨迹。该技术还支持Animatediff，希望在开源后能够有相应的节点插件。

MotionCtrl能够独立有效地控制摄像机运动和物体运动，实现更精细和多样化的运动控制。其架构考虑了摄像机运动和物体运动的固有属性，通过CMCM和OMCM模块分别处理这两种运动类型。这使得在生成的视频中可以实现更细致的运动调整，并灵活地组合这两种运动类型，提高了控制的多样性。

论文地址:https://arxiv.org/pdf/2312.03641.pdf

MotionCtrl的运动条件由摄像机姿态和轨迹决定，这些条件与外观无关，最小程度地影响生成视频中物体的外观或形状。这使得MotionCtrl生成的视频在保持物体自然外观的同时，能够准确地反映所给摄像机姿态和轨迹，提高了生成视频的真实感。

MotionCtrl是相对通用的模型，一旦训练完成，能够适应各种摄像机姿态和轨迹，无需对每个摄像机或物体运动进行精细调整。这增强了模型的泛化能力，使其在不同情境下都能表现出色。

该项目的优势在于，它可以有效地独立控制摄像机和物体的运动，实现更精细的运动控制，促进两种类型运动的灵活多样组合。此外，该技术的运动条件由摄像机的姿势和轨迹确定，与视频中物体的外观或形状影响最小。

MotionCtrl的实现方法是通过添加相机运动控制模块（CMCM）和物体运动控制模块(OMCM)来扩展LVDM的去噪U-Net结构。CMCM通过将相机姿态序列RT附加到第二个自注意模块的输入中，并应用一个定制的轻量级全连接层来提取相机姿态特征，将其与LVDM的时间变换器进行集成。

为了训练MotionCtrl，研究人员采用了一种多阶段的训练策略，并使用特定的增强数据集，以满足摄像机运动和物体运动控制的训练需求。对于摄像机运动控制模块（CMCM），研究人员选择了Realestate10K数据集，并通过Blip2生成视频片段的文字描述。对于物体运动控制模块(OMCM)，由于缺乏同时包含摄像机姿态、文字描述和物体运动轨迹的综合数据集，研究人员采用了ParticleSfM来生成物体运动轨迹，并通过Gaussian filter进行优化。

实验结果表明，MotionCtrl相对于现有方法在运动控制方面表现出色，具有更高的生成视频质量和更灵活的运动控制能力。

更新于：11个月前

研究人员推视频运动控制器MotionCtrl 可有效独立控制摄像机和物体的运动

最近发表

淘宝退货运费险在哪里查看？怎么理赔？

平价按摩仪风靡TikTok美区

如何在拼多多平台上有效获得首页流量，拼多多流量入口有哪些

小红书卖货平台佣金多少？卖货交多少保证金？

京东家电以旧换新详细过程是什么？以旧换新靠谱吗？

淘宝售后服务撤销后还能申请吗？期限多久？

双11大促Shopee跨境单量激增9倍

抖店开店运营方法有哪些？抖音运营工作内容

多多买菜怎么联系人工客服，如何申请平台介入退款

小米SU7 Ultra极速测试成绩出炉：达359.71km/h

相关文章