HumanRF:可从2D视频照片提取动态人像 转为3D模型
神经辐射场(nerf)从照片或视频中学习3D模型,可以渲染单个物体或整个场景。一些变体专门用于移动场景或对象,其他变体则尝试编辑功能,还有一些变体试图将人物渲染得逼真。nerf被认为是人工智能技术之一,将在3D图形、视频会议或未来的虚拟世界中发挥重要作用。
来自合成媒体人工智能初创公司Sytnhesia、伦敦大学学院(UCL London)和慕尼黑工业大学(TU Munich)的研究人员现在推出了HumanRF,这是一种为运动中的人创建高分辨率3D 化身的方法。
ActorsHQ是一个1200万像素的动态人物数据集。该团队正在用他们自己的数据集训练HumanRF。ActorsHQ由39,765帧动态人体动作组成,使用多视图视频捕获。该团队使用了一种专有的多摄像头采集系统,结合LED阵列进行全局照明。
该团队创建了 ActorsHQ 数据集,其中包含由多相机捕捉系统捕捉的高分辨率图像。HumanRF 和 ActorsHQ 数据集将发布,并有助于进一步推进虚拟人的逼真重建。ActorsHQ提供了比旧数据集高得多的分辨率数据,旧数据集的最大分辨率达到4MP。该数据集包含4名女性和4名男性,随机选择20种动作。
HumanRF可以高质量地学习长序列的动作
通过HumanRF,该团队引入了一种NeRF方法,该方法可以捕获高分辨率数据,并获得人类参与者的时间一致性重建,即使是长序列,同时能够显示高分辨率细节。该团队的灵感来自英伟达的Instant-NGP,使用的编码中增加了一个时间维度。
结果令人印象深刻,该团队希望HumanRF和ActorsHQ数据集(也已发布)将在虚拟人类的逼真重建方面取得进一步进展。在未来,该团队计划探索控制训练演员发音的方法。这可以让synia将自己的产品从简单的2D录音发展为动态的3D模型。
该团队计划在HumanRF项目网站上提供代码和数据集。更多的信息和例子可访问项目网址:https://synthesiaresearch.github.io/humanrf/
更新于:2023-05-16 12:37