3DHM框架：一图片可模仿任意视频动作 360度无死角

0 人点赞了该文章 · 21 浏览

划重点:

- 无需标注数据，3DHM框架即可让照片动起来，模仿目标视频动作，衣服动起来也真实!

- 研究人员提出了一个两阶段的、基于扩散模型的框架3DHM，通过从单个图像完成纹理图来合成3D人体运动，然后渲染3D人体以模仿视频中actor的动作。

- 该方法在生成长时间运动和各种高难度的姿势上更有弹性，对视频图像渲染更加逼真。

加州大学伯克利分校的研究人员最近发布了一个名为3DHM的框架，能够让一张图片动起来，模仿任意视频动作，即使是视频中的衣服也能够运动得非常真实。

这一框架无需标注数据，通过从单个图像完成纹理图来合成3D人体运动，然后渲染3D人体以模仿视频中actor的动作。通过这种方法，研究人员能够在生成长时间运动和各种高难度的姿势上更有弹性，对视频图像渲染更加逼真。

为了解决这个问题，研究人员使用填充扩散模型，在给定的单张图像中想象出不可见部分，然后在纹理图空间上训练该模型，在姿势和视点不变的条件下提升采样效率。

他们还开发了一个基于扩散模型的渲染pipeline，由3D人体姿势控制，从而可以生成目标人物在不同姿势下的逼真渲染，包括衣服、头发和看不见区域下的合理填充。实验结果表明，相比以前的方法，该方法在生成长时间运动和各种高难度的姿势上更有弹性。

在具体实现上，研究人员首先利用一种常用的方法来推断像素到表面的对应关系，从而建立一个不完整的UV纹理图，用于从单张RGB图像中提取三维网格纹理。同时计算可见性掩码，以显示哪些像素在3D中可见，哪些不可见。接着，通过生成伪完整纹理贴图来渲染人物。

在第二阶段，他们通过收集大量的配对数据训练第二阶段扩散模型，以获得一个模仿actor动作的人的逼真渲染效果。

这种方法使得他们能够在生成具有生动纹理的真人图像上取得良好的效果。

论文网址：https://arxiv.org/abs/2401.10889