ArXiv 2020 MulayCap:基于多层表达的单目彩色相机的人体动作捕捉

Xsens动作捕捉 2022-10-04 16403

MulayCap: Multi-layer Human Performance Capture Using A Monocular Video Camera

最近几年,深度学习的发展为基于单目RGB相机的人体动作捕捉注入了新的动力,越来越多的新方法涌现,为 AI+5G 时代的人体动作捕捉提供了无限可能。


ArXiv 2020  MulayCap:基于多层表达的单目彩色相机的人体动作捕捉  第1张

Title

文章作者来自清华大学、香港大学和北京航空航天大学,目前文章已经被 提交到 TVCG 期刊

当前基于单目 RGB 相机的人体动作捕捉如 MonoPerfCap [2] 、 LiveCap [3] 和 DeepCap [7] 等方法都需要预先扫描得到人体的网格模型,再使用该模型进行 3D 姿态追踪,其缺陷主要在于以下几点

  • 首先,这些方法需要花费额外的精力和时间去预先扫描人体的模板网格,这使得对于普通消费者或者互联网视频的人体动作捕捉难以应用;
  • 其次,这类方法都使用单个网格来表达人体,皮肤和衣服不可分离,使得诸如分层和滑动这类的衣服和人体之间的交互难以刻画
  • 最后,模板网格扫描得到之后,其对应的纹理在后面追踪的过程中一直固定,这在某些情况下会产生不够真实的重建结果。

但如果没有预先扫描得到的人体模型,基于 RGB 视频的人体动作捕捉是一个非常难的问题,在没有几何和外观的先验信息下,很难从视频帧中同时恢复出运动 (motion)、几何 (geometry)、外观 (appearance) 信息。

文章作者提出了一个基于多层表达 ("multi-layer" representations) 的 RGB 视频人体动作捕捉的新方法 MulayCap,能够不需要预先扫描的人体模板网格,直接重建人体的动态几何和纹理。这里”多层“体现在两个层面:

  1. 几何是多层的。作者使用多个几何层 (geometric layers) 来表达穿衣服的人体,即一个赤裸的人体网格层和一个服装层,而服装层又分为上衣层如短袖、裙子等,和下装层如短裤、长裤等。
  2. 纹理是多层的。作者将输入的视频图片分解为反射率层 (albedo layers) 和明暗(光照)层 (shading layers)。

多层表达的使用能够实现对人体动作更高层次的语义建模,人体、服装、albedo、shading 被分别建模,并充分地集成在一起产生一个高质量高真实感的重建结果,并能同时对重建的人体运动进行编辑,如重光照 (relighting)、人体形状编辑 (human shape editing)、服装重定向 (cloth retargeting)、服装形状编辑 (cloth apperance editing) 等等。

ArXiv 2020  MulayCap:基于多层表达的单目彩色相机的人体动作捕捉  第2张

Teaser

项目主页http://www.liuyebin.com/MulayCap/MulayCap.html