ArXiv 2020 MulayCap：基于多层表达的单目彩色相机的人体动作捕捉

Xsens动作捕捉 2022-10-04 16403

MulayCap: Multi-layer Human Performance Capture Using A Monocular Video Camera

最近几年，深度学习的发展为基于单目RGB相机的人体动作捕捉注入了新的动力，越来越多的新方法涌现，为 AI+5G 时代的人体动作捕捉提供了无限可能。

Title

文章作者来自清华大学、香港大学和北京航空航天大学，目前文章已经被 提交到 TVCG 期刊。

当前基于单目 RGB 相机的人体动作捕捉如 MonoPerfCap [2] 、 LiveCap [3] 和 DeepCap [7] 等方法都需要预先扫描得到人体的网格模型，再使用该模型进行 3D 姿态追踪，其缺陷主要在于以下几点：

首先，这些方法需要花费额外的精力和时间去预先扫描人体的模板网格，这使得对于普通消费者或者互联网视频的人体动作捕捉难以应用；
其次，这类方法都使用单个网格来表达人体，皮肤和衣服不可分离，使得诸如分层和滑动这类的衣服和人体之间的交互难以刻画
最后，模板网格扫描得到之后，其对应的纹理在后面追踪的过程中一直固定，这在某些情况下会产生不够真实的重建结果。

但如果没有预先扫描得到的人体模型，基于 RGB 视频的人体动作捕捉是一个非常难的问题，在没有几何和外观的先验信息下，很难从视频帧中同时恢复出运动 (motion)、几何 (geometry)、外观 (appearance) 信息。

文章作者提出了一个基于多层表达 ("multi-layer" representations) 的 RGB 视频人体动作捕捉的新方法 MulayCap，能够不需要预先扫描的人体模板网格，直接重建人体的动态几何和纹理。这里”多层“体现在两个层面：

几何是多层的。作者使用多个几何层 (geometric layers) 来表达穿衣服的人体，即一个赤裸的人体网格层和一个服装层，而服装层又分为上衣层如短袖、裙子等，和下装层如短裤、长裤等。
纹理是多层的。作者将输入的视频图片分解为反射率层 (albedo layers) 和明暗(光照)层 (shading layers)。

多层表达的使用能够实现对人体动作更高层次的语义建模，人体、服装、albedo、shading 被分别建模，并充分地集成在一起产生一个高质量高真实感的重建结果，并能同时对重建的人体运动进行编辑，如重光照 (relighting)、人体形状编辑 (human shape editing)、服装重定向 (cloth retargeting)、服装形状编辑 (cloth apperance editing) 等等。

Teaser

项目主页：http://www.liuyebin.com/MulayCap/MulayCap.html

行业新闻

MulayCap: Multi-layer Human Performance Capture Using A Monocular Video Camera