浙大三维视觉团队攻克3D动态人体视图合成难题
回想一下你曾经玩过的 3D 游戏:游戏场景可随鼠标前后左右任意角度移动,玩家也可获得完全沉浸式的体验感受。
与此相同,假如未来 3D 观球方式普及,你也可以用手指移动任意角度,清楚地观看球赛中的扣篮和进球。
近日,浙江大学计算机辅助设计与图形学国家重点实验室的 “百人计划” 研究员、博士生导师周晓巍团队的论文,发表在计算机视觉顶会 CVPR 2021 上(IEEE Conference on Computer Vision and Pattern Recognition)。其中,周晓巍担任通讯作者,其学生彭思达为第一作者。
研究主要成果是一款名为 Neural Body 的新型视图合成技术的实现与发展。综合来看,Neural Body 在使用时,其选取的输入视点较少,还能更好地捕捉人物的动作,高效完成 3D 立体呈像。
这也意味着,将来的某一天,使用更少的摄影机,就可为全球各地观众带来一场亲临现场般的沉浸式观球体验。
少量角度拍摄,合成 360° 人体 3D 视图
传统的 3D 视图合成技术一般比较依赖于 3D 重建,这种技术主要有两大限制 :一个是重建质量有限,导致视觉真实感较差;另一个是没办法处理一些反光表面或者透明区域。
随着技术的推进,近年来基于神经网络实现三维场景表示与渲染的技术逐步发展,以谷歌的 2D 图像转 3D 模型 NeRF 为代表,它能较好地解决上述问题中的一部分。
图 | Neural Body 的基本概念,Neural Body 可以基于神经网络从一组隐编码生成人体在不同帧的三维影像(来源:受访者)
但是,周晓巍表示:“我们意识到,还有一个问题没有解决,那就是动态场景的视图合成。” 他说,当场景是随着时间而变化时,我们需要能够建模这种变化,NeRF 作为针对静态场景的技术对此束手无策,而这正是该团队研发 Neural Body 技术的初衷。
如果沿用静态视图合成的思路,一种方法是采用多视点的拍摄,当输入的图像角度足够多,理论上就能实现每一时刻单独去学习 3D 表示及渲染图像的目的。
但这需要大量相机对同一个人进行不同视角的拍摄,成本非常之高。“所以我们想的是怎样才能降低采集的成本,用非常稀疏的视角输入,比如三四个 RGB 相机就可以完成视图采集。今天,Neural Body 真的做到了。”周晓巍说。
概括来说,Neural Body 的贡献主要有以下几点:
- 能从稀疏的多视图视频合成动态人体的新视图,无需预先扫描人体模板;
- 提出了一种新的动态人体隐式表示,使研究人员能更有效地利用视频中所有帧的信息来学习人体的 3D 表示;
- 极大地提升了动态人体 3D 视图合成的效果。
渲染出各个视角的图像
上文提到的 NeRF 是基于一个叫辐射场(radiance field)的 3D 表示方式来完成视图合成。那么,什么是辐射场?
“你可以把辐射场理解成 3D 空间内每个点所发出光线的集合,记录了每个点的光线颜色及密度,基于辐射场就可以渲染出各个视角的图像。” 周晓巍表示。
对静态视图合成技术来说如 NeRF,当处理动态场景的时候,它需要针对不同时刻去学习不同的辐射场,而这些辐射场之间没有关联,因此学习效率很低。
Neural Body 与众不同的地方就在于,其假设不同时刻的辐射场都由同一组隐编码来生成,这一组隐编码附着在人体模型上,会随着人体运动。这样就可建立起不同时刻辐射场之间的联系,从而充分利用视频中所有时刻的信息,来学习人体的 3D 表示。
针对此方法,他们创建了一个多视图数据集来进行评估,该数据集使用一个有 21 个同步摄像头的多摄像头系统,共捕获 9 个动态人体视频,并选择 4 个均匀分布的摄像机进行训练,使用剩余的摄像机进行测试。
所有序列的长度都在 60 到 300 帧之间。结果表明,当人物进行复杂的运动,包括旋转、太极、手臂摆动、跳舞、拳击和踢腿等动作时,都能实现较好的重建与视图合成。
通过对比可以发现,本次方法相比其他方法,能呈现出更多人物外观细节,特别是对于穿着宽松服装的实验者来说,Neural Body 可以精确地进行渲染,以下图女士为例,使用其他方法出来的效果图,其衣服和身体紧贴,而 Neural Body 出来的效果中,可明显看出衣服的轮廓。
未来有望大规模应用于电商直播和 VR 看房
随着 Neural Body 的不断迭代,周晓巍下一步会逐步优化技术。目前有几个地方亟待优化:
- 改进计算效率;
- 生成可驱动的人体模型;
- 实现重光照。
Neural Body 目前依赖于对人体动作的捕捉。在运动捕捉稳定性上,该团队近两年正在逐步提高。随着算法的不断迭代、以及硬件设备的改善,当 Neural Body 效率能够稳步提升到一个更高的层次后,实现商用将会指日可待。
对于未来的应用场景,周晓巍表示:“随着 3D 技术的发展,VR 产业正在迅速崛起。无论是对物品进行 360° 展示,还是体育比赛的自由视点观赛,或者说全息的沉浸式远程会议,都是 VR 将来的重要应用领域。而这些应用背后的关键技术正是视图合成。”
周晓巍认为,视图合成技术在短期内可能很快实现大规模应用领域为:电商领域、场景浏览如 VR 看房等。
从长远看,该技术的最大刚需是在“人人交互”上,如今天我们已经习以为常的语音连线和视频连线。可以想象,当 Neural Body 的技术更成熟后,开会就能以 3D 形式呈现,从而实现真正的远程零距离交流,就像坐在一起一样自然真实。
目前,该研究的相关代码已经在 GitHub 上开源,主要使用 Python 编程,少量代码使用 Shell 编程。该工作的合作者,还包括浙江大学的鲍虎军教授、张远青、帅青,香港中文大学的徐英豪,以及康奈尔大学的王倩倩。
坚定学术生涯,选择回国发展
周晓巍属于实打实的“学习他人,为我所用”,2008 年其本科毕业于浙江大学,2013 年获得香港科技大学博士学位,随后三年间,他在美国宾夕法尼亚大学 GRASP 机器人实验室从事博士后研究。
正是这三年的博后研究,才使他坚定了 3D 视觉的研究方向。随后,他带着热忱与梦想踏上了回国归途。
谈及回国原因,周晓巍觉得这是一个正确的选择,他看好国内的发展,认为国内相比国外在某些方面具有优势。
他说:“我个人感触比较大的是产学研的合作机会比较多。比如目前我们跟商汤、华为都有非常紧密的合作,通过这种产学研的结合,我们的研究成果既有对学术前沿的探索,又能根据实际需求去攻克一些技术瓶颈。与此同时,国内的 3D 视觉领域还处于新兴发展阶段,也需要我们回来一起把这个方向给发展壮大起来,不断缩短与国际领先水平之间的差距。”
而之所以没有选择进入业界,是因为他更喜欢学校的氛围。他觉得,从研究方向和周期上来说,在学校的自由度会大一些。
另一方面,在学校有机会接触到一些新萌发的想法和智慧 —— 这里往往聚集着一些最聪明,最有才华和想法的学生。通过和他们一起讨论与合作,可以把好的想法快速落地变成现实。
并且,浙大本身也有很多优秀学生。比如,本次研究中的彭思达虽然才 25 岁,但实战经验已经相对颇丰。
他目前是浙江大学 CAD&CG 国家重点实验室三年级博士研究生,研究三维重建与物体位姿检测。2019 年,彭思达参加中国研究生人工智能创新大赛,在一千多支参赛队伍中获得第一名。2020 年曾获评 CCF-CV 学术新锐奖,该奖项每年由中国计算机协会视觉专委会在前三年的领域内博士中评选三人,相关论文开源到 GitHub 后,已获得 Star 数 2000 余次。
谈及研究过程,彭思达告诉 DeepTech:“一开始周老师让我做这个研究时,我几乎没有头绪。当时他给我看了 NeRF 和 DynamicFusion(此前动态三维重建的一个经典工作)这两篇文章。仔细研究后,我发现可以利用统计人体模型来整合时序信息,于是就有了 Neural Body 这篇文章。在此之前,我对统计人体模型一点了解都没有,多亏了组里帅青同学的帮助。全部做下来,最大的感触是:个人的知识总是有限的,要利用好实验室的资源,才能做出扎实的工作。”