深度学习3D 人体姿态估计面临的问题和挑战
在 3D 人体姿态估计中,学者们致力于研究基于单目 RGB 视频的 3D 人体姿态估计,这是因为目前单目 RGB 摄像头应用广泛、价格低廉,在人们日常使用的手机、电脑均配备有摄像头,因此该技术有着广大的应用前景。但与此同时,该技术也具有更高的挑战性,以下主要介绍几个痛点问题及挑战:
(1)深度模糊问题:3D 人体姿态估计的本质为,从 2D 图像信息中恢复出 3D人体姿态,即从低维度信息中恢复出高维度信息。深度模糊是指,对于 2D 图像中的人体姿态,在 3D 空间中可能有多个姿态与之对应,这是一项极具挑战性的问题。单目 RGB 摄像头仅能获取到二维的 RGB 图像,需要算法依靠额外的信息来恢复出正确的 3D 人体姿态,例如在预测某一时刻人体姿态时,从该时刻的前后多帧图像中提取特征;或者在 2D 人体姿态中预测 3D 人体姿态时结合原始的 RGB 图像等。
(2)人体遮挡问题:人体遮挡是指,图像拍摄过程中人体的部分区域被遮挡,无法得到包含完整人体的图像,这对于单目 RGB 图像的人体姿态估计有着很大的影响。人体遮挡根据遮挡源可以分为人体自身的遮挡、其他物体对人体的遮挡、其他人体对人体的遮挡三大类。在拍摄场景和人物不做任何约束的情况下,难免会产生以上几种不同类型的人体遮挡现象。输入图像中无法包含完整的人体,这为 3D 人体关节点的检测带来很大的困难。首先,人体部分缺失会使得算法检测不到被遮挡的人体关节点,从而无法对被遮挡的关节点给出正确的预测。其次,由于人体的关节点之间是相互关联的,部分关节点的丢失同样会对未遮挡关节点的预测产生影响。因此,不仅要求算法能正确地检测出未遮挡关节点,同时也要求算法有能力提取更多有利特征,对被遮挡关节点做出合理的预测。
(3)数据集问题:人工智能的发展离不开数据集与算法的相辅相成,数据作为算法性能的基础,优质的数据集会使得模型的效果得到很大的提升。数据集方面有以下三点问题:第一点,无论是依靠人工手动标注还是动作捕捉设备,3D 人体姿态估计数据集的制作成本都很高,稀缺的数据集成为阻碍 3D 人体姿态估计发展的首要难题;第二点,由于当前 3D 人体姿态估计数据集的制作大多依靠动作捕捉设备,而动作捕捉设备仅能对于特定环境中在固定范围内活动的人体进行动作捕捉,因此室外场景下的 3D 人体姿态估计数据集相对匮乏,仅依靠目前的公开数据集训练出的网络模型,对于室外场景下、距离摄像机距离较远的人体动作检测较差;第三点,同样由于动作捕捉设备的限制,目前 3D 人体姿态估计数据集中大多都是肢体运动幅度不大、速度不快的日常行为动作,缺少对于舞蹈、体育运动、异常行为等肢体运动幅度大、速度快的动作录制。
(4)实用性问题:近些年,越来越多优秀的网络模型不断涌现,对于人体关节点的检测越来越精准,然而目前距离 3D 人体姿态估计技术的应用仍有很多的问题亟待解决,例如:针对实时性检测场景,模型检测的实时性较差;针对虚拟角色驱动场景,目前 3D 人体姿态估计的预测结果存在着运动失真现象;针对特殊动作检测场景,由于数据集制作的限制,模型往往达不到很好的检测效果。