光学定位与追踪技术

Xsens动作捕捉 2023-05-05 4749

光学定位与追踪技术  第1张

目前市面上常见的动作捕捉分为两类:惯性动作捕捉光学动作捕捉,光学动作捕捉又分为红外、激光、可见光与机器视觉等。


光学定位与追踪技术  第2张


先来了解一下惯性动捕,在具体提到惯性动作捕捉之前,大家比较熟悉的惯性技术应该更多在于我们的智能手机上。在惯性技术运用的初期,更多是在军事领域,后来随着这一技术的发展与普及,我们将其集成到了智能手机,与陀螺仪、加速度计等芯片共同完善电子设备的自然交互。


光学定位与追踪技术  第3张


而我们的惯性动作捕捉,实际上就是通过类似的集成芯片封装后绑定在身体重要的关节点,通过芯片捕捉到的关节点变换,进行算法分析从而转化为人体的动作数据。


国外目前惯性动作捕捉做的成熟度较高的应该当属荷兰的一家动作捕捉公司Xsens,他们从2000年就开始涉猎IMU和AHRS(惯性测量装置和自动航向基准系统,前者用于测量直线运动和旋转运动,后者功能用于校准地球的重力场和磁场方向),是当前世界上技术沉淀较深的公司。


光学定位与追踪技术  第4张


而国内市场的话,北京诺亦腾以MENS形式(芯片形式,传感器都以芯片形式存在)开发的高精度动作捕捉产品,获得了国际市场的认可。


光学定位与追踪技术  第5张


下图就是一个标准IMU常用的传感器集合,同时该图也呈现了我们常说的自由度(DOF)是个什么样的概念:


光学定位与追踪技术  第6张


接着说光捕,光学捕捉相比惯性捕捉来说特点还是比较明显的。就是精度,目前主流的光捕技术基本可以做到毫米级的精度。但是它的设备较为复杂,搭建设备需要一定的成本,例如空间必须足够大。其次它在身上绑定的marker点容易被身体遮挡导致定位丢失,目前的解决方式是增加摄像机的数量,这将极大地增大成本,基本上不适用于个人开发者或者比较小的团队。常见的光捕技术又被分为红外、激光、可见光和机器视觉等,这里将对主流的光学捕捉系统进行一个对比分析。


红外光定位:


光学定位与追踪技术  第7张


顾名思义,红外动捕是基于红外光反射来进行捕捉的技术。这种技术的基本原理就是在一定的空间内使用若干红外摄像机,对该空间进行覆盖拍摄,而被定位的物体上则使用反光材料制作的小球标记重要节点,也就是我们常见的演员穿的动捕服。


光学定位与追踪技术  第8张


通过摄像机发出红外光线,并且在红外光线在空间中反射后捕捉它们,便能利用算法进行计算这些点在空间中的相对位置变化。这种定位技术的优点是十分显著的——提供了比较高的定位精度(10~20mm内,视设备性能而定)和比较低的延迟率(10~40ms内,视设备性能而定)。但是与此同时,这种技术受限于场地的布置,因此无法做到便携式的使用,另一方面,较多的外部设备导致了成本的增加。


光学定位与追踪技术  第9张


虚拟现实头盔Oculus Rift使用的就是红外光学定位技术,只不过稍有区别:它是直接通过头显发射出红外光,由于接收器上布置了滤波片,因此仅能更精确地捕捉到自家设备发出的红外光线。


光学定位与追踪技术  第10张


这里需要额外普及一个概念:主动式光学捕捉和被动式光学捕捉


其实通过上面的两个案例大家应该心里也可以有个雏形,主动式光学捕捉是利用自发光的定位装置,来传达空间位置给相机模组,被动式的光捕需要相机来打出光线,并且捕捉光线在特殊材料下的反射。很明显,主动式光捕的优点就是光点的信号更稳定,并且由于主动式光捕的光点可以频闪,因此理论上相机模组是可以识别出不同的光点的,这样有利于增大精度。Oculus最新发布的Quest设备,就是利用头显上的相机模块,识别手柄的红外信号,是效果和体验都非常优秀的Inside-Out主动式光捕。


光学定位与追踪技术  第11张


激光定位:


说到激光定位,大家肯定能想起HTC Vive的Lighthouse,也就是我们俗称为“光塔”的东西。光塔会在空间中不断发射垂直和水平扫射的激光束,而场景中被检测的物体会安装多个激光感应接收器,通过计算激光束投射在物体上的角度差,就能得到物体的三维坐标。


光学定位与追踪技术  第12张


而物体在空间中的移动会让坐标数据产生实时变化,从而完成动作捕捉信息的获取。以Vive为例,Lighthouse每秒产生大约六次激光束与设备进行交互并获取位置信息。激光定位相比其他定位技术成本较低,并且精度较高,不容易受到遮挡(基站数量较少,但是高精度动作捕捉依然需要较多的基站以便覆盖死角),也不需要特别复杂的数据运算,因此能做到比较强的实时度。


可见光定位:


这种定位方式类似于红外,但是摄像头不需要发射红外光,而是直接在追踪物体上安装不同颜色的发光设备


光学定位与追踪技术  第13张


摄像头可以捕捉到这些颜色的光从而追踪到不同的物体,获取它们的位置信息。索尼的PSVR头盔上的蓝光就是这样的,以及左右手柄不同颜色的光,都是为了追踪而设计的。


这种定位技术的成本和实现难度较低,但是其灵敏度和稳定性都不如前面的两种光捕技术。并且,这种方案遮挡性和受环境的影响都比较严重,只要场景中有相似颜色的光线就会导致定位错乱。


同时依旧是那个老问题,摄像头的FOV(视场角,镜头可以拍摄到的最大视角,人的双眼横向视场角大概是110~120度左右,纵向是90度左右。)有限,因此捕捉场地也会受到限制。


计算机视觉动捕:


不同于上面其他捕捉的方式,计算机视觉是通过高精度的相机从不同角度对运动的目标进行拍摄。当拍摄的轨迹被相机获取之后,程序会对这些运动帧进行处理和分析,并最终在电脑中还原出追踪目标的轨迹信息。例如Leap Motion和Hololens以及Intel Reasense,还有国内的微动等利用的就是这样的技术:


光学定位与追踪技术  第14张


设备包含了多个摄像头,通过摄像头对手部动作进行捕获和模型还原。并且识别出对应的手势轨迹,从而实现我们所看到的体感交互。


这种交互方式和上述几种方式最大的区别就是不需要任何的穿戴设备,约束性很小,并且手势动作是自然交互中最接近真实世界的一种。但同时这种方式也是受到环境干扰最厉害的一种,任何来自于光线、背景、遮挡的变量都可能对捕捉效果产生较大的影响,并且由于当前算法还不够精确,在比较细微的交互上还无法实现百分百的识别(例如双手手指较为复杂的交叉动作)。


光学定位与追踪技术  第15张


就上述这些技术而言,目前动作捕捉精度和方式都各有优缺点,很明显惯性捕捉和计算机视觉等的便携性和成本(不需要固定场地,不需要严格的环境布局)都有较高的竞争力,而类似红外或者激光的捕捉方式可以有更高的实时度以及准确的空间位置(惯性的空间位置依赖算法,存在一定的累计误差,这种误差来源于多方面条件,不容易避免)。


事实上现今的动作捕捉技术很多都是把惯性捕捉和光学捕捉混合使用,例如权力的游戏用光捕+绿幕做龙的特效,用惯补做大场面背景人物的动作捕捉;《金刚狼3》用惯性捕捉来做电影预演等等,两种技术共同服务于多个领域的的不同需求。

The End