「深度」为什么总说VR定位动捕技术难,它究竟难在哪里?

Xsens动作捕捉 2022-10-16 19684

雷锋网按:最近有文章解析了因为追星仪和陀螺仪的出错,加上科学家写反喷气代码导致了造成了价值19亿的一台名为“瞳”的X射线太空望远镜被玩坏了。实际上,追星仪和陀螺仪实现的类似于VR中的光学定位及姿态捕捉。一直以来,大家都在说VR定位动捕技术难,那到底难在哪里呢?作者系VR行业从业者,本文将会探讨下这个问题。


「深度」为什么总说VR定位动捕技术难,它究竟难在哪里?  第1张

图片来自火星网


我相信,“瞳”真实的毁灭原因一定比文章中描述的要复杂很多,我写这篇文章也不是为了跟大家探讨“瞳”,而是想跟大家聊一下由此事件引发的一些思考。


 “瞳”和VR中的光学定位及姿态捕捉


瞳的追星仪,在文章中是这样描述的“追星仪是卫星上一个判断自己方位的仪器......总的来说就是一个小相机,通过跟踪拍摄背景里一些亮的星星的位置... 用来判断自己所指向的方位......”。


「深度」为什么总说VR定位动捕技术难,它究竟难在哪里?  第2张


追星仪的定位技术大概是目标物体(即瞳本身)拍摄背景中的星星,根据得到的图像及所识别出的星星的位置来获取自身的方位信息。而瞳的陀螺仪则用来侦测瞳自身的空间姿态。所以,追星仪和陀螺仪实际上实现的类似于VR中的光学定位及姿态捕捉。


1. 光学定位技术


VR中的光学定位技术是利用摄像机拍摄目标物体,根据得到的目标图像及摄像机自身的位置信息推算出目标物体的位置及姿态等信息。根据标记点发光技术不同,光学定位技术还分为主动式和被动式两种。


具体实现流程:定位物体上布满标记点,标记点可以自主发射光信号或者反射定位系统发射来的点信号,使得摄像头拍摄的图像中标记点与周围环境可以明显区分。摄像机捕捉到目标物上标记点后,将多台摄像机从不同角度采集到的图像传输到计算机中,再通过视觉算法过滤掉无用的信息,从而获得标记点的位置。该定位法需要多个 CCD 对目标进行跟踪定位,需要至少两幅以上的具有相同标记点的图像进行亚像素提取、匹配操作计算出目标物的空间位置。实现流程图如下:


「深度」为什么总说VR定位动捕技术难,它究竟难在哪里?  第3张

光学定位技术实现流程


目前,光学定位技术在国际上最受认可的是Optitrack。OptiTrack定位方案适用于游戏与动画制作,运动跟踪,力学分析,以及投影映射等多种应用方向,在VR行业有着非常大的影响力。


「深度」为什么总说VR定位动捕技术难,它究竟难在哪里?  第4张


2. 惯性动作捕捉


陀螺仪的工作原理是通过测量三维坐标系内陀螺转子的垂直轴与固定方向之间的夹角,并计算角速度,通过夹角和角速度来判别物体在三维空间的运动状态。


它的强项在于测量设备自身的旋转运动。陀螺仪用于姿态捕捉,集成了加速度计和磁力计后,共同应用在惯性动作捕捉系统


惯性动作捕捉系统需要在运动物体的重要节点佩戴集成加速度计,陀螺仪和磁力计等惯性传感器设备,传感器设备捕捉目标物体的运动数据,包括身体部位的姿态、方位等信息,再将这些数据通过数据传输设备传输到数据处理设备中,经过数据修正、处理后,最终建立起三维模型,并使得三维模型随着运动物体真正、自然地运动起来。


「深度」为什么总说VR定位动捕技术难,它究竟难在哪里?  第5张


 VR定位动捕技术到底难在哪里?


前文提到,“瞳”最终没有避免毁灭的命运,当然我们得说这次毁灭有一些人为的可避免的错误造成,但无法否认的事实是它耗费了人类价值19亿的资源。这也从侧面证实了定位及动捕技术难度之高。


当然,应用于VR行业中时,对于精度等的要求不会有“瞳”那么高,但为了能给使用者带来超强沉浸感体验,定位及动捕的精度、延迟、刷新率等也一定要达到非常高的水平。很多人知道2016年被称为VR的元年,但是又有多少人知道VR自1963年被提出至今耗费了多少科学家、工程师的心血?


读者可能会有疑问,大家一直在说VR定位动捕技术难,那到底难在哪里呢?接下来笔者就来谈谈VR定位动捕技术的难点。


1. 人体运动复杂性


由于在现实世界里面,“场景”是相对静止的,我们之所以看到眼前的东西在动,是因为我们头部、眼部、身体等在移动,使得眼前的“场景”形成了一个动画。而虚拟现实就是要模拟出现实世界的这种“动画”,也就是说在虚拟现实的设备中,画面要根据人的这些动作做出相应的调整才可以,而这些动作看似使用定位、陀螺仪等设备就可以解决,但其实则不然。


人体的动作可以看作是复杂且有一定规律的一系列动作组合而成,为了完成一个动作,每一个完整的动都可以分解为各个肢体的动作,各个肢体之间的动作既相互独立又相互限制。人体的各种动作是有多个自由度组成,其复杂性使得计算机追踪时存在着很多的困难和挑战。


这里给大家举个例子:


在一些大家很喜欢的搏斗或者射击游戏中,我们经常需要作出身体快速移动,头部快速转动,以及高速的转身、下蹲等动作,一方面这些动作会带来我们实现的变化,眼前所看到的画面也会跟随变化,且虚实情况也有区别;


另一方面,这些动作也必须会带来虚拟世界中的一些反馈,例如瞄准僵尸打出一颗子弹,则虚拟世界中的僵尸将受伤或者倒下。想要让使用者有真实的体验,那么追踪技术就必须可以已非常高的精度实现定位及动捕,否则就不能算是真正的虚拟现实了。


「深度」为什么总说VR定位动捕技术难,它究竟难在哪里?  第6张


2. 精度问题


定位及动作捕捉精度,对于VR设备非常的重要。如果定位及动作捕捉精度不够高,会严重影响VR体验效果,也失去了虚拟现实的本质。影响精度问题的因素包括遮挡、干扰以及算法自身的限制等。


  • 遮挡是各种定位及动捕系统最常见的工作失效原因之一。


例如光学定位系统中:当扫描光线被用户或物体遮挡时,空间点三维重构由于缺少必要的二维图像中的特征点间对应信息,容易导致定位跟踪失败。遮挡问题可以通过多视角光学系统来减轻,但这又造成了该系统又一大缺陷——价格过于昂贵。以Optitrack为例,Optitrack是国际上非常受认可的光学定位技术,如果有足够的摄像机,Optitrack定位及动捕技术可以很好地解决遮挡问题,具有非常高的精度。但是Optitrack摄像机的价格却让多添加几个摄像机变得不那么容易。


干扰包括外界电磁波干扰和自身设备间相互干扰。不管是光学定位还是激光定位,对外界的电磁波干扰都非常敏感,特别是当设备使用无线的方式通信时,如果存在同波段的电磁干扰,就会造成卡顿、失灵等现象,严重影响体验效果。


「深度」为什么总说VR定位动捕技术难,它究竟难在哪里?  第7张



惯性式动作捕捉系统采用MEMS三轴陀螺仪、三轴加速度计和三轴磁力计组成的惯性测量单元(IMU, Inertial Measurement Unit)来测量传感器的运动参数。而由IMU所测得的传感器运动参数有严重噪声干扰,MEMS 器件又存在明显的零偏和漂移, 使得惯性式动作捕捉系统无法长时间地对人体姿态进行精确的跟踪。


目前对于这个问题,G-Wearables的解决方案或许可以参考,其利用激光定位、反向动力学、惯性式动作捕捉相融合的算法来解决,从CES Asia展会上发布的STEPVR大盒子的体验来看,融合算法确实较好地解决了惯性式动捕的零偏和漂移问题,实现了1:1精准的动作还原。当然,这款产品的其他方面还需要消费者们自行去体验,与本文主题无关就不再赘述。


「深度」为什么总说VR定位动捕技术难,它究竟难在哪里?  第8张


3. 快速运动时的定位及动捕问题


快速运动时的定位及动捕一直是VR行业一大难题,甚至现在很多公司都放弃了快速运动时的定位及动捕,通过VR内容控制用户不要有快速的动作来避免这一问题,但这终究无法从根源上解决问题。


那为什么说,快速运动时的定位及动捕难呢?


  • 对于光学定位来说,难点在于运动模糊。


如果目标物体移动过于快速,则会出现运动模糊,即由于摄像设备和目标在曝光瞬间存在相对运动而形成的一种现象。这种现象很常见,我们平时用手机拍摄人物时,如果人物快速移动(例如奔跑、迅速起身等),则我们拍摄的图片即是模糊的,在VR的光学定位中是一样的。


光学定位系统利用多台摄像头拍摄目标物体,再利用所获得的图像信息及摄像头的位置信息来最终推算目标的空间位置,并基于这样的空间位置通过IK算法或者惯性传感器等来推算目标物体的动作。那么如果目标物体处于快速运动中,则摄像头拍摄的图像就存在模糊,信息不可用,也就无法实现精准的定位。因此基于光学定位的VR系统,在目标物体快速移动时会出现卡顿、跳点等现象。


「深度」为什么总说VR定位动捕技术难,它究竟难在哪里?  第9张


  • 对于激光定位技术来说,难点在于两束激光扫描存在时间间隔。


激光定位技术需要水平、垂直两个方向上的激光扇面对整个定位空间进行扫描,目标物体绑定的传感器必须接收到水平、垂直两个方向上的激光后方可进行定位,缺一不可。然而,这两个方向上的激光扇面是先后扫描,也就是存在时间差,如果目标物体迅速移动,则会出现水平和垂直两个方向上激光扫描到传感器时传感器所在的位置不一样,也就无法定位准确,进而影响动作捕捉。


 4. 大范围应用问题 


大范围应用问题一直困扰着VR行业,最重要的就是因为定位技术较难扩展。


  • 对于主动式、被动式这样的光学定位技术,大范围应用最大的拦路虎是成本。


光学定位系统对摄像头要求非常高,造价也就非常昂贵,几万甚至上十万。而要采用多视角光学系统就需要很多这样的摄像头,如果在这样的成本基础上再做大范围应用,那么就需要更多的摄像头,如下图。这样就会导致成本翻几倍,整个定位系统的成本高得难以承受。


「深度」为什么总说VR定位动捕技术难,它究竟难在哪里?  第10张


  • 对于激光定位,大范围应用最大的难题是扩展。


由于激光的扫射面积有限,因此,定位空间受到激光射程的限制,一般在5*5*2m范围左右。这就使得激光定位技术做大范围的应用难度非常高,使用受限。


为了解决这一问题就必须采取扩展方案,即将多个这样的5*5*2m连接在一起形成一个大范围的定位应用,如下图:


「深度」为什么总说VR定位动捕技术难,它究竟难在哪里?  第11张


图中蓝色模块代表激光发射基站,每个子定位区间有两个激光发射基站,扩展方案即是复制多个子定位区间。


可是这又涉及到全局定位这一难题,即需要将各个子空间的坐标系下的定位转换成全局坐标系下的定位。此外由于光塔过多会产生相互干扰,因此不可随意增加定位光塔的数量来扩展定位空间。目前国内采用激光定位技术的公司,G-Wearables算是其中一家,他们宣称在Step VR产品上对原有的激光定位技术做改进,其中就包括扩展,等该公司提供技术支持的体验店开业后,或许可以去验证一下扩展效果。


除此之外,定位及动作捕捉技术还存在延时、硬件限制等难题。


VR才刚刚起步,想要走得越远就必须面对并解决这些定位及动捕技术中存在的难题。当然,作为一位VR从业者,当然不能因为技术的艰难就要求使用者的宽容,我们只能努力研发更好的产品,让VR设备有一天可以像智能手机一样走进每一个用户的生活。


雷锋网注:本文由作者airuoxuan原创首发雷锋网,转载注明雷锋网并保留作者信息,不得删减文章。


文章推荐:


「深度」为什么总说VR定位动捕技术难,它究竟难在哪里?  第12张

作为VR利器,今天我们来谈谈惯性动捕


「深度」为什么总说VR定位动捕技术难,它究竟难在哪里?  第13张

The End