深度干货VR动捕技术江湖!解放双手的技术革命
智东西(公众号:zhidxcom)
文 | 晓寒
如果说HTC Vive、索尼PSVR这样的产品给我们打开了迈入虚拟世界的一扇门的话,那么它们装配的控制手柄则是我们与这个虚拟世界进行交互的双手。但拿着手柄与世界的交互终究会破坏这种置身于另一个世界的沉浸感,无时无刻不在提醒着我们这是一个虚拟世界。为了解决这个问题,一些公司将广泛应用在影视行业里的动作捕捉技术带到来VR领域,让用户能够扔掉手柄,通过真实的触摸、抓起、走动以及各种动作来与虚拟世界进行交互。
这种统称为“动作捕捉”的交互技术成为VR产品体验提升、产品大量普及极为关键的一环,无论是PC主机类VR设备,还是被认为有更大市场空间的移动VR市场,比如VR一体机或配合手机用的VR盒子,这类产品正是因为缺少低成本易用的交互技术方案,让现在移动VR的交互体验还显得那么糟糕;现在已经有一批创业公司在进行这方面的创业探索,而且现在竞争已经非常白热化,可以说,谁先走在前列,谁就能占领下一波VR发展的高地。
与大多数VR创业者集中在头显、游戏以及全景视频领域不同,针对VR的动作捕捉细分领域并不那么拥挤,但竞争同样激烈,智东西今天就全面解读一下目前动作捕捉技术应用于VR领域的两大技术路径、其中的主要创业公司玩家以及其发展前景和面临的困境,为你描绘出一副全面明了的VR动捕创业江湖图景。
动作捕捉:实现全沉浸的第一步
大家都知道目前的VR设备只能够做到部分沉浸,即当你戴上VR头显之后能够感觉自己进入到了一个新的虚拟世界,但是在这个世界里的你却仅剩下了一双手以及半个胳膊,在你低头往下看的时候是看不到自己身体的。此外,虽然HTC Vive类的设备也会给你提供一个控制手柄来让你与虚拟世界进行一定的交互,但是当你把攥着Vive手柄的双手伸向一个物体的时候,却发现还需要按下侧键才能将其“拿”起来,这与真实世界里面的拿的概念可大不相同。上述两点正是目前VR设备无法实现更高沉浸感的原因。
而体感交互技术则可以解决这两个问题。当有了体感交互技术之后,我们的整个身体都能够被映射到虚拟世界之中,现实中的你做出什么样的动作,虚拟世界中的你也会做出同样的动作。而在与虚拟世界的交互方面,我们也不再依赖于Vive控制器或是其他的手柄,只需要跟现实一样即可,例如伸出手拿起一个虚拟物品,亦或是用脚去踹开一个准备把你吃掉的虚拟僵尸。而这则正是一种更高级别的沉浸体验。
VR动作捕捉的两种主流技术路径:光学方案与惯性方案
而想要在VR交互中实现体感交互的体验,我们需要解决一个关键问题——人体动作捕捉。动作捕捉技术在电影中的应用由来已久,像是《加勒比海盗》《生化危机》等好莱坞大片中的科幻人物,其外表都是由电脑特效合成而来,而这些科幻人物在荧幕上的一举一动则完全来自于真实演员的动作。
动作捕捉技术的本质其就是把现实中人物的动作复制到虚拟人物身上。目前,存在着两种主流动作捕捉方案:
一、通过摄像机进行的动作捕捉技术,因为摄像机运用的是光学技术,所以摄像机动作捕捉方案也被称为光学动捕方案。
二、IMU(Inertial measurement unit)惯性传感器单元进行的动作捕捉,通常被称为惯性动捕方案。
不管是光学动捕方案还是惯性动捕方案,其核心原理都是对人体关键运动部位动作的测量。光学方案是通过计算机视觉技术来分析摄像机抓取的人体关键运动部位的动作,而惯性方案则直接通过IMU惯性传感器单元对人体关键运动部位的动作进行测量。
由于光学动捕方案容易被物体遮挡或是受到光照条件的影响,所以应用在影视领域的光学动捕系统一般都会在一个偌大的摄影棚里架设上一圈高性能摄像机,并让动作演员穿上拥有许多光标点的动作捕捉服才能工作。正式由于对场地的要求以及需要大量的高性能摄像机,这类方案的整体价格非常之高,往往都在数百万元之间,所以基本也只有财大气粗的电影剧组有钱使用。
而惯性动捕技术的核心部件IMU惯性单元其实就是整合了陀螺仪、加速计以及磁力计的传感器模块,其一个模块的价格甚至可以低至十几块钱,并且比光学动捕方案拥有更高的帧速率也不受场地与光照条件的限制,但是惯性动捕方案也有一个弊端,就是通过各种传感器的数据测算出的动作数据会有一些误差,而随着使用时间增长,这些误差也会被持续放大,而影视级光学方案则不存在这个问题。
虽然影视级的动捕方案拥有绝佳的精准与效果,但是其诸多的环境要求以及高昂的售价就决定了其难以在普通消费者市场进行推广。而微软在2010年则为其Xbox游戏机推出了一款名为Kinect的体感摄像头,允许站在其前面的玩家通过简单动作进行游戏。这种摄像头能够感知画面的深度(距离)信息,并且一般拥有两个或以上的摄像头,因此一般被称为深度摄像头或者双目摄像头。深度摄像头能够识别环境的距离信息,再通过相应的算法就能够识别出人类的简单动作或者是手势。
在微软将这一技术推向消费市场之后,深度摄像头这类低水平光学动捕技术逐渐推广开来,几乎所有手势识别、动作识别或是体感交互的技术都是基于这种原理,本文所有提及的所有应用于VR领域的光学动捕技术也都是指基于深度摄像头的光学动捕技术而应用与影视领域的专业光学动捕。
VR动捕技术江湖的核心玩家
传统的动作捕捉技术主要应用在电影、模拟仿真、训练等专业领域,而当VR行业开始兴起之后,一些人看到了动作捕捉技术与VR头显结合的美好前景,开始针对VR行业推出相应的解决方案,并因此涌现出了一批希望将动作捕捉(体感交互)引入VR领域的公司。
光学方案领域:
1.微软——第一次让消费者了解到体感交互的意义。
微软在2010年11月为Xbox游戏机推出了名为Kinect的体感交互外设,让玩家不再需要手柄,仅仅是站在电视机前通过自己的身体动作即可进行游戏,正式这款设备让全球玩家们首次认识到了体感交互的魅力,直到现在,一提起体感交互,微软Kinect都是一个绕不开的名字,从某种程度上说,微软几乎就是消费级体感交互设备的鼻祖。
而在VR技术兴起之后,微软又研发了AR眼镜Hololens。由于搭载有深度摄像头,用户可以通过手势对其进行操作。
2.英特尔——致力于让所有设备都能用上体感交互的大哥。
英特尔在2014年正式推出了RealSense技术方案,该方案包括一个深度摄像头模块以及配套的软件、SDK等内容,并希望让电脑、手机、无人机、机器人、汽车等所有设备都用上体感交互技术。
英特尔在这之后一直努力想要激活整个信息产业的力量去推广RealSense方案,并逐渐出现在了电脑、谷歌Project Tango手机上面。就在刚刚过去的IDF2016上,英特尔也推出了一款名为Alloy的VR头显,在这个头显上增加RealSense模块之后,Alloy的用户能够实现无需任何外设的前提下实现空间定位以及手势交互的功能。
3.Leap Motion——努力想往VR靠的硅谷新秀。
Leap Motion成立于2012年,由前美国航空航天局技术人员大卫霍兹以及硅谷连续创业者巴克沃德两人联合发起,在成立之后就迅速获得了华纳集团的天使投资,并被《连线杂志》评为“有史以来我们测试过的最棒的手势交互系统”,随后又相继获得美国多家知名风投机构的A/B轮超过4000万美元的投资,一时间声名大噪。
Leap Motion的产品最开始主要面向PC领域,用户将PC与Leap Motion的摄像模块连接之后,就可以在这个模块上面通过手势进行操了。但是由于体感交互对于PC的用处暂时不大,Leap Motion又将目光转向了VR领域,希望能够旗下的产品整合进VR头显上面,目前暴风旗下VR盒子暴风魔境5Plus已经采用了这一模块。
4.uSens淩感——中国版Leap Motion?
uSens淩感于2013年中旬成立于硅谷,在完成初期的算法与硬件开发之后,又相继在杭州、北京、深圳三地设立了分部,并先后获得了由IDG领投的550万美元Pre-A以及由复星昆仲领投的2000万美元A轮融资,在光学方案新秀里面,其融资额直逼Leap Motion。
uSense于近期京刚刚发布了旗下名为“Fingo”的体感交互方案,包括三款硬件以及配套的SDK,能够实现手势识别、位置追踪以及AR/VR场景切换三大功能。
5.IMG英梅吉——国内唯一一家用单目摄像头做动作识别的公司。
IMG英梅吉成立于2013年,最开始在从事基于英特尔RealSense方案的AR试眼镜方案研发,在VR兴起之后又转向了基于VR产品的手势识别领域。与其他所有光学方案的动作捕捉技术都需要使用双目摄像头不同,英梅吉的Hand CV方案仅需要使用普通的手机摄像头即可完成手势动作识别功能。
因为不需要任何的额外设备,这种基于单目摄像头就能够实现的手势识别技术非常容易应用在基于手机的移动VR盒子上面。据悉,英梅吉目前已经与优酷土豆、三目VR、VR热播等内容平台达成了合作意向。
惯性方案:
1.Xsens——惯性动捕领域的领先厂商。
荷兰Xsens成立于2000年,主要产品为MEMS传感器以及基于传感器的运动捕捉方案,其最早也做光学动捕方案,但随后又转型到了惯性动捕领域。目前是全球惯性动捕领域的领军企业。该公司于2014年被半导体工业先驱Fairchild以6000万美金价格收购。
2.Noitom诺亦腾——中国版的Xsens。
自2012年成立之初,诺亦腾就致力于研发基于MEMS惯性传感器的动作捕捉技术。其早期产品主要应用于体育训练以及影视动作捕捉领域,知名美剧《权力的游戏》就曾使用过该公司的技术。在VR兴起之后,诺亦腾又开始将其动作捕捉技术与VR产业相结合,并推出了一套全沉浸的VR解决方案——Project Alice。
诺亦腾于2014年8月获得A轮数百万美元的融资,并与2015年11月再次获得由奥飞领投的2000万美元B轮融资,目前有面向高尔夫训练的mySwing Pro、面向高级动作捕捉领域的Perception Legacy、面向中低端动捕的Perception Neuron以及全沉浸式VR方案Project Alice。
3.G-wearables国承万通——从可穿戴设备转型到VR解决方案。
G-wearables国承万通成立于2013年,该公司最开始在从事可穿戴设备的研发,于2015年转型到了VR领域,并推出了一套名为STEP VR的全沉浸式解决方案,该方案包括头显、空间定位、背包电脑以及基于MEMS惯性传感器的动作捕捉方案。不过据其官网介绍,STEP VR的动作捕捉方案分为两套,其对身体的动作捕捉是基于MEMS惯性传感器的方案,而对手部动作的捕捉则采用了光学方案。
4.幻境——输入输出都关注的公司。
广州幻境科技成立于2015年,成立之初即获得了由广州动捕恒准投资的数百万元天使轮融资。其团队核心成员自2009年开始研究基于MEMS传感器的交互手套(数据手套)方案,并希望通过该方案来帮助聋哑人群体发出“声音”。随后又将其技术应用到VR领域,并将手部动作识别的方案扩展到了全身动作识别层面。
除了关注人机交互的输入之外,幻境还关注输出方面。幻境在其动捕方案内还配备有一个力反馈背心,在将人体的动作输入到虚拟世界的同时还能够让佩戴者获得相应的输出感受。与此同时,幻境也在研发通过温度、电压等因素进行反馈的相关技术。幻境目前已经与VR线下体验店
5.布塔——号称校准最快的惯性动捕方案。
南京布塔成立于2015年,由三名游戏开发领域的老兵发起成立,最开始在为军队提供动作捕捉技术,随后开始研发面向普通消费者的动作捕捉产品GUNGNIR。该公司称其产品仅需用户摆出一个动作,耗费零点几秒的时间即可完成设备的校准步骤。布塔的产品目前已经与南京的VR线下体验店方案提供商Nibiru睿悦达成了合作协议。
VR体感交互的市场展望
在分析了总结两种主流的动作捕捉技术以及相应的公司之外,智东西认为动作捕捉技术在VR上的应用上会呈现出这样一种格局:光学方案会占据大部分普通市场,而惯性方案则会在线下体验店与专业用户领域胜出。
光学动捕方案:靠轻便抢占大部分普通市场
大部分的VR用户都是轻度用户,其使用场景基本就是观看全景视频或是玩一些轻量级的VR游戏,所以这类用户对于VR人机交互的诉求基本都是点击、拿起、触碰、挥舞、拖拽等简单动作。而光学动捕方案又有一个得天独厚的优势就是无需用户穿戴任何设备。
与此同时,很多原厂头显如英特尔Alloy、微软Hololens、暴风魔镜5 Plus、uSense的Fingo一体机本身就都带有深度摄像头与手势识别功能,用户在使用这些VR头显进入虚拟世界的时候直接举起双手即可操作,所以基于深度摄像头的光学动捕方案拥有了使用的便利性、设备的易获得性等优势,更易于在大众市场进行普及推广。
而从目前软硬件厂商的市场行为上来看,我们也能够看出一些端倪。一方面,如英特尔Alloy、微软Hololens、暴风魔镜5 Plus等产品都已经装备了深度摄像头并且拥有了手势识别功能,而像是从事VR视频内容制作与分发的VR热播、三目VR等公司也正在与英梅吉进行合作,将英梅吉基于单目摄像头的手势识别方案Hand CV引入到自己的APP之中,从而让用户能够在使用手机盒子类的VR产品时无需摘下眼镜,也能够完成快进、暂停、推出等操作。
最后,光学方案还有一个附加优势,就是通过其深度摄像头还能实现空间定位方案,例如英特尔在IDF2016上展出的MR设备Alloy,在不需要任何定位系统的前提下,Alloy的佩戴者便可在虚拟世界中实现空间行走的体验。
“目前来看,针对C端以及轻B端的光学方案更适合我们,所以我们选择了与英梅吉进行合作,但是像诺亦腾之类的惯性传感器方案在将来一定也会用的到。”在问及如何看待两种不同的动捕技术以及交互手段时,VR热播CEO 张庆浩这样说道。
uSens CTO时驰则表示,“从用户可接受形态上来说,光学方案更具优势,下一代面向普通消费者的动捕技术肯定是光学方案。” 在时驰看来,普通用户的使用场景多在室内,且光学方案无需穿戴,所以绝大多数用户会选择光学动捕产品,并且像是英特尔的Alloy、微软的Hololens等VR/AR产品也都已经选择了光学方案。
惯性方案:靠专业与全面占据专业市场
在大部分普通用户多使用轻量级VR应用的同时,也仍然有一部分专业与重度用户的存在,他们希望将一个完整的自己带入到虚拟世界中去,希望可以在其中自由走动、拿起物品、用脚踹僵尸或者是用拳头跟敌人进行搏斗等操作,而这些动作捕捉技术对于VR头显上自带的深度摄像头,或者是在外部架设一两个Kinect是无法完成的,必须请来动辄几十乃至数百万影视级光学动作捕捉方案才能实现,而将这种天价设备拿来玩游戏显然是不现实的。
这个时候,贵则数万,低则千元的惯性方案就能够派上用场了,用户在身体的重要运动部位绑上传感器模块,摆出几个标准姿势即可实现在虚拟世界里拳打敌人、脚踹僵尸的全沉浸式体验了。正是由于需要穿戴传感器并进行动作标定,所以业内普遍认为这类设备多会被VR线下体验店、重度游戏玩家或行业用户所采用。
此外,惯性方案也有一个附加优势,即因为惯性方案的用户必须进行穿戴,所以还可以将力反馈、温度反馈等输出效果融合进方案之中,如广州幻境的全套惯性动捕方案中就包含一个力反馈背心,能够通过振动让用户获得反馈。
对此,VR游戏开发商魔视互动CEO王科表示,“自然输入一定是人机交互的未来,光学方案适用于轻度游戏的体验,重度体验一定是将自然输入与力反馈等输出方式融合起来的方案。”
动作捕捉技术的隐忧:没有普及一切都是白搭
虽然两种动作捕捉方案都能够丰富VR的交互手段,带来更加的沉浸感,但是动作捕捉技术在VR领域的普及也并非一帆风顺。
移动VR眼镜厂商焰火工坊CEO娄池表示,由于可通过动作捕捉技术的VR内容相当匮乏,焰火工坊目前并不考虑在自己的极幕头显上增加深度摄像头以实现动作捕捉功能。“消费者购买拥有某种产品的原因并不是因为技术本身,而是基于这项技术的优质内容。”娄池如是说。
反过来,在拥有动作捕捉技术的VR头显或是惯性动捕设备并没有大量出货的时候,内容厂商也不会贸然投入资源为其开发相应的内容,而内容的缺失又进一步阻碍了消费者对于硬件产品的购买欲望。这种先有鸡还是先有蛋的问题在技术之外,成了阻碍动作捕捉技术在VR领域进行应用的一个关键性问题。
而这一问题的解法更多的还得依靠大公司以及线下体验店去推广。一方面,像是英特尔、微软这类巨头公司有更多的可能推出一款受到市场追捧的产品从而让动作捕捉技术走进千家万户,另一方面,巨头们也有制定VR动作捕捉技术行业标准的欲望与义务,当标准统一起来的时候,各家的产品定位才能够明确,内容厂商们也才能够以此去开发内容。
此外,线下体验店是让消费者接触并了解VR技术以及动作捕捉技术的最佳途径,丰富的设备、宽阔的体验空间与定制开发的VR游戏,会让消费者最大程度地了解到动作捕捉技术与VR技术相结合会带来怎样的体验,而这种体验反过来又会促进消费者购买相应的设备。
结语:目前正是各家公司的冲刺阶段
在VR兴起之后,我们看到了诸多创业者涌入其中,虽然绝大部分的创业者都集中在VR头显、游戏/应用以VR视频领域,但是也有一小撮团队选择聚焦定位、动作捕捉、力反馈等辅助技术领域。虽然这些领域的玩家比头显、游戏/应用以及VR视频领域要少的多,但是其竞争的激烈状况也并没有因为玩家较小而减弱丝毫。
其中, 诺亦腾与淩感是国内创业公司在惯性传感器动捕方案与光学动捕方案两个路径上的典型代表,双双获得了超过2000万美元的融资,而其他公司也不甘示弱,相继出现了英梅吉、幻境、国承万通、布塔等创业公司,在硬件、算法、识别准确度、操作便捷性等多个方面与其展开了激烈的竞争,并获得了一定的市场空间。
虽然动作捕捉技术与VR的结合看起来前景一片大好,但是其发展与普及的过程也并不会一帆风顺,还得依赖英特尔、微软、索尼、HTC这类大公司与成千上万个线下体验店的带动作用才能真正帮助用户实现一个更好的VR交互。
不出一年,哪种VR交互动作捕捉技术方案最终会在大众市场应用中胜出,哪家公司会成为赢家,最大市场占有者,市场都将给出答案,现在正是各路英豪冲刺的阶段。