对话商汤科技徐立:解读单目实时动捕技术SenePoe
智东西(公众号:zhidxcom)
文 | Lina
在上周结束的英伟达2017 GTC(GPU技术大会)上,毗邻英伟达展位的一个显眼位置,一个深蓝色的大盒子与十分抢镜——这就是国内AI企业商汤科技的展位。商汤科技这次展示的内容包括以AI图像/视频识别技术为主的各项应用,包括智能视频、手机影像、互联网娱乐APP等。其中SensePose单目摄像头动作估计解决方案是首次跟大众亮相。
展会后,智东西与数家媒体共同对商汤科技CEO徐立进行了详细专访。
一、SensePose人体动作分析与姿态换恢复
SensePose是一套单目摄像头解决方案,用户站在摄像头前挥挥手臂、动动脑袋,面前视频里的皮影戏小人也会跟着你的动作而挥舞。用户不需要佩戴传感器就可以实现动作估计,降低了动作捕捉设备的制造成本,将关键点定位在10个像素以内的人体关节,从而在视频中实时、准确地识别人体姿态。
(体验SensePose)
徐立表示,SensePose的技术主要还是在于视频的实时处理与分析,传统的人体动作分析与姿态恢复需要用红外光或结构光,而SensePose只需要用普通的RGB摄像头就能够完成需求,既降低了成本,又提高了。这套技术未来可以应用在游戏、AR等领域,现在商汤科技已经在跟部分游戏互动型公司洽谈合作。
在去年GTC中国上,商汤还发布了一款视频结构化处理系统SenseVideo。应用在安防监控视频当中可以准确地检测到人、车和非机动车,并且给它们打上所有的属性和标签,比如人的年龄、性别、穿着等。
二、牵手英伟达,辐射下游企业
除了在GTC上设立展位外,商汤科技还是英伟达的平台战略合作伙伴,兼本次GTC大会的赞助商之一。
其实,虽然商汤科技目前拥有2千多块GPU,但是对于英伟达来说还不是一个非常巨大的量级。徐立表示,商汤与英伟达更主要的是生态链的合作,通过商汤在英伟达的底层架构上搭建的AI应用,可以辐射非常多的下游企业,比如使用商汤产品的安防、金融类客户,都能渐渐培养成使用GPU的客户,扩大下游生态链。
其中一个很典型的例子就是:当商汤科技的算法入围中国网信办视频审查系统后,原始是用CPU的集群,商汤推荐使用GPU,因此网信办几乎完全重构了一套GPU系统。另一方面,英伟达的新产品也会第一时间与商汤进行对接,比如现在商汤科技的人脸识别系统SenseFace就跑在了英伟达今年3月刚刚推出的Jetson TX2上。(智慧城市背后的心脏 英伟达人工智能工作站Jetson TX2解读)
三、创业公司一定要站在技术前沿
随着深度学习在应用中的显著突破,近年来一大批人工智能初创企业开始逐渐涌现。而最近不少大型公司也在逐渐进军这一领域,为客户提供人工智能解决方案,初创企业该如何和这类大公司竞争呢?
徐立认为,大公司将会更加专注于其主营业务,比如谷歌的云技术也非常优秀,但亚马逊的云服务仍旧占据市场主流,就是因为主营业务的重心侧重不同。对于创业公司而言,如果全员专注于局部发力,在细分领域其实是“以多打少”的。
因此,对于技术创业型公司而言,公司一定要冲在该细分领域的技术最前沿,才能在市场竞争中占有优势。举个例子,商汤打造了原创的深度学习平台,可以处理1207层的网络;而目前如Facebook的Caffe2、谷歌的TensorFlow等开源框架在约300多层时便不足以满足需求了。
四、人才是第一生产力
然而,人们对深度学习应用需求的迅速增强也带来了一个问题——人才短缺。2017年以来,以深度学习为主的AI人才缺失问题已经引起了不少公司的强烈注意,Facebook与谷歌在内部打造人工智能学院,从内部工程师中进行培养的新闻也陆续见报。国内方面,从BAT到大大小小的企业都在进行人才的招揽与挖掘,比如微信事业群在3月时就曾一举贴出30个AI高级学霸的招聘信息。针对这一现状,智东西也询问了商汤科技的解法。
徐立表示,商汤科技使用的是内生人才培养机制,由公司内部一大批有经验的导师来自己培养。国内优秀且聪明的人才其实非常多,“大二、大三的学生真是非常厉害”,因此商汤整个团队相对比较年轻,而且第一更熟悉公司业务,第二便宜很多。