裸手玩VR、线稿变3D人、充电宝上跑AI…旷视大秀AI技术生产力
智东西(公众号:zhidxcom)
作者 | 李水青
编辑 | 漠影
7月的第二个周末,在北京市海淀区的金隅智造中心500多平米展厅中,有20多位90后研究员正在展示他们近来的AI研究成果:VR裸手交互、跑在充电宝上的AI模型训练、自动驾驶3D检测新算法、根据组词创作的AI画师……现场参观者很多,分别来自旷视各部门及伙伴公司。
这一“极客”场景,是计算机视觉龙头企业旷视科技一年一度的MegTech技术开放日现场。
现场工作人员告诉我们,这是旷视技术人每年最重要的日子,20多个代表过去一年公司最佳AI技术研究的Demo(样例)从海量项目中脱颖而出,由缔造成果的研究员们自己来讲演。
很多人都知道,旷视研究院是旷视科技的核心研发根据地,是全球规模领先的计算机视觉研究院。可以说,这一研究员团体代表着中国面向世界的AI最前沿和新鲜的人才面貌。
可以看一组数据:旷视研究院在历次计算机视觉世界顶级赛事中赢得42项世界冠军,连续三年获得世界上最权威的视觉图像理解大赛COCO的多项冠军。根据招股书,截至2020年9月30日其拥有576项专利权,还参与制订了近20项人工智能相关的国家、行业及团体标准,并赢得了90余个全国和全行业奖项。
即使无法定义中国AI生产力“天花板”,但这个研究院可能是最接近“天花板”的一个团体。
那么2022年了,前沿AI技术有什么最新进展?发展到了什么程度?作为诞生已11年的国产AI代表企业,旷视MegTech技术开放日是我们了解这些问题的一个透镜。
在技术开发日上,旷视联合创始人、CEO印奇与旷视研究院基础科研负责人张祥雨、旷视研究院算法量产负责人周而进、旷视研究院计算摄影负责人范浩强,对这些前沿技术成果背后的探索和理念进行了深入解读。
旷视联合创始人、CEO印奇
一、旷研院AI新妙用:裸手玩VR、线稿秒变3D数字人
盛夏的北京雨后转晴,下午三点多,旷视技术开放日展区参观的人多了起来。现场展出的AI技术Demo有20多个,涉及产品技术研发、基础算法创新、算法量产等多个方面。智东西来到现场一探究竟,发现了以下多款“黑科技”。
1、裸手玩VR,提前体验元宇宙
在进门第一个展台,旷视展出了一款VR裸手交互Demo。扔掉手柄,裸手操作VR该有多酷炫?这个Demo展示了通过相机捕捉手部的运动状态,实现虚拟世界的复杂交互,可以说是让人提前体验了一把元宇宙。
研究员称,简单来说,这是基于深度学习对图像进行手部检测及关键点提取,通过对手部姿态的实时三维重建、姿态行为分析,实现交互。
2、词语生成3D人物,画稿变动画
3D人物也是时兴的元宇宙中的一大要素,展台坐落在裸手玩VR展台旁边。
旷视本次展出了让AI根据几个词语生成3D人物的Demo,比如输入达尔文,AI就按照他的理解在几分钟内生成一个3D达尔文形象。
研究员讲解道,过去,文字输出3D人物往往需耗费数小时甚至数十小时。本次,旷视通过多种体素编码方法,并利用多尺度的语义判别器,优化了 text2mesh* 生成模型,大幅缩短模型生成的时间,只需几分钟即可。
除了词语能变3D人,平面的手绘人物画也能变为3D动画。一位旷视研究员手绘了4张卡通人物的不同侧面图,基于旷视自研的CoNR模型,就能生成活灵活现的卡通动画人。
3、打开小程序,人人都能拥有一个AI画师
在一款名为MegLab的微信小程序中,智东西与一行人体验了“薄荷里AI画师“。
输入文本或添加想要二次创作的图片,就可以自动生成画作。之所以名为“薄荷里”,是因为有时候生成的画作很合理,有时候不合理。这一应用采用对抗神经网络,能大幅降低了人们创作视觉作品的门槛。
4、AI变智能教练、美妆顾问
在一个偏行业应用技术研发的展台区,我们看到AI不仅能文,还能武,充当智能教练、美妆顾问、零售专员等多种角色。
一个名为“运动猿小刚”的系统可以化身AI教练,分析并判断人体动作和姿态,帮人们矫正运动动作。还能化身体测员,实现运动员身份识别和认证、正确与违规动作识别、考分记录到体能信息回传等,比如他能识别立定跳远的过线、助跑等各类违规动作,还能计数。这一产品时基于MegEngine框架,通过AIS算法生产平台研发而成。
5、充电宝能跑的AI训练
除了AI模型应用,现场旷视研究员们还展示了AI模型训练的新技术。
在现场,我们看到用一个充电宝,就跑起了一个名为ResNet-18的AI模型微调训练,平均功率仅为 2.36W。
现场研究员告诉我们,以往的AI模型训练,往往需要云端专用的计算显卡(GPU),价格昂贵、能耗很高,这对于AIoT时代的嵌入式设备并不友好。旷视通过对计算图的设计和混合精度的训练策略,结合旷视天元MegEngine开源深度学习框架,令模型训练脱离昂贵的GPU成为可能。
6、视觉3D检测新算法,点中窥物
值得一提的是,现场除了展出了一些和大众生活息息相关的小发明,旷视还展出了一些视觉AI基础创新。
比如,自动驾驶3D检测新算法BEVDepth,能极大增强深度感知能力,打造助力自动驾驶决策的视觉3D检测新标杆;基于物体点的半监督检测算法 PointDETR,在物体上标一个点即可获得框的标注结果,可有效解决漏标和多标等问题;目标检测器AnchorDETR,通过一个锚点就能检测多个物体,性能全面超越目前主流的DETR模型,该论文已被人工智能顶级会议AAAI-2022收录。
这些AI基础能力不是在场景化应用中能直接看到的,却是很多应用型AI创新突破的基石。
很多产业人知道,旷视自创立布局消费物联网、城市物联网、供应链物联网三大块业务。其创立以来在数亿部手机里落地图像识别、超画质等AI技术;为百余座国内城市、十余个国家和地区提供城市物联网解决方案……这些成果为旷视打上了安防、智能手机等标签。
而在这次技术开放日展台上,我们看到这家AI企业正在摆脱原有的标签,为VR/AR、自动驾驶、零售、教育、美业等各行各业的数智化转型赋能。
旷视自2018年就提出“1+3”战略,其中的“3”是指三大块业务,而“1”是指AI生产力平台Brain++为代表的AI能力。可以看到,其在AI基础能力上,旷视也正基于Brain++进行拓展。
二、AI基础研究走向“大统一”,旷视从四方面突破天花板
看完这些前沿视觉AI技术新发明,那么我们如何以此为参考认识当下视觉AI行业发展的水平呢?
要找准这一问题的时空坐标从而找到答案,对很多人来说很难。
旷视研究院基础科研负责人张祥雨认为,不妨从回顾计算机视觉发展历程来看。
旷视研究院基础科研负责人张祥雨
在十年前,2012年“深度学习之父”Hinton和其学生的AlexNet模型提出之后,基于深度学习的神经网络成为AI视觉发展的主要原动力之一。根据神经网络的用途以及构建方式的不同,大体上可以分CNN、Transformer、基于自动化神经网络架构搜索的模型、以及轻量化模型等等,这些模型都在一定时间内极大地推动了当时AI发展的进程。
可以说,历史上每一代基础模型的突破都很大程度上促进了视觉AI的发展。
当时间来到了2022年,张祥雨认为,新的趋势已经出现——“大”和“统一”是当今视觉AI基础研究的新趋势。
他解释道,“大”主要是指AI大模型,即:利用大数据、大算力和大参数量,提高模型的表达能力。AI视觉系统通常要面对复杂的应用场景和多种的任务,因此直接途径就是提高模型本身的表达能力,也就是所谓的“大”。
“统一”是指算法在底层正走向统一。AI视觉研究分CNNs、VL Models、 Transformers等多个基础模型领域,以及检测、分割等多个基础应用领域,每一领域都衍生出一系列算法。现在,通过一些特定的优化算法,这些底层算法能取得相似的性能,从而得到简单、强大、且通用的系统。
从这一角度,张祥雨解读了旷视基础模型科研的重点分为四个主要的方向。
而本次旷视技术开放日展出的的许多成果,也能在这四个方向中找到归类。这四个方向如下:
1、通用图像大模型。旷视主要着眼于构建通用的、统一的、且高性能的图像视觉大模型。
2、视频理解大模型。旷视主要攻克困扰业界已久的长序列建模问题,找到更高效的视频模型训练、监督和应用的方法。
3、计算摄影大模型。旷视主要探索计算摄影大模型研究的新范式,充分从大数据中找到真实图像的先验信息,进而指导生成更高清、高质量的图像。
4、自动驾驶感知大模型。旷视主要着眼于研究简单、高效、统一、且易于使用的自动驾驶模型的优化、训练和部署方法,促进自动驾驶落地。
那么在这四大方向,旷视在最近一年有哪些成果呢?张祥雨对此进行了解读。
比如,在通用大模型方面,旷视在今年计算机视觉顶级会议CVPR中,提出了一种基于大Kernel的CNN和MLP设计范式,发现其能达到视觉转换器(Vision Transformers)一样好的性能。
关于通用大模型的另一种成果,旷视称之为新型的模型规模化。面对传统增大模型方法边际效应递减的问题,旷视今年提出了一种基于可逆、多column神经网络的Scale Up的范式,通过增加可逆column的数量来扩大化神经网络的参数和计算量。这种方法带来的额外显存消耗非常小。
再来看看备受关注的自动驾驶感知大模型。
在视觉相机感知方面,今年旷视提出了一种名为BEVDepth的新算法,这在前面提到了,这种算法能在不同数量和型号的相机上,获得精准的深度估计,车辆颠簸、抖动都不会太影响识别精度。BEVDepth在权威的Benchmark NuSenses上,目前是Camera赛道上的第一名。
在激光雷达感知方面,旷视提出了一种新的神经网络架构,叫LargeKernel3D Network,这是在点云上的一种新型的卷积结构。它可以支持比较稀疏化的点云建模,以及通过参数共享的方式减少了参数的使用,使得网络更为高效。该模型在NuSenses就是激光雷达检测赛道上也是排名第一。
旷视还提出一个自动驾驶感知的新思路,一个名为PETR系列的新网络,其前期工作发表在今年的ECCV 2022上。这一网络几乎没有人工设计的成分,将可能极大地简化自动驾驶视觉AI系统设计。
此外,旷视还在过去一年提出了第一个真正实现端到端的多目标跟踪的框架MOTR,能在大数据上实现更好的性能;简单通用的目标检测框架YOLOX,GitHub Star已经超过6000个;在今年NTIRE,旷视的NAFNet在视觉超分辨率竞赛中夺得第一名的方案,等等。
可以看到,沿着“大统一”路径,旷视正试图从四个方面突破算法创新的天花板。
三、算法量产,旷视要打造不可复制的AI生产力
很多人可能觉得,AI基础技术创新虽然很多不能直接在应用中看到。但实际上,这却是AI技术商业化落地的基石。而基础科研团队和能力的持续创新,则代表着驱动中国AI走向全球的精神底子。
那么,作为中国视觉AI技术前沿力量的代表,创立11年的旷视如何打造持续的AI基础技术创新能力圈?
对此,印奇在本次技术开放日中首次对外谈及了“2+1”的AIoT核心技术科研体系,即以“基础算法科研”和“规模算法量产”为两大核心的AI技术体系,和以“计算摄影学”为核心的“算法定义硬件”IoT技术体系(包括AI传感器和AI机器人)。“这样一个‘2+1’的AIoT的科研战略也是支撑旷视未来不断走向新的AIoT商业成功的最重要的基石。”
旷视联合创始人、CEO印奇
前面我们已经详细了解了旷视的AI基础科研,关于算法定义硬件,我们在之前的报道中已有讨论(《“卷”了AI圈11年后,旷视印奇终于喊出这句话!》)。
那么另一大关键要素“算法量产”,这一旷视实现AI基础研究和AIoT落地的重要途径,虚实又如何呢?
根据旷视研究院算法量产负责人员周而进演讲,旷视本次推出的自研算法生产平台AIS,是旷视实现算法量产的主要抓手。
旷视研究院算法量产负责人周而进
根据介绍,AIS平台是一个零代码自动化算法生产力工具平台。有一个比喻可以形象地理解这一平台,就像孙悟空可以拔出毫毛生出很多猴子一样,我们可以让AI去生成AI。
具体来说,在数据处理环节,AIS平台能够给整个数据标注过程提供30倍以上的效率提升;在模型训练环节,AIS平台有一个强大的推荐系统,能结合客户需求自动化地为客户适配模型进行训练;在性能分析调优环节,AIS平台会为用户提供一个非常系统及标准化的模型诊断过程,自动化地告知用户调优建议;当得到一个性能不错地模型之后,在硬件推理环节,AIS平台则提供标准化的硬件部署工具链,实现AIoT闭环。
“我们认为,面对纷繁复杂的算法落地场景,标准化是我们在算法生产流程中的核心的优势,这也是算法生产平台AIS为大家提供的能力。”周而进说。
然而,行业场景碎片化、数据生产的复杂性、硬件的多样化等问题一直是算法量产的重要挑战,这也是很多AI方案难以从1到n进行复制的主要原因。
周而进认为,算法生产过程标准化才是真正有效地解决这样一个复杂的、碎片化的算法生产所面临挑战的手段。这个标准化包括了数据生产的标准化、算法模型的标准化和整个推理框架的标准化。
这就有了AIS平台的应运而生,在旷视技术开放日的最正中展出的,正是这一算法量化工具;围绕它陈列的展台成果,大多是基于它生产而来。周而进说,AIS平台基于旷视Brain++体系,在旷视自研的深度学习框架MegEngine,数据管理平台MegData和计算平台MegCompute的基础上面,进一步引出的自研的算法生产平台。
可以看到,走过11年,旷视正将算法生产力从点扩展到算法链,至今,正在锻造一个体系化、规模化算法生产机器。
这家正在接受资本、市场及国际环境多重检阅的视觉AI龙头企业,正试图打造不可复制的AI生产力。前路依然险阻,行百里者半九十。这是中国AI技术发展的一个缩影,在短短十几年里冲在世界前列,本质上是要追求AI生产力水平的不断强大。
结语:AI落地进入深水区,基础创新力显真章
苹果创始人史蒂夫·乔布斯曾说:“当所有人削减开支的时候,我们反而决定在低迷时继续投资。主要投资在研发上,发明一些新东西,一旦低潮期过去,我们就已经领先于竞争对手了。”
这句话收录在《史蒂夫·乔布斯传》中,也成为解释苹果公司持续繁荣几十年,成为全球市值第一公司的密码。
AI被认为掀起第四次工业革命的重要技术,很多人都已经在银行柜台、智能手机、商场零售柜以及安防、交通等各种场景中感受的AI带来的真实便利。当下,随着AI技术落地进入深水区,一方面考验技术商业化的本领,一方面更加考验AI企业技术底子的厚度。而有没有持续投入的定力,是成功缔造下一代大科技公司的一个关键问题。
这也解释了为什么大到阿里云这样的云巨头今年更加强调“Back to Basic”,以及旷视这样的视觉AI企业龙头持续强调AI基础研究。不过,行百里者半九十,中国科技企业的前路依然充满挑战。