技术干货 机器如何识别手势?
手势识别是一种用户界面,允许计算机捕捉和解释非语言交流,包括面部表情、头部运动、身体定位和手部动作作为命令。手势是一种越来越普遍的计算机控制模式,用于识别手势的传感器类型也在不断增加。
本文将简要回顾了当今手势控制的实施方式,探讨了手势未来可能的应用,最后对用于识别、解释和响应手势的各种类型的非视频传感器进行了调查,包括电场感应、激光雷达、先进的电容技术和触觉。
最初,所有手势识别都依赖于实时视频源的解释。基本的基于视频的手势识别仍然被广泛使用。这是一个计算密集型过程,工作原理如下:
- 摄像头将图像数据与来自深度感应设备(通常是红外传感器)的数据配对,输入计算机,以捕捉三个维度的动态手势。
- 手势识别软件将捕获的图像数据与手势库进行比较以找到匹配项。
- 然后,软件将识别出的手势与相应的命令进行匹配。
- 一旦手势被识别和解释,计算机要么确认用户想要的命令,要么简单地执行与该特定手势相关的命令。
在复杂环境中,可以使用骨骼和面部跟踪以及语音识别和其他输入来增强基本视频信息(图 1)。
图 1:基于摄像头的手势识别广泛用于受益于非接触式计算机控制的应用。
(图片来源: 3D Cloud by Marxent)
汽车应用
汽车内饰是基于视频的手势识别系统新兴用途的一个很好的例子。当前的汽车手势识别系统使驾驶员和乘客能够控制信息娱乐系统或来电,而无需触摸按钮或屏幕。在这种环境下,手势识别有望提高安全性,因为驾驶员可以使用简单的手部动作代替复杂的菜单界面操作,使他们能够更专注于驾驶车辆。
语音控制系统也可以使驾驶员能够专注于道路,但使用起来更加复杂。大多数当前的语音控制系统不使用自然语言,它们需要精确的语音命令,并且可能涉及长菜单链以达到所需的特定命令。由于其对用户的简单性,手势识别的汽车应用有望扩展到其他系统,例如加热和冷却、室内照明控制、远程信息处理系统,甚至与远程智能家居系统的连接。系统结合了语音识别和手势识别的最佳特性。
摄像头安装在基于摄像头的汽车内部手势识别系统中,通常从天花板等高处获得相关内部空间的畅通无阻的视野。当前系统只关注驾驶员。未来,随着车内摄像头数量的增加和图像质量的提高,监控空间的范围有望扩大到包括乘客在内。监控区域由红外LED或激光照亮,即使在低光照条件下也能提供最佳图像质量。如上所述,手势是实时分析的,机器学习支持准确性的不断提高。BMW7系汽车识别的一些手势如图2所示。
图 2:BMW Series 7 汽车中编程的手势示例。 (图片来源: Aptiv)
电场手势识别
电场接近感应 (EFPS) 是基于轻微导电的附近物体对电场的扰动。EFPS 的一个实施例是一种微电子设备,它可以检测移动和静止的物体,即使是非导电的固体材料。它通过感应两个天线电极产生的极低功率电磁场的微小变化来工作。它的可调范围从几厘米到 4 米,并且它的操作与对地阻抗无关。
EFPS 和其他电场传感器提供少量数据。与光学手势识别系统相比,它们更小、重量更轻,并且需要更少的功率。在另一个实施例中,手势感应 IC 使用电极来感应电场的变化并计算手指等物体的位置,提供三维位置数据并将运动模式实时分类为手势(图3)。通过使用电场感应,该系统对光线、声音和其他可能干扰其他 3D 手势感应技术操作的环境条件完全不敏感。
图 3:未失真的等电位电场线(左)与被人手指扭曲的相同等电位电场线(右)的比较。(图片来源:Microchip)
这种特定的 3D 手势感应 IC 针对电池供电设备进行了优化,感应电极由低压信号驱动,可选择 42、43、44、45 和 100 kHz 信号。由于电场传感器可以穿透非导电材料,因此它们可以封装在防风雨外壳或建筑物的内墙中。除了便携式手势感应应用外,EFPS 系统目前还部署在各种感应应用中,包括:
- 可以确定被抓取物体属性的机械手
- 汽车安全气囊系统确定座位是否被占用
- 楼宇自动化系统可确定房间何时无人使用
使用激光雷达
光检测和测距 (LIDAR) 被用于为消费和工业系统中的手势识别带来独特的性能范围。一个示例是基于 940 nm 不可见光垂直腔面发射激光器 (VCSEL) 的 LIDAR 设备,该激光器具有集成驱动器和单光子雪崩二极管 (SPAD) 的接收阵列。该系统使用基于飞行时间 (ToF) 测量的多区域测距。它以集成 6.4mm x 3.0mm x 1.5mm 模块的形式提供,其中包括 VCSEL(垂直腔面发射激光器)发射器和带有嵌入式 SPAD 和基于直方图的 ToF 处理引擎的接收器(图 4)。
图 4:这个基于 VCSEL 的恢复识别模块包括一个用于手势识别的 TOF 处理引擎。(图片来源:意法半导体)
这种基于 LIDAR 的模块的紧凑尺寸和低功耗有望在一系列应用中实现非触摸手势识别的集成,包括 AR/AV 耳机、平板电脑、手机和住宅产品,如厨房电器、恒温器和其他智能家居控制,以及电梯控制、交互式标牌和票务以及自动售货机等设备。该传感器可以在 4×4(16 区域)快速测距模式下提供高达每秒 60 帧的帧数。在高分辨率模式下,传感器测量 64 个区域 (8×8)。
缩小电容式手势识别
基于微型碳纳米管纸复合电容传感器的电容式三维手势传感器已被开发用于集成游戏设备和其他消费电子产品。与上一代电容式手势传感器相比,碳纳米管纸基设备的速度提高了 10 倍,体积缩小了 100 倍,并且可以在高达 20 厘米的更大范围内工作(图 5)。它们无需任何手持设备或其他设备即可识别 3D 手势,并且比红外传感器更快、更准确。此外,它们对环境因素(如肤色和照明条件)不敏感。
图 5:这种基于碳纳米管纸的手势识别设备比前几代电容式传感器快 10 倍,小 100 倍。(图片来源:Somalytics)
相机+超声波触觉
专为 VR/AR 耳机设计的新系统将基于红外摄像头的手势识别与触觉反馈相结合。该系统使用 IR LED 照亮用户的手,LED 的脉冲与相机帧速率同步。相机通过每个脉冲将当前位置信息发送到处理器。处理器中的手势识别软件对骨骼和关节以及手部运动进行建模。这使系统能够准确地知道拇指或手指的位置,即使它不在视线范围内。该系统可以通过编程识别各种手势,包括抓取、滑动、捏合、推动等。该手势识别系统有一个交互区域,范围从 10 厘米到 1 米,典型视野为 170° x 170°。
除了识别手势外,该系统还知道人的手在哪里,并且可以使用该信息来控制基于超声波的触觉反馈。超声触觉系统基于以特定时间差触发的扬声器矩阵,使声波能够聚焦在空间中的特定点,例如,人手的特定部分所在的位置(图 6)。可以根据应用程序的需要实时更改 3D 焦点。超声波在焦点处的组合振动产生了人体皮肤可以感觉到的压力点。
图 6:聚焦超声波可以为基于红外摄像头的手势识别系统添加触觉反馈。(图片来源: ultraleap)
总结
基于视频的手势识别仍然是最广泛使用的手势识别形式。它用于各种应用,包括医疗环境和汽车驾驶室。最近,手势识别已应用于 AV/VR 系统、楼宇自动化系统和机器人技术。新的手势识别技术正在推动手势识别的日益增长的应用,包括电场感应、基于 VCSEL 的 LIDAR 系统、碳纳米管电容设备以及结合超声触觉反馈的红外相机。