深圳市赓旭光电科技有限公司是一家专业提供光学技术解决方案和生产滤光片厂家,从事光学冷加工,负滤光片,红外截止滤光片,长波通滤光片,带通滤光片,偏振分光棱镜光片专卖;平面,棱镜加工,球面加工,红外激光晶体加工,薄膜器件研发和加工的一家高科技企业;是国内专业从事精密薄膜光学及延伸产品研发、生产和销售的光电元器件制造企业,为世界各地提供光学合作及服务。
交互向三维升级,想象空间巨大
纵观人机交互的历史,打孔指令带、DOS系统+键盘形成了早期一维人机交互;Windows+鼠标的二维交互方式开启了互联网/PC时代,触摸屏和摄像头的二维交互方式则开启了移动互联网/智能手机时代,而到了以AR为代表的下一代计算平台,则需要三维的交互方式。
在移动互联网时代,触摸屏和摄像头成为主要的人机交互媒介。触摸屏可以方便地实现各种操作,相比键盘和鼠标更为自然和顺畅。摄像头实现了大量的内容输入,也是一种重要的人机交互媒介。
但触摸屏和摄像头仍属于2D的交互方式。在触摸屏上,我们只能实现平面范围内的感应和触控,即使出现了3D Touch等新的触控方式,人机交互也依然只局限在一个平面上。而现有的摄像头则只能实现2D图片的拍摄,无法实现3D图像的交互。
而到了以AR为代表的下一代计算平台,则需要3D的交互方式,这是由AR设备的定义所要求的。AR技术是指借助计算机视觉技术和人工智能技术产生物理世界中不存在的虚拟对象, 并将虚拟对象准确“放置”在现实世界中。通过更自然的交互,呈现给用户一个感知效果更丰富的新环境。
由于现实环境是3D的,所以AR技术为了实现逼真的效果,也需要产生3D的虚拟对象,并把3D的虚拟对象叠加显示在现实的物理环境中,这就要求AR设备可以实现3D的输入和输出。
由于AR所需要的是3D的交互,所以现有的触摸屏和摄像头等2D的交互方式并不满足AR的要求,需要新的交互技术。
三维交互的应用广泛:精确的脸部识别可以用于解锁、支付;精确的手势及动作识别可以用于家庭游戏娱乐;精确的人形建模可以让网购更有效率,让移动社交更真实。而全球生物识别(2015年130亿美金)、游戏(2016年996亿美金)、B2C电商(2015年2.2万亿美金)加在一起粗略统计是一个超过2万亿美金级别的市场。哪怕三维成像应用渗透率只有10%,都将造就一个万亿人民币级别的市场规模。3D成像的未来想象空间巨大!
已实现商用,预计成为2017年顶级品牌手机杀手锏
从技术角度来说,3D成像并不是近年才新出现的。自2009年微软发布基于3D成像的游戏体感交互设备Kinect已经有8年时间,而Google的Project Tango也提出了4年。随着图像处理芯片技术的更新换代,AR需求的不断涌现以及AI大数据技术的风起云涌,进一步坐实了一个事实:3D成像已经过了技术基础期,即将进入长达5年以上的高速成长期。
2.2.1 微软Kinect,体感识别游戏终端
2009年6月2日,微软在东京电玩展上首次发布针对XBOX360的体感周边外围设备Kinect,当时的代号为Project Natal(初生计划)。首日便超过了WII主机的发售数据,之后再以光速超越游戏市场上的所有记录,让微软在北美乃至全球市场都可以扬眉吐气。不仅如此,这样具备着强大潜在实力的技术吸引了多达世界上8成左右的游戏厂商加盟,为后续的游戏产业链奠定了坚实的基础。
Kinect彻底颠覆了以往游戏的人机交互方式,相比对手任天堂Wii依靠游戏杆上的传感器Wii Remote识别用户动作的限制,Kinect不需任何手持设备,能捕捉玩家全身上下的动作,直接用身体来进行游戏,带给玩家“免控制器的游戏与娱乐体验”,也让游戏类型更加丰富。
Kinect V1采用PrimeSense(2013年被苹果收购)结构光方案,硬件上由三个镜头组成,中间的镜头是 RGB 彩色摄像头,用来采集彩色图像。左右两边镜头则分别为红外激光发射器和红外CMOS 摄像头所构成的3D结构光深度感应器,用来采集深度数据(场景中物体到摄像头的距离)。
彩色摄像头最大支持640*480分辨率成像,红外摄像头最大支持320*240成像。同时,Kinect V1还搭配了追焦技术,底座马达会随着对焦物体移动跟着转动。Kinect V1也内建阵列式麦克风,由四个麦克风同时收音,比对后消除杂音,并通过其采集声音进行语音识别和声源定位。
PrimeSense的结构光方案,通过Infrared projector发射一副具有三维纵深的“立体”编码近红外激光(光源通过准直镜头和DOE器件形成衍射光斑),再通过接收端的Infrared camera收集经人体反射回来的红外光线。
这种光斑具有高度的随机性,而且随着距离的不同会出现不同的图案,也就是说在同一空间中任何两个地方的散斑图案都不相同。只要在空间中打上这样的结构光然后加以记忆就让整个空间都像是被做了标记,然后把一个物体放入这个空间后只需要从物体的散斑图案变化就可以知道这个物体的具体位置。
当然,首先后台需要保存空间标定数据,假设Kinect规定的用户空间是距离电视机的1米到4米范围,每个10cm取一个参考平面,那么标定下来我们就保存了30幅散斑图像,需要进行测量的时候,拍摄一副待测量的散斑图像,作为基准数据信息。
将这幅图像和我们保存下来的基准数据信息依次做互相关运算,这样我们会得到30幅相关度图像,而空间中的物体存在的位置,在相关图像上会显示出峰值,把这些缝制一层层叠加在一起,在经过插值运算就会得到整个场景的三维形状了。
为了提供三维场景,三种摄像头各司其职,并与其它传感器“合作”,以实现以下功能:
(1)运动追踪(Motion Tracking):通过移动设备自带的多种传感器,在不通过外界信号的情况下,实时获取设备的姿态与位置,追踪设备在三维空间中的运动轨迹。Tango创新性地采用了摄像头与惯性测量单位(IMU)结合的方法来实现精确的运动追踪功能。
(2)环境学习(Area Learning):利用视觉信息记录与索引外界环境,自动矫正环境构建与运动追踪中积累的误差,识别重复环境。该功能描述起来很容易,但实施起来则相当的困难,首先设备会对其拍摄的每一帧照片提取特征,然后对出现的特征进行保存和引索,再利用一些高效的储存和搜索算法,实时地判断新的一帧是否跟过去曾经拍摄的环境有相似之处,如果匹配准确的话,设备可以立即利用之前已经收集的环境信息。
(3)深度感知(Depth Perception):利用自带的三维飞行时间摄像头扫描外界三维环境,构