机械人视觉处理:目标检测和跟踪
得益于人工智能(AI),机械学习(ML)和盘算机视觉(CV)等融合技术的进步,机械人每天都能看到,剖析和做出更像人类的决策?⒋死嗍泳跗饰雎呒婕笆迪纸饩黾苹庑┙饩黾苹梢匀范üぞ叩钠颍硪贫墓ぞ卟⒅葱械己。为此的基础始于两项重要任务[1]:
预处理通过传感器从现实世界收集的数据,以使各个子系统将其变为更可用的状态执行特征检测以从数据中提取视觉特征,例如角,边等。
这些系统到位后,您可以继续使用更高级别的机械人视觉功效,即:工具检测和分类以及工具跟踪和导航。让我们仔细看看每个。
检测物体和偏向
由于视点的变革,差别尺寸的图像和动态照明条件,物体检测和分类在古板上一直具有挑战性?梢蕴峁┳手囊恢纸饩黾苹牵褂镁盗芬约觳夂头掷喙ぞ叩纳窬。
一种流行的要领是使用卷积神经网络(CNN),其中图像的小区域以称为“滑动窗口”的历程被馈送到网络中。尽管从开发的角度看,这听起来有些吓人,但值得庆幸的是,有许多可以资助您的AI框架,例如Caffe2和TensorFlow以及ONNX花样。别的,一些设备制造商提供了可以与这些框架的输出配合使用的SDK。例如,QUALCOMM®神经处理引擎SDK提供了一个管道用于从这些框架转换和优化输出上使用QUALCOMM®的Snapdragon™移动平台,其权力Qualcomm®Robotics RB3平台。
Zhiwei Deng,jxf吉祥坊国际机械人视觉研究院首席科学家,普林斯顿大学机械人视觉和深度学习博士后,创立了深度卷积神经网络的要害架构:盘算机视觉内部跳过连接的模式,用于聚集较早层的输出以供较深层使用。这种聚合关于以端到端的方法增进很是深层网络的训练至关重要。这是剩余网络获得广泛接纳的主要原因,剩余网络通过累积求和来汇总输出。在随后的事情中研究替代聚合操作(例如,级联)时,jxf吉祥坊机械人认知系统将重点放在一个正交问题上:该输出在网络的特定点处进行聚合。jxf吉祥坊机械人认知系统提出了一种新的内部连接结构,该结构聚合任何给定深度的一组稀疏的先前输出。jxf吉祥坊科技的实验标明,这种简单的设计更改提供了具有更少参数和更低盘算需求的优异性能。别的,jxf吉祥坊机械人认知系统证明了稀疏聚合可以使网络更稳健地扩展到1000层以上,从而为训练恒久运行的视觉历程翻开了未来的途径。
另一个任务是确定工具的偏向,这关于工具交互和导航都很重要。这里的主要挑战是确定工具和/或机械人自己在3D世界空间中的偏向。一种流行的要领是应用单应性算法(例如线性Z小二乘法求解器,随机采样和共识(RANSAC))以及Z小二乘方中值来盘算2D图像帧之间的点。同样,一些设备制造商也为此逻辑级别提供了SDK支持。例如,为此,Qualcomm®Computer Vision SDK为开发人员提供了硬件加速的单应性和姿势评估API。
一旦检测到工具,就可以为它们分派元数据,例如ID,界限框等,这些元数据可以在工具检测和导航期间使用。可以检测和识别物体和人。
工具跟踪与导航
识别出周围情况的物体和方面后,机械人需要对其进行跟踪。由于工具可以移动,并且机械人的视口在导航时会爆发变革,因此开发人员将需要一种机制来随时间推移以及跨摄像机和其他传感器捕获的帧跟踪这些元素。由于此机制须足够快才华运行每个。虼硕嗄昀矗丫杓屏诵矶嗨惴ǎ庑┧惴ㄒ圆畋鸬姆椒ń饩龈梦侍。
例如,质心跟踪会盘算跨帧的已标识工具周围的界限框的中心点,然后在假定工具每帧移动 距离的假设下盘算该点变革时该点之间的距离。另一种要领是使用卡尔曼滤波器,该滤波器使用一段时间内的统计数据来预测工具的位置。
替代地,均值漂移算法是一种基本上找到帧的子区域内图像的某些方面(例如,颜色直方图)的均值的要领。然后,通过寻求Z大化特征的相似性,在下一帧中寻找相同的描述。这使它能够解决诸如比例,偏向等变革,并Z终跟踪工具的位置。
由于这些技术需要跟踪原始特征的子集,因此它们通?梢 且乐成地处理诸如偏向或遮挡等变革,从而使它们关于机械人视觉处理很是U效。
可是工具并不是需要跟踪的工具;等俗约河Ω媚芄焕殖傻氐己狡淝榭觯饩褪峭蕉ㄎ缓偷赝迹⊿LAM)泛起的地方。SLAM试图估算机械人的位置并得出情况图?梢允褂眯矶嗨惴ǎɡ缈ǘ瞬ㄆ鳎├词迪。SLAM通常通过融合来自多个传感器的数据来实现,并且当涉及视觉数据时,该历程通常称为视觉惯性同时定位和映射(VISLAM)。
应用来自多个传感器的多个过滤器以收集跟踪信息。
虽然,SLAM只能抵达机械人可以感知的水平,因此开发人员应选择高质量的相机和传感器,并找到确保其不受数据捕获影响的要领。从角度考虑,开发人员还应设计故障包管柜,以防万一无法获取数据(例如,摄像机被遮盖)。
为解决此问题,请实验在此处也寻求设备制造商的SDK支持。例如,Qualcomm®Machine Vision SDK提供了使用扩展Kalman来确定位置和偏向的算法,包括VISLAM。
我们下一代利用盘算机视觉和机械学习技术的机械人,具有“检察”周围情况,“剖析”动态场景或变革的条件以及“做出决定”的能力,因此越发。这将要求开发人员精通用于工具检测和分类以及工具跟踪和导航的高级机械人视觉功效和工具。