小鹏发布可骑乘智能机器马附四足机器人“自动驾驶”技术讲解

凤凰网科技讯 9月6日消息,在经过一天的预热之后,小鹏汽车在其官方公众号发布可骑乘智能机器马。据悉,机器马有语音交互功能,可以做到声纹和面部识别,并通过其“面部”屏幕表达情感。除此以外还有负重运输,自主充电功能。

四足机器人眼中的自动驾驶

自动驾驶技术如何应用于四足机器人,赋予其智慧以执行复杂场景的任务呢?

四足机器人的自动驾驶主要解决“这是哪?”“我在哪”的问题。

01.“ 这是啥 ”

如何解决四足机器人的感知任务

解决“我在哪?”的问题取决于解决“这是啥?”程度,越多的强语义目标定位就可以做的更鲁棒。以车辆的自动驾驶来说,通过对车道线、车辆、行人、红路灯、道路标识等结构化道路场景中的少量类别目标进行感知,来完成车辆的辅助定位。

一般的解决方法如下,借助CNN网络结构,通过一个backbone或多个backbone外加多个任务的方式来处理车辆道路这种类别数的情况。选取几个backbone可基于对计算力的制约、感知任务的分解、多任务优化的能力等多方面的考虑。

常见的CNN结构的backbone如下:

图片来源与网络

四足机器人的活动区域要覆盖室内、楼道、小区、道路、商场等多种环境,识别目标种类的数量将会上升至少一个数量级。同时,如果能够让机器人具备一定的在线学习的能力,将来或许能更好的完成任务。

那么如何解决这种数量级的感知任务?以下两种不同的思路可供参考:

一种是构建更大的backbone基础网络,使其能够记录理解更多的物体特征,进而完成多结果数据结构、多种类、多任务的学习。但这种方案在充分利用大型网络的特征提取能力,平衡各任务间的权重方面会存在一定困难。

另一种是将识别目标区分任务数据结构,可以按数据结构、类别、任务来划分不同的模型。通过多模型决策管理系统进行多模型的调度来完成相关任务,但这种也存在消耗大量计算资源,系统结构复杂的困难。

具体来讲:

感知的任务从数据结构上可分解为点的感知、线的感知、框的感知、面的感知、3D信息的感知等;

从类别上可分解为静态目标、动态目标等;

从任务上可分解为定位任务目标、避障任务目标等;

可以从某个角度或者综合多个角度来对任务聚类,之后根据选择大的基础网络采用多模型调度的方案确定感知的实现方式。最后,根据感知的各类结果信息进行融合处理得到目标的属性、轮廓、空间位置以及物体间的空间结构等情况。对于点、线、框、面的感知目前有相对大量成熟的框架和经验可以借鉴。

四足机器人可以通过强化学习、非监督学习及自学习系统提高应对生活中特定目标的能力。

从目前的技术来看,深度学习感知方案依然是建立在大量的标注数据集上,需要开发一套强大的数据服务系统来实现模型的训练、迭代部署。这套系统包含了数据采集、数据处理、数据筛选、数据标注等多个环节。如果能够解决机器人实体问题数据的上传、分析与模型迭代训练,使模型能够不断进化学习,机器人的能力将不断提升。

02.

“我在哪”

定位技术方案的相关测评

对于“我在哪?”的问题目前有多种不同技术可以解决,主要包括图像SLAM、激光SLAM、高精度地图、语义地图等技术方案。这些技术方案在信息的来源以及信息的形式存在不同,图像信息丰富却缺少三维空间信息。其中,激光点云三维空间信息准确但信息不够丰富。对于信息的形式有图像的特征点、激光点云、线特征、面特征、语义目标等,特征点和激光点云数量大但信息单一,容易误匹配,语义目标信息丰富,不容易误匹配,但数量少,而线特征、面特征介于两者之间。

定位技术方案用于解决“我在哪”的问题,选型取决功能的定位、系统资源、感知能力等多个方面。

图像SLAM和激光SLAM两种方案目前开源项目最多,也最容易快速的搭建一个原型定位系统。由于两种方案采用了信息单一的特征,所以在鲁棒性、适应性、扩展性等方面都受到制约;

基于线特征、面特征的SLAM技术目前是一个研究的热点方向,该方案在性能方面得到了一定平衡;

以车辆自动驾驶来说,采用的高精地图一般融合了语义目标和激光点云构建成地图,利用两者的优势进行高精度定位;

激光点云地图示例

语义地图则需要大量的目标语义信息(如门窗、树干、路灯、墙沿、路沿、沙发、桌子等)和环境语义信息(楼梯、高楼、草坪、树林等)来辅助解决。要从感知的语义信息将目标动静态属性区分出来,用于构建不同的图层。对于不同的方案有各自的优劣,需要结合任务的目标及实际情况进行方案选取。 总体来看,四足机器人的自动驾驶还处于初始阶段,如何赋予四足机器人足够的智能以达到实用的状态还在探索,需要在已有车辆自动驾驶的基础上进行创新迭代去解决。

(责任编辑: HN666)

文章内容来自网络,如有侵权,联系删除、联系电话:023-85238885

参与评论

请回复有价值的信息,无意义的评论将很快被删除,账号将被禁止发言。

评论区