FutureMapping:空间人工智能的计算结构

AI百科4个月前更新 快创云
60 0

欢迎个人转发朋友圈,机构或媒体转载,后台请留言

空间人工智能系统的计算结构

摘要

  本文探讨了同步定位和地图构建(SLAM)技术向智能嵌入式设备上具有一般几何和语义“空间人工智能”感知能力的演变。文章分析了增强现实眼镜或消费者机器人等设备所需的视觉感知性能与现实产品状况的约束之间的巨大差距,并指出算法、处理器和传感器的协同设计将是必要的。我们探索了当前和未来空间人工智能算法的计算结构,并在硬件发展的情况下持续思考这一领域的相关问题。

简介

  尽管计算机视觉的目标通常是以一般方式指出图像中“什么”是“哪里”,但在空间人工智能问题中,它被视为一个实时在线问题,通常与其他传感器一起使用,是人工智能(AI)的一部分,允许现实设备可以与其环境进行有效交互。这类设备必须实时运行,以目标导向运行。这可以是一个完全自主的人类替代品,如机器人,也可以是一个像增强现实头盔这样的设备,被设计为人类用来增强他们的能力。

  因此,空间人工智能系统的目标不是抽象出对场景的理解,而是不断捕捉并正确表示信息,以实现实时解释和行动。这种系统一方面要根据任务的性能来设计,另一方面又受限于所使用的具体设备。例如,家用机器人产品的任务可能包括监控、清洁和打扫房间等。这些任务要求机器人有能力检查家具和物体的移动或更换、清洁表面并知道何时进行清洁等。

SLAM, Spatial AI 和 ML

  机器人和计算机视觉中的视觉SLAM(同步定位和地图构建)研究领域长期以来一直关注机器人周围场景的形状和结构以及机器人在其中的位置的实时增量估计。从稀疏特征到稠密地图以及现在越来越多的语义标签,实时SLAM中可能的场景表示的级别已经逐渐改善。大多数Spatial AI系统将有多个应用程序,在设计时并非全部可预测。因此,我们提出以下假设:当设备必须长时间运行时,执行各种各样的任务(并非所有这些任务都必须在设计时已知),并与包括人类在内的其他实体进行通信,其空间AI系统应该建立一个通用且持续的场景表示。

  近年来,机器学习(ML)在人工智能领域中日益脱颖而出,并在许多问题上战胜了人为设计的方法。在空间人工智能中,训练一个递归神经网络(RNN)或类似网络,从输入数据的实时流中顺序产生有用的输出,要求它在其内部状态内捕获一组持续的概念。然而,一组看似非常有前途的方法旨在强化网络学习的结构。例如,古普塔等人的工作提出了一种局部导航的方法,迫使深度网络以倾向于度量网格的方式了解机器人的环境。这些学习架构使用设计者自身关于底层估计问题结构的知识来增强从训练数据中获得的结果。

处理器和传感器的未来

  SLAM研究多年来在单核CPU处理器时钟速度倍增的时代可靠地进行研究。然而,近年来处理器能力增强的速度已经放缓。由于另一个鲜为人知的经验法则称为Dennard Scaling,当晶体管的尺寸缩小到今天的纳米尺寸时,它们会泄漏电流并升温。这种“耗能墙”限制了它们可以合理运行的时钟速度。因此,处理器设计人员必须越来越多地寻找替代方法提高计算性能。主流几何计算机视觉开始利用近10年前GPU(图形处理器)形式的并行处理,而在Spatial AI中,这帮助了稠密SLAM的突破。我们相信未来嵌入式Spatial AI系统将具有异构、多核、专用的架构,其中低功耗操作必须与高性能一起实现。用于嵌入式视觉的标准SoC(片上系统)从现在到未来都可用于个人移动设备、无人机或AR眼镜等。但是,它也可能有一些针对低功耗实时视觉进行优化的专用处理器。

高阶设计

  尽管云连接共享地图构建具有明显的潜力,但我们选择专注于单个设备的设计,因为这是在任何应用程序中最常用的设置,而无需额外的基础设施。高阶想法首先要考虑的是设备需要做什么:识别、定位、导航、操作等。我们确定可以通过高性能但低功耗要求实现所有这些核心方式。我们认为空间人工智能中高效处理的关键是在所需算法中识别计算和数据移动的图数据结构,并尽可能地利用或设计具有相同属性的处理硬件。在处理视觉数据时,图结构是一种直观且高效的数据表示方式。例如,图像的像素可以表示为规则的矩形网格,而SLAM构建的地图可以表示为特征之间的连接图。这种图结构使得算法可以更好地利用局部信息和全局一致性来进行优化和推理。我们将这种图结构应用于实时回环检测、地图优化和跟踪等关键任务中。通过最小化数据移动和提高计算效率,我们可以实现更高效的空间人工智能系统。同时考虑与云连接的潜力以及嵌入式设备与云之间的通信成本和延迟问题对于设计实用的空间人工智能系统至关重要。通过合理的硬件和软件协同设计我们可以实现高效、低功耗的空间人工智能解决方案满足各种实际应用需求。

© 版权声明

相关文章