术语表

接地

了解人工智能如何将抽象概念与现实世界的数据联系起来,从而增强动态应用中的语境、准确性和信任度。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

人工智能中的 "接地 "是指将语言或符号等抽象信息与图像或声音等具体的真实世界感官数据相联系的基本过程。它通过将人工智能系统内部处理的概念(如文字描述中的词语)与通过传感器感知的事物(如摄像机画面中的物体)联系起来,使人工智能系统对世界建立起有意义的理解。这种能力是创建人工智能的基础,人工智能可以根据环境进行智能交互,超越简单的模式识别,实现更接近人类将文字与物体和行动联系起来的理解形式。对于同时处理多种类型数据的多模态模型来说,接地尤为重要,它可以弥合文本和视觉等不同信息模态之间的差距。

相关性和关键概念

接地对于视觉语言模型(VLM)(如YOLO 模型)来说尤为重要,该模型旨在缩小视觉感知与自然语言理解(NLU)之间的差距。传统的物体检测通常会识别属于一组预定义类别(如 "汽车"、"人"、"狗")的物体,而接地则不同,它允许模型根据自由形式的文本描述来定位物体。例如,在回答 "找到戴红色头盔、骑蓝色自行车的人 "的询问时,接地的 VLM 不只是检测 "人 "和 "自行车",而是具体定位图像或视频帧中的对象配置。这就需要将文本概念("人"、"红色头盔"、"骑着"、"蓝色自行车")与视觉数据中的相应像素和空间关系联系起来。这种将语言与特定视觉细节联系起来的能力增强了对上下文的理解,并与语义搜索的进步密切相关,在语义搜索中,意义而不仅仅是关键词驱动着信息检索。

接地的实际应用

通过接地,可以在各个领域实现更复杂的交互式人工智能应用:

  • 交互式机器人技术机器人能够理解并执行以自然语言下达的指令,这些指令指向环境中的特定物体,例如 "捡起窗户旁边的绿色盒子"。这需要将 "绿盒子 "和 "窗户 "与机器人传感器感知到的实际物体联系起来。了解有关人工智能在机器人技术中的作用的更多信息,并查看波士顿动力等公司的示例。
  • 增强型自主系统自动驾驶汽车可以更好地解读文本或语音描述的复杂交通场景,如 "小心前面停着的送货卡车"。这需要将描述与汽车计算机视觉(CV)系统识别出的特定车辆联系起来。了解Waymo 等公司使用的技术。
  • 详细的医学图像分析放射科医生可以使用文本查询来确定医学扫描(如 X 光或核磁共振成像)中的特定异常或感兴趣的区域,如 "突出显示病人笔记中描述的病变"。这可以提高诊断效率和准确性。请参阅使用YOLO 进行肿瘤检测的相关工作以及发表在《放射学》等期刊上的研究:人工智能
  • 基于内容的图像/视频检索用户可以使用高度具体的自然语言查询来搜索庞大的视觉数据库,例如 "查找山间日落和云彩的照片",而不仅仅是简单的标签或关键词。

技术方面

实现有效的接地往往依赖于先进的深度学习(DL)技术。注意力机制,尤其是跨模态注意力,有助于模型关注文本输入(如提示中的特定单词)和感官输入(如图像中的特定区域)的相关部分。变压器网络自然语言处理(NLP)中得到广泛应用,通常适用于涉及接地的多模态任务,如CLIP 等模型。训练这些模型需要大量高质量的注释数据集,这些数据 集中的注释明确地将文本和视觉元素联系在一起,这就凸显了良好的数据标注实践的重要性,而良好的数据标注实践通常是通过Ultralytics HUB 等平台来管理的。我们还采用了对比学习等技术来教授模型有效地关联相应的文本和图像对,通常使用的框架有 PyTorchTensorFlow.

与相关概念的区别

  • 对象检测标准的对象检测可识别预定义对象类别(如 "猫"、"汽车")的实例,并在其周围画出边界框。而 "定位 "则是根据潜在的复杂、开放词汇的自然语言描述来定位对象,而不局限于固定的类别。
  • 语义分割这项任务会为图像中的每个像素分配一个类别标签(例如,将所有像素标记为 "道路"、"天空"、"建筑")。定位的重点是将特定语言短语与图像中的特定区域或对象实例联系起来,而不是对每个像素进行分类。它与引用表达分割(一种实例分割)的关系更为密切。

挑战

开发强大的接地能力面临多项挑战。处理自然语言固有的模糊性和多变性非常困难。创建必要的大规模精确注释数据集耗费大量人力和财力。训练复杂的多模态模型需要大量计算资源,通常涉及分布式训练 或云训练。确保模型能高效地进行实时推理,也是实际部署的一个重大障碍。零镜头学习和少镜头学习等领域的研究仍在继续,以提高对未见物体描述的泛化能力并降低数据依赖性。

基础仍是人工智能的一个重要前沿领域,它推动系统更深入、更可操作地了解世界,从而更接近人类的认知,实现更自然的人机交互。

阅读全部
OSZAR »