术语表

接地

了解人工智能如何将抽象概念与现实世界的数据联系起来，从而增强动态应用中的语境、准确性和信任度。

人工智能中的 "接地 "是指将语言或符号等抽象信息与图像或声音等具体的真实世界感官数据相联系的基本过程。它通过将人工智能系统内部处理的概念（如文字描述中的词语）与通过传感器感知的事物（如摄像机画面中的物体）联系起来，使人工智能系统对世界建立起有意义的理解。这种能力是创建人工智能的基础，人工智能可以根据环境进行智能交互，超越简单的模式识别，实现更接近人类将文字与物体和行动联系起来的理解形式。对于同时处理多种类型数据的多模态模型来说，接地尤为重要，它可以弥合文本和视觉等不同信息模态之间的差距。

接地的实际应用

通过接地，可以在各个领域实现更复杂的交互式人工智能应用：

交互式机器人技术：机器人能够理解并执行以自然语言下达的指令，这些指令指向环境中的特定物体，例如 "捡起窗户旁边的绿色盒子"。这需要将 "绿盒子 "和 "窗户 "与机器人传感器感知到的实际物体联系起来。了解有关人工智能在机器人技术中的作用的更多信息，并查看波士顿动力等公司的示例。
增强型自主系统：自动驾驶汽车可以更好地解读文本或语音描述的复杂交通场景，如 "小心前面停着的送货卡车"。这需要将描述与汽车计算机视觉（CV）系统识别出的特定车辆联系起来。了解Waymo 等公司使用的技术。
详细的医学图像分析：放射科医生可以使用文本查询来确定医学扫描（如 X 光或核磁共振成像）中的特定异常或感兴趣的区域，如 "突出显示病人笔记中描述的病变"。这可以提高诊断效率和准确性。请参阅使用YOLO 进行肿瘤检测的相关工作以及发表在《放射学》等期刊上的研究：人工智能。
基于内容的图像/视频检索：用户可以使用高度具体的自然语言查询来搜索庞大的视觉数据库，例如 "查找山间日落和云彩的照片"，而不仅仅是简单的标签或关键词。

技术方面

实现有效的接地往往依赖于先进的深度学习（DL）技术。注意力机制，尤其是跨模态注意力，有助于模型关注文本输入（如提示中的特定单词）和感官输入（如图像中的特定区域）的相关部分。变压器网络在自然语言处理（NLP）中得到广泛应用，通常适用于涉及接地的多模态任务，如CLIP 等模型。训练这些模型需要大量高质量的注释数据集，这些数据集中的注释明确地将文本和视觉元素联系在一起，这就凸显了良好的数据标注实践的重要性，而良好的数据标注实践通常是通过Ultralytics HUB 等平台来管理的。我们还采用了对比学习等技术来教授模型有效地关联相应的文本和图像对，通常使用的框架有 PyTorch或 TensorFlow.

与相关概念的区别

对象检测：标准的对象检测可识别预定义对象类别（如 "猫"、"汽车"）的实例，并在其周围画出边界框。而 "定位 "则是根据潜在的复杂、开放词汇的自然语言描述来定位对象，而不局限于固定的类别。
语义分割：这项任务会为图像中的每个像素分配一个类别标签（例如，将所有像素标记为 "道路"、"天空"、"建筑"）。定位的重点是将特定语言短语与图像中的特定区域或对象实例联系起来，而不是对每个像素进行分类。它与引用表达分割（一种实例分割）的关系更为密切。

挑战

开发强大的接地能力面临多项挑战。处理自然语言固有的模糊性和多变性非常困难。创建必要的大规模精确注释数据集耗费大量人力和财力。训练复杂的多模态模型需要大量计算资源，通常涉及分布式训练或云训练。确保模型能高效地进行实时推理，也是实际部署的一个重大障碍。零镜头学习和少镜头学习等领域的研究仍在继续，以提高对未见物体描述的泛化能力并降低数据依赖性。

基础仍是人工智能的一个重要前沿领域，它推动系统更深入、更可操作地了解世界，从而更接近人类的认知，实现更自然的人机交互。

接地

使用Ultralytics HUB 对YOLO 模型进行简单培训

灵活的企业许可解决方案为您的创新提供动力

利用Ultralytics YOLO

使用Ultralytics HUB 对YOLO 模型进行简单培训

相关性和关键概念

接地的实际应用

技术方面

与相关概念的区别

挑战

阅读更多博客

加入Ultralytics 社区