了解人工智能如何将抽象概念与现实世界的数据联系起来,从而增强动态应用中的语境、准确性和信任度。
人工智能中的 "接地 "是指将语言或符号等抽象信息与图像或声音等具体的真实世界感官数据相联系的基本过程。它通过将人工智能系统内部处理的概念(如文字描述中的词语)与通过传感器感知的事物(如摄像机画面中的物体)联系起来,使人工智能系统对世界建立起有意义的理解。这种能力是创建人工智能的基础,人工智能可以根据环境进行智能交互,超越简单的模式识别,实现更接近人类将文字与物体和行动联系起来的理解形式。对于同时处理多种类型数据的多模态模型来说,接地尤为重要,它可以弥合文本和视觉等不同信息模态之间的差距。
接地对于视觉语言模型(VLM)(如YOLO 模型)来说尤为重要,该模型旨在缩小视觉感知与自然语言理解(NLU)之间的差距。传统的物体检测通常会识别属于一组预定义类别(如 "汽车"、"人"、"狗")的物体,而接地则不同,它允许模型根据自由形式的文本描述来定位物体。例如,在回答 "找到戴红色头盔、骑蓝色自行车的人 "的询问时,接地的 VLM 不只是检测 "人 "和 "自行车",而是具体定位图像或视频帧中的对象配置。这就需要将文本概念("人"、"红色头盔"、"骑着"、"蓝色自行车")与视觉数据中的相应像素和空间关系联系起来。这种将语言与特定视觉细节联系起来的能力增强了对上下文的理解,并与语义搜索的进步密切相关,在语义搜索中,意义而不仅仅是关键词驱动着信息检索。
通过接地,可以在各个领域实现更复杂的交互式人工智能应用:
实现有效的接地往往依赖于先进的深度学习(DL)技术。注意力机制,尤其是跨模态注意力,有助于模型关注文本输入(如提示中的特定单词)和感官输入(如图像中的特定区域)的相关部分。变压器网络在自然语言处理(NLP)中得到广泛应用,通常适用于涉及接地的多模态任务,如CLIP 等模型。训练这些模型需要大量高质量的注释数据集,这些数据 集中的注释明确地将文本和视觉元素联系在一起,这就凸显了良好的数据标注实践的重要性,而良好的数据标注实践通常是通过Ultralytics HUB 等平台来管理的。我们还采用了对比学习等技术来教授模型有效地关联相应的文本和图像对,通常使用的框架有 PyTorch或 TensorFlow.
开发强大的接地能力面临多项挑战。处理自然语言固有的模糊性和多变性非常困难。创建必要的大规模精确注释数据集耗费大量人力和财力。训练复杂的多模态模型需要大量计算资源,通常涉及分布式训练 或云训练。确保模型能高效地进行实时推理,也是实际部署的一个重大障碍。零镜头学习和少镜头学习等领域的研究仍在继续,以提高对未见物体描述的泛化能力并降低数据依赖性。
基础仍是人工智能的一个重要前沿领域,它推动系统更深入、更可操作地了解世界,从而更接近人类的认知,实现更自然的人机交互。