术语表

幻觉(在法律硕士中)

发现大型语言模型 (LLM) 中产生幻觉的原因,并探索有效的策略来减少人工智能生成内容的不准确性。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

幻觉指的是大语言模型(LLM)生成的文本无意义、与事实不符或与所提供的输入上下文无关,尽管看起来自信且连贯的现象。这些输出并不基于模型的训练数据或外部现实,而是模型试图预测下一个最有可能的单词或标记的内部过程的产物。理解幻觉对于负责任地开发和部署人工智能(AI)系统至关重要,尤其是那些用于信息检索、内容创建或在聊天机器人虚拟助手等平台内进行决策的系统。

为什么会产生幻觉

LLM 通常建立在Transformer(在"Attention Is All You Need"论文中介绍过)这样的架构上,从根本上说是一种概率模型。在训练过程中,它们会从大量文本数据中学习模式、语法和事实关联,使用的框架包括 PyTorchTensorFlow.然而,它们缺乏真正的理解、意识或内在验证信息的能力。产生幻觉的原因有多种:

  • 训练数据的局限性:模型可能是在嘈杂、有偏见或与事实不符的数据上训练出来的,也可能是在特定主题上缺乏足够的信息。它试图根据学到的模式 "填补空白",从而导致编造。
  • 模型架构和训练:GPT-4这样的模型处理信息和逐字生成序列的方式可能会导致它们走上在统计上看似合理但实际上不正确的道路。深度学习模型的复杂性使其容易出现不可预测的行为。
  • 解码策略:文本生成(推理)过程中使用的参数,如 "温度",会影响随机性。温度越高,创造力越强,但产生幻觉的风险也越大。
  • 缺乏基础:如果没有将生成的文本与现实世界的知识或特定源文件联系起来的机制,模型就会陷入无据可循的境地。接地等技术旨在解决这一问题。
  • 提示模糊:含糊不清或表述不清的提示会导致模型做出假设或产生限制较少的输出,从而增加不准确的可能性。有效的提示工程是关键。

真实案例和影响

幻觉的表现形式多种多样,会带来重大风险,如传播错误信息、生成有害内容或削弱用户对人工智能系统的信任。

  1. 聊天机器人捏造事实:用户可能会向聊天机器人询问一个具体的科学发现,而聊天机器人可能会编造细节,将发现归因于错误的人,或以极高的可信度描述一个不存在的事件。
  2. 编造法律引文:在一起被广泛报道的事件中,律师使用人工智能工具进行法律研究,结果生成了完全捏造的案例引文,并在法庭文件中进行了陈述,导致了制裁。

这种影响不仅仅是简单的错误,它还对人工智能系统的可靠性提出了挑战,尤其是当它们被集成到搜索引擎(如Google的人工智能概述)、虚拟助手和内容创建工具中时。解决这一问题是人工智能伦理和安全方面的核心挑战,需要强有力的验证监控策略

区分幻觉和其他错误

区分幻觉和其他类型的人工智能错误非常重要:

  • 人工智能中的偏差这是指系统误差或倾斜输出,反映了训练数据中存在的偏差(如性别或种族成见)。幻觉通常是随机编造的,而不是一致的、有偏见的输出。了解数据集的偏差在这里至关重要。
  • 过度拟合当模型对训练数据(包括噪声)的学习效果太好,无法泛化到新的、未见过的数据(验证数据)时,就会出现这种情况。虽然过度拟合会导致性能低下,但它与产生全新的错误信息截然不同。
  • 过时信息:LLM 可能仅仅因为其训练数据不是最新的而提供错误信息。这是基于知识截止点的事实错误,而不是编造信息的幻觉。

缓解策略

研究人员和开发人员正积极致力于减少 LLM 幻觉:

  • 改进培训数据:收集更高质量、多样化和经过事实核查的数据集。使用高质量的基准数据集有所帮助。
  • 检索增强生成(RAG)让 LLM 具备从外部可靠知识库(如矢量数据库)获取和引用信息的能力,然后再生成响应。
  • 微调和 RLHF:在特定任务或数据集上完善基础模型,并使用从人类反馈中强化学习(RLHF)等技术,使模型行为与预期结果(如真实性)相一致。
  • 更好的提示: 思维链提示等技术可鼓励模型 "逐步思考",从而减少错误。
  • 输出验证:实施将生成的语句与已知事实或多种来源进行交叉检查的机制。
  • 调整推理参数:降低 "温度 "等设置可以使输出更加集中,减少随机性,从而降低幻觉风险。

LLM 专注于语言,而计算机视觉(CV)专业模型,如 Ultralytics YOLO等用于物体检测的模型,它们的运行方式不同,面临着确保检测准确性等不同的挑战。然而,结合语言和视觉的多模态模型(如 CLIP)的发展趋势意味着,理解幻觉等问题变得与各个领域息息相关。Ultralytics HUB等平台支持各种人工智能模型的训练和部署,促进了不同模式的开发。

阅读全部
OSZAR »