术语表

变压器

了解 Transformer 架构如何彻底改变人工智能,助力 NLP、计算机视觉和高级 ML 任务取得突破性进展。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

变形金刚代表了一种关键的神经网络架构,它极大地推动了人工智能(AI)机器学习(ML)领域的发展,尤其是在自然语言处理(NLP)领域,在计算机视觉(CV)领域的应用也日益广泛。在极具影响力的论文"Attention Is All You Need"中,我们介绍了神经网络架构,它使用一种称为 "自我注意"的机制来处理文本或时间序列等序列数据。这使得模型能够动态权衡输入不同部分的重要性,克服了循环神经网络(RNN)等旧架构的主要局限性。

变压器的工作原理

Transformers 的核心创新在于自我关注机制。RNN 是按顺序处理输入的(一个元素接着一个元素),由于梯度消失等问题,RNN 在处理长序列时会很吃力,而 Transformers 则不同,它可以同时考虑输入序列的所有部分。这种并行处理能力大大加快了在现代硬件(如英伟达等公司的GPU)上的训练速度。 NVIDIA.

典型的卷积神经网络(CNN)通过固定大小的滤波器进行卷积,专注于局部特征,而注意力机制允许变形器捕捉整个输入中的长距离依赖关系和上下文关系。这种理解全局上下文的能力对于涉及复杂关系的任务至关重要,无论是文本还是视觉转换器(ViTs)中使用的图像补丁。

相关性和影响

变形器在捕捉上下文和处理长序列方面非常有效,因此已成为许多先进人工智能模型的基础。变形金刚的可并行性使其能够训练具有数十亿个参数的大型模型,如OpenAI 开发的GPT-3GPT - 4,从而在生成式人工智能领域取得突破性进展。这种可扩展性和性能使变形金刚成为各种人工智能任务取得进展的核心,推动了整个研究和行业的创新。许多流行的变形金刚模型,如BERT,都可以通过以下平台随时获取 Hugging Face等平台提供,并使用 PyTorchTensorFlow等框架实现,通常集成到 MLOps 平台(如Ultralytics HUB)中。

人工智能和 ML 的应用

变压器用途广泛,可为众多人工智能应用提供动力:

变压器与其他架构

将变形金刚与其他常见的神经网络架构区分开来很有帮助:

  • 变换器与 RNN:RNNs 按顺序处理数据,因此适用于时间序列数据,但容易遗忘长序列中的早期信息(梯度消失问题)。变换器利用自我关注并行处理序列,能更有效地捕捉长程依赖关系,在并行硬件(GPU)上的训练速度更快。
  • 变形器与 CNN:CNN 擅长使用卷积滤波器识别网格状数据(如图像中的像素)中的局部模式。对于许多视觉任务(如 Ultralytics YOLO模型所处理的任务。变换器,尤其是 ViTs,将图像划分为斑块,并使用自我关注来模拟斑块之间的关系,从而更好地捕捉全局上下文,但通常需要更多的数据和计算资源,尤其是在模型训练期间。混合架构结合了 CNN 特征和 Transformer 层,旨在充分利用两者的优势,这在一些RT-DETR 变体中有所体现。选择通常取决于具体任务、数据集大小和可用计算资源
阅读全部
OSZAR »