术语表

ReLU(整流线性单元)

探索 ReLU 的强大功能,ReLU 是深度学习中的一个关键激活函数,可帮助高效神经网络学习人工智能和 ML 的复杂模式。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

ReLU,即整流线性单元,是深度学习(DL)和神经网络领域的基石激活函数。它的广泛应用源于其显著的简单性和计算效率,这大大有助于神经网络(NN)从海量数据中学习复杂的模式。通过引入非线性,ReLU 使网络能够模拟错综复杂的关系,使其成为现代人工智能(AI)机器学习(ML)应用中不可或缺的工具,包括使用以下框架开发的应用 PyTorchTensorFlow.

ReLU 如何工作

ReLU 函数的核心操作非常简单:如果输入值为正,则直接输出输入值;如果输入值为负或零,则输出零。这种简单的阈值机制为神经网络引入了重要的非线性。如果没有像 ReLU 这样的非线性函数,深度网络就会表现得像一个单一的线性层,严重限制了其学习图像识别自然语言处理(NLP)等任务所需的复杂函数的能力。在网络层中,每个神经元都会对其加权输入总和应用 ReLU 函数。如果总和为正,神经元就会 "点火 "并将数值向前传递。如果总和为负,神经元的输出为零,对该特定输入无效。这将导致稀疏激活,即在任何给定时间内只有神经元子集处于激活状态,从而提高计算效率,并帮助网络学习更稳健的特征表征

ReLU 的优势

ReLU 具有几个关键优势,使其在深度学习领域大受欢迎:

  • 计算效率:ReLU 只需要进行简单的比较,并有可能将某个值设为零,因此计算速度比sigmoidtanh 等更复杂的激活函数快得多。这加快了训练推理阶段的速度。
  • 减少消失的梯度与 sigmoid 和 tanh 函数不同,ReLU 在正输入时梯度恒定为 1。这有助于缓解梯度消失问题,使梯度在反向传播过程中更有效地流动,并能训练更深层次的网络。
  • 促进稀疏性:通过将负输入输出为零,ReLU 自然而然地在网络激活中产生了稀疏性。这种稀疏性能带来更简洁、更稳健的模型,可能与生物神经网络中观察到的机制相似,并与稀疏编码等概念相关。

缺点和挑战

尽管 ReLU 有其优势,但也并非没有局限性:

  • 垂死 ReLU 问题:神经元有时会陷入一种状态,即在训练过程中遇到的所有输入都始终输出为零。如果大量的梯度更新导致权重发生偏移,神经元的输入总是负值,就会出现这种情况。一旦出现这种情况,流经该神经元的梯度就会变为零,从而无法通过梯度下降进一步更新权重。该神经元实际上已经 "死亡",不再对网络的学习做出贡献。
  • 非零中心输出:ReLU 的输出总是非负的(零或正)。与以零为中心的激活函数相比,这种不以零为中心的输出有时会减慢梯度下降优化过程的收敛速度。

ReLU 与其他激活功能的比较

ReLU 经常与其变体和其他激活函数进行比较。Leaky ReLU解决了垂死 ReLU 问题,当输入为负值时,允许有少量非零梯度。指数线性单元(ELU)是另一种替代方法,其目的是产生更接近零的平均输出,并提供更平滑的梯度,但计算成本较高。SiLU(Sigmoid Linear Unit),又称 Swish,是另一种流行的选择,用于以下模型中 Ultralytics YOLOv8YOLOv10 等模型中使用的另一种流行选择,通常能在性能和效率之间取得良好的平衡(参见激活函数比较)。最佳选择往往取决于特定的神经网络架构、数据集(如ImageNet)和经验结果,通常通过超参数调整来确定。

人工智能和 ML 的应用

ReLU 是一种重要的激活函数,在用于计算机视觉(CV)任务的卷积神经网络(CNN)中尤其重要。它能有效处理非线性问题,是处理图像数据的理想选择。

  • 医学图像分析:用于医疗保健领域人工智能的CNN 通常在其隐藏层中采用 ReLU。例如,它们处理来自 X 射线或核磁共振成像的复杂视觉信息,检测肿瘤或骨折等异常情况,帮助放射科医生进行诊断(研究实例来自 PubMed Central)。ReLU 的效率对于快速分析大型医疗扫描至关重要。
  • 自动驾驶汽车: 自动驾驶汽车系统,如Waymo 等公司开发的系统,在很大程度上依赖于带有 ReLU 的 CNN。这些网络执行实时物体检测,以识别行人、其他车辆、交通信号和车道标记,从而实现安全导航。ReLU 的速度对于自动驾驶应用所需的低推理延迟至关重要。

虽然 ReLU 在 CNN 中很普遍,但也用于其他类型的神经网络,只是有时会被用于文本分类和其他 NLP 任务的Transformers等架构中的变体或其他功能所取代。最先进的模型如 Ultralytics YOLO等先进模型通常使用 ReLU 变体或 SiLU 等其他高效激活函数。您可以使用Ultralytics HUB 等平台训练和部署此类模型,并利用模型训练技巧指南获得最佳结果。

阅读全部
OSZAR »