术语表

卷积

了解卷积如何为计算机视觉中的人工智能提供动力,使物体检测、图像识别和医学成像等任务得以精确完成。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

卷积是人工智能,尤其是计算机视觉(CV)领域广泛使用的一种基本数学运算。它是卷积神经网络(CNN)的重要组成部分,使这些网络能够直接从网格状数据(如图像或视频)中自动学习复杂的分层模式。这一过程包括在输入信号或图像上应用一个小型滤波器(称为内核)。这一操作会产生一个称为特征图的输出,突出显示内核旨在检测的特定模式(如边缘、纹理或形状)。

卷积如何工作

将卷积过程想象为在一幅较大的图像(输入数据)上滑动一个小放大镜(内核或滤波器)。在每个位置,内核都会聚焦于输入数据的一小块区域。然后,卷积操作会使用内核中定义的权重计算出这一小块区域内像素值的加权和。计算出的值将成为输出特征图中的单个像素。核在整个输入图像中系统地逐步移动,步长由一个称为"步长"的参数决定。有时,输入图像周围会使用"填充"(添加额外的边界像素)来控制输出大小。通过在单个卷积层中应用多个核,CNN 可以同时从输入中提取多种特征。斯坦福 CS231n 课程笔记中的可视化解释可以提供进一步的直观认识。

卷积的关键组成部分

几个参数定义了卷积操作:

  • 内核/过滤器:一个小矩阵,包含检测特定特征的权重(滤波器权重)。内核的大小决定了每一步处理的局部区域。
  • 步长内核每一步在输入图像上移动的像素数。步长越大,输出的特征图越小。
  • 填充在输入图像的边界周围添加像素(通常为零值)。这有助于控制输出的空间尺寸,让内核更有效地处理边缘像素。
  • 激活函数:通常,卷积操作的输出会通过一个非线性激活函数,如ReLU(整流线性单元),将非线性引入模型,使其能够学习更复杂的模式。

卷积与相关运算

卷积通常与 CNN 中的其他操作一起使用,但有其独特的作用:

  • 池化:最大池化或平均池化等操作用于减少特征图的空间维度(宽度和高度),使模型的计算效率更高,对特征位置的变化更稳健。与提取特征的卷积不同,汇集是对区域内的特征进行汇总。您可以查看池化方法概述,了解更多详情。
  • 全连接层:卷积层使用基于感受野的共享权重(参数共享)处理局部区域,而全连接层则将其输入中的每个神经元与其输出中的每个神经元连接起来。这些层通常用于标准神经网络 (NN)结构中CNN的末端,以完成最终分类或回归任务。

卷积的应用

卷积层在众多现代人工智能应用中不可或缺:

1.物体检测

物体检测中,CNN 利用卷积层从图像中提取特征,使其能够识别物体并使用边界框确定其位置。最先进的模型如 Ultralytics YOLO等最先进的模型,包括 YOLO11等版本,都严重依赖卷积来分析各种尺度的特征,以实现高效、准确的检测。这对于人工智能在汽车领域的应用至关重要,例如让自动驾驶汽车(参见 Waymo 的技术)感知行人、车辆和交通标志以实现安全导航,通常需要实时推理

2.医学图像分析

卷积在医学图像分析中发挥着重要作用,可协助医护人员解读 X 光、CT 扫描和核磁共振成像等扫描结果。利用 CNN 构建的人工智能模型可以检测出表明疾病(如肿瘤或骨折)的微妙模式,有时其速度和准确性甚至超过人类(《放射学:人工智能》)。例如,可以针对特定任务训练模型,如使用YOLO11 进行肿瘤检测。了解更多有关人工智能在医疗保健解决方案的应用。

除此之外,卷积对于图像识别图像分割等其他视觉任务也至关重要。

深度学习的重要性

卷积是现代深度学习(DL)的基石,尤其适用于涉及网格状数据的任务。与传统的全连接网络相比,卷积网络能够利用空间位置性(假设附近的像素是相关的)并在不同位置共享参数,这使得卷积网络在学习视觉分层方面具有很高的效率和效果。

工具和培训

各种深度学习框架有助于实施和训练使用卷积的模型。像 PyTorch(PyTorch 官方网站)和 TensorFlow(TensorFlow 官方网站)等库为构建 CNN 提供了强大的工具。Ultralytics HUB等平台简化了模型训练过程,允许用户利用预构建的架构结合卷积或为特定应用训练自定义模型。Keras等高级应用程序接口进一步简化了开发过程。

阅读全部
OSZAR »