了解卷积如何为计算机视觉中的人工智能提供动力,使物体检测、图像识别和医学成像等任务得以精确完成。
卷积是人工智能,尤其是计算机视觉(CV)领域广泛使用的一种基本数学运算。它是卷积神经网络(CNN)的重要组成部分,使这些网络能够直接从网格状数据(如图像或视频)中自动学习复杂的分层模式。这一过程包括在输入信号或图像上应用一个小型滤波器(称为内核)。这一操作会产生一个称为特征图的输出,突出显示内核旨在检测的特定模式(如边缘、纹理或形状)。
将卷积过程想象为在一幅较大的图像(输入数据)上滑动一个小放大镜(内核或滤波器)。在每个位置,内核都会聚焦于输入数据的一小块区域。然后,卷积操作会使用内核中定义的权重计算出这一小块区域内像素值的加权和。计算出的值将成为输出特征图中的单个像素。核在整个输入图像中系统地逐步移动,步长由一个称为"步长"的参数决定。有时,输入图像周围会使用"填充"(添加额外的边界像素)来控制输出大小。通过在单个卷积层中应用多个核,CNN 可以同时从输入中提取多种特征。斯坦福 CS231n 课程笔记中的可视化解释可以提供进一步的直观认识。
几个参数定义了卷积操作:
卷积通常与 CNN 中的其他操作一起使用,但有其独特的作用:
卷积层在众多现代人工智能应用中不可或缺:
在物体检测中,CNN 利用卷积层从图像中提取特征,使其能够识别物体并使用边界框确定其位置。最先进的模型如 Ultralytics YOLO等最先进的模型,包括 YOLO11等版本,都严重依赖卷积来分析各种尺度的特征,以实现高效、准确的检测。这对于人工智能在汽车领域的应用至关重要,例如让自动驾驶汽车(参见 Waymo 的技术)感知行人、车辆和交通标志以实现安全导航,通常需要实时推理。
卷积在医学图像分析中发挥着重要作用,可协助医护人员解读 X 光、CT 扫描和核磁共振成像等扫描结果。利用 CNN 构建的人工智能模型可以检测出表明疾病(如肿瘤或骨折)的微妙模式,有时其速度和准确性甚至超过人类(《放射学:人工智能》)。例如,可以针对特定任务训练模型,如使用YOLO11 进行肿瘤检测。了解更多有关人工智能在医疗保健解决方案中的应用。
除此之外,卷积对于图像识别和图像分割等其他视觉任务也至关重要。
卷积是现代深度学习(DL)的基石,尤其适用于涉及网格状数据的任务。与传统的全连接网络相比,卷积网络能够利用空间位置性(假设附近的像素是相关的)并在不同位置共享参数,这使得卷积网络在学习视觉分层方面具有很高的效率和效果。
各种深度学习框架有助于实施和训练使用卷积的模型。像 PyTorch(PyTorch 官方网站)和 TensorFlow(TensorFlow 官方网站)等库为构建 CNN 提供了强大的工具。Ultralytics HUB等平台简化了模型训练过程,允许用户利用预构建的架构结合卷积或为特定应用训练自定义模型。Keras等高级应用程序接口进一步简化了开发过程。