了解训练数据在人工智能中的重要性。了解高质量的数据集如何为实际任务提供准确、强大的机器学习模型。
在人工智能(AI)和机器学习(ML)领域,训练数据是用于指导模型执行特定任务(如分类或预测)的基本数据集。它由大量示例组成,每个示例通常将输入与相应的预期输出或标签配对。通过 "监督学习"(Supervised Learning)等过程,模型会分析这些数据,识别潜在的模式和关系,并调整其内部参数(模型权重),以学习从输入到输出的映射。这种学习能让模型在遇到以前未见过的新数据时做出准确的预测或决策。
将训练数据视为人工智能模型的教科书和练习题。它是一组精心策划的信息,专门用于在学习阶段作为示例。例如,在物体检测等计算机视觉(CV)任务中,训练数据由图像或视频帧(输入特征)和注释(标签)组成,注释(标签)指定了这些图像中物体的位置(边界框)和类别。创建这些标签是一个关键步骤,被称为 "数据标签"。模型会迭代处理这些数据,将其预测结果与真实标签进行比较,并使用反向传播和梯度下降等技术调整其参数,以最小化误差或损失函数。
人工智能模型的性能和可靠性与其训练数据的质量、数量和多样性直接相关。高质量、有代表性的数据对于建立高准确度并能很好地泛化到现实世界场景的模型至关重要(ML 中的泛化)。相反,训练数据不足、嘈杂或有偏差会导致一些重大问题,如性能不佳、过拟合(模型在训练数据上表现良好,但在新数据上表现不佳),或由于固有的数据集偏差导致不公平和歧视性的结果。解决偏差问题是人工智能伦理的一个关键方面。因此,细致的数据收集、注释和准备是开发成功人工智能系统的关键阶段。
训练数据是各领域无数人工智能应用的燃料。这里有两个例子:
确保训练数据的高质量至关重要,其中包括几个关键步骤。数据清理(维基百科)处理错误、不一致和缺失值。数据预处理将原始数据转换成适合模型的格式。数据扩充(Data Augmentation)等技术通过创建现有数据的修改副本(如旋转或裁剪图像)来人为扩展数据集,这有助于提高模型的稳健性并减少过拟合。在开始训练之前,通过Ultralytics 数据集资源管理器等工具进行探索来了解数据也是至关重要的。
在典型的 ML 项目中,数据被分成三个不同的集合:
要开发可靠的模型并准确评估其能力,就必须严格区分这些数据集。Ultralytics HUB等平台提供了在整个模型开发周期中有效管理这些数据集的工具。最先进的模型,如 Ultralytics YOLO等先进模型通常在COCO或ImageNet 等大型基准数据集上进行预训练,这些数据集可作为广泛的训练数据。