术语表

培训数据

了解训练数据在人工智能中的重要性。了解高质量的数据集如何为实际任务提供准确、强大的机器学习模型。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

人工智能(AI)机器学习(ML)领域,训练数据是用于指导模型执行特定任务(如分类或预测)的基本数据集。它由大量示例组成,每个示例通常将输入与相应的预期输出或标签配对。通过 "监督学习"(Supervised Learning)等过程,模型会分析这些数据,识别潜在的模式和关系,并调整其内部参数(模型权重),以学习从输入到输出的映射。这种学习能让模型在遇到以前未见过的新数据时做出准确的预测或决策。

什么是训练数据?

将训练数据视为人工智能模型的教科书和练习题。它是一组精心策划的信息,专门用于在学习阶段作为示例。例如,在物体检测计算机视觉(CV)任务中,训练数据由图像或视频帧(输入特征)和注释(标签)组成,注释(标签)指定了这些图像中物体的位置(边界框)和类别。创建这些标签是一个关键步骤,被称为 "数据标签"。模型会迭代处理这些数据,将其预测结果与真实标签进行比较,并使用反向传播梯度下降等技术调整其参数,以最小化误差或损失函数

训练数据的重要性

人工智能模型的性能和可靠性与其训练数据的质量、数量和多样性直接相关。高质量、有代表性的数据对于建立高准确度并能很好地泛化到现实世界场景的模型至关重要(ML 中的泛化)。相反,训练数据不足、嘈杂或有偏差会导致一些重大问题,如性能不佳、过拟合(模型在训练数据上表现良好,但在新数据上表现不佳),或由于固有的数据集偏差导致不公平和歧视性的结果。解决偏差问题是人工智能伦理的一个关键方面。因此,细致的数据收集、注释和准备是开发成功人工智能系统的关键阶段。

真实世界应用中的训练数据示例

训练数据是各领域无数人工智能应用的燃料。这里有两个例子:

  1. 自动驾驶汽车自动驾驶汽车在很大程度上依赖于感知系统的训练数据。这些数据包括来自摄像头、激光雷达和雷达传感器的海量录像,上面精心标注了其他车辆、行人、骑车人、交通信号灯和车道标记等物体。像Waymo 技术中使用的模型就是在Argoverse这样的数据集上训练出来的,以学习如何在复杂的环境中安全导航。探索人工智能在汽车解决方案中的应用,了解更多详情。
  2. 情感分析自然语言处理(NLP)中,情感分析模型可确定文本背后的情感基调。训练数据包括标有 "正面"、"负面 "或 "中性 "等情感的文本样本(如客户评论、社交媒体帖子)(情感分析 - 维基百科)。这样,企业就可以自动评估公众意见或客户满意度。

数据质量和准备

确保训练数据的高质量至关重要,其中包括几个关键步骤。数据清理(维基百科)处理错误、不一致和缺失值。数据预处理将原始数据转换成适合模型的格式。数据扩充(Data Augmentation)等技术通过创建现有数据的修改副本(如旋转或裁剪图像)来人为扩展数据集,这有助于提高模型的稳健性并减少过拟合。在开始训练之前,通过Ultralytics 数据集资源管理器等工具进行探索来了解数据也是至关重要的。

训练数据与验证和测试数据

在典型的 ML 项目中,数据被分成三个不同的集合:

要开发可靠的模型并准确评估其能力,就必须严格区分这些数据集。Ultralytics HUB等平台提供了在整个模型开发周期中有效管理这些数据集的工具。最先进的模型,如 Ultralytics YOLO等先进模型通常在COCOImageNet 等大型基准数据集上进行预训练,这些数据集可作为广泛的训练数据。

阅读全部
OSZAR »