Глоссарий

Токен

Узнай, как токены, строительные блоки моделей искусственного интеллекта, питают NLP, компьютерное зрение и такие задачи, как анализ настроения и обнаружение объектов.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

В сфере искусственного интеллекта (AI) и машинного обучения (ML), особенно в обработке естественного языка (NLP) и все чаще в компьютерном зрении, "токен" представляет собой наименьшую единицу данных, которую обрабатывает модель. Думай о токенах как о фундаментальных строительных блоках, которые модели ИИ используют для понимания и анализа информации, будь то текст, изображения или другие формы данных. Они необходимы для преобразования исходных данных в формат, который алгоритмы могут интерпретировать и на котором они могут учиться, формируя основу для многих сложных задач ИИ.

Понимание токенов

Токены - это дискретные выходы процесса, который называется Токенизация. В NLP, например, такое предложение, какUltralytics YOLO - быстрый и точный", можно разбить на отдельные слова: ["Ultralytics", "YOLO", "is", "fast", "and", "accurate"]. В зависимости от конкретной стратегии токенизации, токены также могут быть единицами подслова (например, "ультра", "литика") или даже отдельными символами. Такое разбиение превращает непрерывный текст или сложные данные в управляемые фрагменты.

Причина, по которой токены имеют решающее значение, заключается в том, что большинство моделей глубокого обучения, включая такие мощные архитектуры, как трансформеры, используемые во многих современных системах ИИ, не могут напрямую обрабатывать сырые, неструктурированные данные. Им требуется ввод в структурированном, часто числовом, формате. Токенизация обеспечивает этот мост. После того как данные токенизированы, каждый токен обычно сопоставляется с числовым представлением, например с идентификатором в словаре или, что более распространено, с плотными векторными представлениями, называемыми эмбеддингами. Эти вкрапления фиксируют семантические связи между лексемами, которые модели изучают в процессе обучения.

Методы токенизации

Существуют разные методы разбиения данных на токены:

  • Токенизация на основе слов: Разделяй текст на основе пробелов и знаков препинания. Просто, но не справляется с большими словарями и неизвестными словами.
  • Токенизация на основе символов: Используй отдельные символы в качестве лексем. Справляется с любыми словами, но в результате получаются очень длинные последовательности.
  • Токенизация подслова: Баланс между словесными и символьными методами. Такие методы, как Byte Pair Encoding (BPE) или WordPiece, разбивают слова на общие субъединицы, эффективно справляясь с большими словарями и редкими словами. Они широко используются в больших языковых моделях (Large Language Models, LLM).

Токены против смежных понятий

Важно отличать токены от родственных терминов:

  • Токен против токенизации: Токен - это выходная единица (например,Ultralytics', 'image patch'), а токенизация - это процесс создания этих единиц из сырых данных.
  • Токен против встраивания: Токен - это дискретная единица входного сигнала. Эмбеддинг - это, как правило, плотный числовой вектор, который представляет токен, передавая его смысл в понятном для модели виде. Токены часто преобразуются в вкрапления слов или визуальные вкрапления перед тем, как попасть в модель.

Применение токенов

Токены играют основополагающую роль в различных областях ИИ. Вот два конкретных примера:

  1. Машинный перевод: В таких сервисах, как Google Translate, входное предложение на одном языке сначала обрабатывается лексемами. Эти лексемы обрабатываются моделью преобразования последовательности в последовательность (часто трансформером), которая затем генерирует лексемы, представляющие переведенное предложение на целевом языке. Выбор токенизации существенно влияет на точность и беглость перевода. Такие LLM, как GPT-4 и BERT, в значительной степени полагаются на обработку лексем для решения таких задач, как перевод, генерация текста и анализ настроения. Такие техники, как настройка подсказок и цепочки подсказок, предполагают манипулирование последовательностями входных лексем для управления поведением модели.

  2. Компьютерное зрение с трансформерами: Традиционно ассоциируясь с НЛП, лексемы теперь занимают центральное место в продвинутых моделях компьютерного зрения, таких как трансформаторы зрения (ViTs). В ViT изображение делится на непересекающиеся участки фиксированного размера (например, 16х16 пикселей). Каждый патч рассматривается как "визуальный маркер". Эти маркеры линейно встраиваются и подаются в архитектуру трансформера, который использует механизмы внимания для анализа связей между различными частями изображения. Этот подход используется для таких задач, как классификация изображений, обнаружение объектов и сегментация изображений. Такие модели, как Segment Anything Model (SAM), используют этот подход на основе токенов. Даже в конволюционных моделях, таких как Ultralytics YOLOv8 или более новая Ultralytics YOLO11Система ячеек сетки, используемая для обнаружения, может рассматриваться как неявная форма пространственной токенизации.

Понимание лексем имеет фундаментальное значение для понимания того, как модели ИИ интерпретируют и обрабатывают информацию. По мере развития ИИ концепция токенов и методы их создания будут оставаться центральными для работы с различными типами данных и построения более сложных моделей для самых разных приложений - от анализа медицинских изображений до автономных транспортных средств. Такие платформы, как Ultralytics HUB, предоставляют инструменты для управления наборами данных и обучения моделей, в которых часто используются данные, неявно или явно токенизированные.

Читать полностью
OSZAR »