Узнай, как токены, строительные блоки моделей искусственного интеллекта, питают NLP, компьютерное зрение и такие задачи, как анализ настроения и обнаружение объектов.
В сфере искусственного интеллекта (AI) и машинного обучения (ML), особенно в обработке естественного языка (NLP) и все чаще в компьютерном зрении, "токен" представляет собой наименьшую единицу данных, которую обрабатывает модель. Думай о токенах как о фундаментальных строительных блоках, которые модели ИИ используют для понимания и анализа информации, будь то текст, изображения или другие формы данных. Они необходимы для преобразования исходных данных в формат, который алгоритмы могут интерпретировать и на котором они могут учиться, формируя основу для многих сложных задач ИИ.
Токены - это дискретные выходы процесса, который называется Токенизация. В NLP, например, такое предложение, какUltralytics YOLO - быстрый и точный", можно разбить на отдельные слова: ["Ultralytics", "YOLO", "is", "fast", "and", "accurate"]
. В зависимости от конкретной стратегии токенизации, токены также могут быть единицами подслова (например, "ультра", "литика") или даже отдельными символами. Такое разбиение превращает непрерывный текст или сложные данные в управляемые фрагменты.
Причина, по которой токены имеют решающее значение, заключается в том, что большинство моделей глубокого обучения, включая такие мощные архитектуры, как трансформеры, используемые во многих современных системах ИИ, не могут напрямую обрабатывать сырые, неструктурированные данные. Им требуется ввод в структурированном, часто числовом, формате. Токенизация обеспечивает этот мост. После того как данные токенизированы, каждый токен обычно сопоставляется с числовым представлением, например с идентификатором в словаре или, что более распространено, с плотными векторными представлениями, называемыми эмбеддингами. Эти вкрапления фиксируют семантические связи между лексемами, которые модели изучают в процессе обучения.
Существуют разные методы разбиения данных на токены:
Важно отличать токены от родственных терминов:
Токены играют основополагающую роль в различных областях ИИ. Вот два конкретных примера:
Машинный перевод: В таких сервисах, как Google Translate, входное предложение на одном языке сначала обрабатывается лексемами. Эти лексемы обрабатываются моделью преобразования последовательности в последовательность (часто трансформером), которая затем генерирует лексемы, представляющие переведенное предложение на целевом языке. Выбор токенизации существенно влияет на точность и беглость перевода. Такие LLM, как GPT-4 и BERT, в значительной степени полагаются на обработку лексем для решения таких задач, как перевод, генерация текста и анализ настроения. Такие техники, как настройка подсказок и цепочки подсказок, предполагают манипулирование последовательностями входных лексем для управления поведением модели.
Компьютерное зрение с трансформерами: Традиционно ассоциируясь с НЛП, лексемы теперь занимают центральное место в продвинутых моделях компьютерного зрения, таких как трансформаторы зрения (ViTs). В ViT изображение делится на непересекающиеся участки фиксированного размера (например, 16х16 пикселей). Каждый патч рассматривается как "визуальный маркер". Эти маркеры линейно встраиваются и подаются в архитектуру трансформера, который использует механизмы внимания для анализа связей между различными частями изображения. Этот подход используется для таких задач, как классификация изображений, обнаружение объектов и сегментация изображений. Такие модели, как Segment Anything Model (SAM), используют этот подход на основе токенов. Даже в конволюционных моделях, таких как Ultralytics YOLOv8 или более новая Ultralytics YOLO11Система ячеек сетки, используемая для обнаружения, может рассматриваться как неявная форма пространственной токенизации.
Понимание лексем имеет фундаментальное значение для понимания того, как модели ИИ интерпретируют и обрабатывают информацию. По мере развития ИИ концепция токенов и методы их создания будут оставаться центральными для работы с различными типами данных и построения более сложных моделей для самых разных приложений - от анализа медицинских изображений до автономных транспортных средств. Такие платформы, как Ultralytics HUB, предоставляют инструменты для управления наборами данных и обучения моделей, в которых часто используются данные, неявно или явно токенизированные.