Глоссарий

Длительная кратковременная память (LSTM)

Узнай, как сети Long Short-Term Memory (LSTM) отлично справляются с последовательными данными, преодолевают ограничения RNN и питают такие задачи ИИ, как NLP и прогнозирование.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Long Short-Term Memory (LSTM) - это специализированный тип архитектуры рекуррентной нейронной сети (RNN), разработанный для преодоления ограничений традиционных RNN в обучении зависимостям на дальних расстояниях. Представленные Сеппом Хохрайтером и Юргеном Шмидхубером в 1997 году, LSTM особенно эффективны при обработке последовательностей данных, таких как текст, речь и временные ряды, где контекст из предыдущих частей последовательности имеет решающее значение для понимания последующих частей. Эта способность делает их краеугольным камнем технологии в различных приложениях Deep Learning (DL).

Как работают LSTM

Традиционные RNN борются с проблемой исчезающего градиента, когда информация с ранних этапов последовательности исчезает по мере распространения по сети, что затрудняет изучение зависимостей на больших интервалах времени. LSTM решают эту проблему с помощью уникальной структуры, включающей ячейки памяти и гейты.

Основной компонент - ячейка памяти, которая действует как конвейерная лента, позволяя информации проходить через сеть относительно неизменной. LSTM используют три основных "ворота" для регулирования информации, хранящейся в ячейке памяти:

  1. Ворота забывания: Решает, какую информацию из состояния ячейки нужно выбросить.
  2. Входные ворота: Решает, какую новую информацию хранить в состоянии клетки.
  3. Выходные ворота: Решает, какую часть состояния ячейки выводить.

Эти ворота, реализованные с помощью таких функций активации, как сигмоид и тангенс, учат, какую информацию важно сохранить или отбросить на каждом временном шаге, позволяя сети сохранять релевантный контекст на протяжении длительных последовательностей.

Применение в реальном мире

LSTM успешно применяются во многих областях, требующих моделирования последовательностей:

  • Обработка естественного языка (NLP): LSTM отлично справляются с такими задачами, как машинный перевод (например, перевод длинных предложений с сохранением смысла), анализ настроений (понимание мнений, выраженных в тексте) и языковое моделирование. Например, LSTM может обработать абзац текста, чтобы понять общее настроение, запоминая ключевые фразы из начала, которые влияют на смысл в конце.
  • Распознавание речи: Они используются для преобразования разговорной речи в текст путем моделирования временных зависимостей в аудиосигналах. Система на основе LSTM может распознавать слова и фразы, учитывая последовательность звуков во времени, что повышает точность по сравнению с моделями, которые не учитывают дальний контекст. Системы распознавания речиGoogle исторически использовали LSTM.
  • Анализ временных рядов: LSTM применяются для прогнозирования будущих значений на основе исторических данных, таких как цены на акции, погодные условия или потребление энергии. Способность запоминать долгосрочные тенденции делает их подходящими для сложного прогностического моделирования.
  • Анализ видео: LSTM могут обрабатывать последовательности видеокадров, чтобы понять действия или события, происходящие с течением времени, способствуя таким приложениям, как распознавание активности.

LSTM по сравнению с другими архитектурами

Несмотря на свою мощь, LSTM являются частью более широкого семейства моделей последовательности:

  • РНС: LSTM - это тип RNN, специально разработанный для того, чтобы избежать проблем с кратковременной памятью, свойственных простым RNN.
  • Gated Recurrent Units (GRUs): GRU - это разновидность LSTM с более простой архитектурой (меньшее количество вентилей). Они часто работают сопоставимо с LSTM в определенных задачах, но при этом менее требовательны к вычислительным ресурсам.
  • Трансформеры: Трансформаторы, появившиеся позже, опираются на механизмы внимания, а не на рекуррентность. Они в значительной степени превзошли LSTM по современной производительности для многих задач НЛП, особенно в больших языковых моделях (LLM), таких как GPT-4. Архитектуры вроде Longformer еще больше расширяют возможности трансформеров для очень длинных последовательностей.

Реализация и инструменты

LSTM можно легко реализовать с помощью популярных фреймворков глубокого обучения, таких как PyTorch (см. документацию поPyTorch LSTM) и TensorFlow (см. документацию поTensorFlow LSTM). Хотя Ultralytics в первую очередь ориентирована на модели компьютерного зрения (CV), такие как Ultralytics YOLO для таких задач, как обнаружение объектов и сегментация экземпляров, понимание моделей последовательности очень ценно, особенно в свете исследований, направленных на объединение NLP и CV для таких задач, как понимание видео или создание подписей к изображениям. Ты можешь подробнее изучить различные модели и концепции ML в документации по Ultralytics . Управление обучением и развертыванием различных моделей можно упростить с помощью таких платформ, как Ultralytics HUB. В основополагающей статье о LSTM, написанной Хохрейтером и Шмидхубером, приводятся оригинальные технические подробности. Ресурсы вроде DeepLearning.AI предлагают курсы, рассказывающие о моделях последовательности, включая LSTM.

Читать полностью
OSZAR »