Сегментация изображений - это фундаментальная техника в компьютерном зрении (КВ), которая заключается в разделении цифрового изображения на несколько отдельных областей или сегментов. Основная цель - присвоить каждому пикселю на изображении метку класса, по сути, упростив представление изображения до чего-то более осмысленного и удобного для анализа машинами. В отличие от обнаружения объектов, которое идентифицирует их с помощью прямоугольных ограничительных рамок, сегментация изображений обеспечивает гораздо более детальное, на уровне пикселей, понимание содержимого изображения, определяя точную форму объектов. Такая точность крайне важна для задач, требующих детального пространственного восприятия.
Как работает сегментация изображений
Алгоритмы сегментации изображений работают, исследуя изображение пиксель за пикселем и группируя пиксели, обладающие определенными характеристиками - такими как цвет, интенсивность, текстура или пространственное расположение, - в сегменты. Ранние методы опирались на такие техники, как пороговое выделение, выращивание областей и кластеризация(K-Means, DBSCAN). Однако современные подходы в значительной степени используют глубокое обучение (ГОО), в частности конволюционные нейронные сети (КНС). Эти нейросети изучают сложные иерархические признаки непосредственно из обучающих данных, чтобы выполнить классификацию по пикселям. Типичный результат - маска сегментации, изображение, где значение каждого пикселя соответствует метке класса, к которому он принадлежит, визуально выделяя точные границы объектов или регионов. Такие фреймворки, как PyTorch и TensorFlow обычно используются для построения и обучения этих моделей.
Типы сегментации изображений
Задачи сегментации изображений могут различаться в зависимости от того, как работать с объектами и классами:
- Семантическая сегментация: Приписывает каждый пиксель к заранее определенной категории (например, "автомобиль", "дорога", "небо"). Она не делает различий между разными экземплярами одного и того же класса объектов. Например, все автомобили будут иметь одну и ту же метку.
- Сегментация экземпляра: Идет на шаг дальше семантической сегментации, определяя и очерчивая каждый отдельный экземпляр объекта на изображении. Каждый отдельный автомобиль получит уникальный идентификатор или маску, даже если они принадлежат к одному классу. Это особенно полезно, когда необходимо подсчитать или отследить отдельные объекты.
- Сегментация паноптикума: Сочетает в себе семантическую сегментацию и сегментацию по экземплярам. Она присваивает метку класса каждому пикселю (как семантическая сегментация) и уникально идентифицирует каждый экземпляр объекта (как сегментация экземпляров). Это обеспечивает комплексное, единое понимание сцены.
Отличие сегментации изображений от смежных терминов
- Сегментация изображения по сравнению с обнаружением объектов: Обнаружение объектов рисует ограничительные рамки вокруг объектов, указывая их местоположение и класс. Сегментация изображения обеспечивает маску на уровне пикселей, очерчивающую точную форму каждого объекта или региона, предлагая больше деталей, чем простая рамка.
- Сегментация изображений по сравнению с классификацией изображений: Классификация изображений присваивает единую метку всему изображению (например, "содержит кошку"). Сегментация изображений присваивает метку каждому пикселю внутри изображения, идентифицируя несколько объектов или регионов и их формы.
- Сегментация изображений по сравнению с распознаванием изображений: Распознавание изображений - это более широкий термин для задач, в которых ИИ идентифицирует объекты, людей, места и т.д. на изображениях. Сегментация изображений - это особый тип распознавания изображений, ориентированный на разбиение на уровне пикселей.
Применение в реальном мире
Детальный анализ, обеспечиваемый сегментацией изображения, позволяет использовать его в самых разных областях:
- Анализ медицинских изображений: Сегментация очень важна для выявления и выделения опухолей, органов или аномалий на компьютерных томограммах, МРТ и рентгеновских снимках. Например, моделиUltralytics YOLO могут точно сегментировать опухоли, помогая рентгенологам в диагностике и планировании лечения благодаря количественному определению точного размера и формы пораженных участков, что зачастую более информативно, чем просто выявление их наличия с помощью ограничительной рамки. Различные методы медицинской визуализации значительно выигрывают от такого уровня детализации.
- Автономные транспортные средства: Самоуправляемые автомобили в значительной степени полагаются на сегментацию, чтобы понимать окружающую обстановку на детальном уровне. Например, сегментирование дороги, разметки полос движения, пешеходов, других транспортных средств и препятствий позволяет автомобилю безопасно ориентироваться. Знание точной зоны, пригодной для движения (сегментация дороги), и зоны, не пригодной для движения (тротуары, барьеры), имеет решающее значение для планирования пути и достижения более высокого уровня автоматизации вождения.
- Анализ спутниковых снимков: Используется для классификации почвенно-растительного покрова (выявление лесов, водоемов, городских территорий), мониторинга вырубки лесов и сельскохозяйственных приложений, таких как мониторинг урожая(искусственный интеллект в сельском хозяйстве).
- Производство: Обнаружение дефектов или выполнение проверки качества на сборочных линиях.
- Розничная торговля: Анализируй раскладки на полках или следи за инвентарем.
Сегментация изображений и Ultralytics YOLO
Ultralytics YOLO модели, такие как YOLOv8 и YOLO11обеспечивают самую современную производительность для задач сегментации экземпляров, балансируя между скоростью и точностью для выводов в реальном времени. Фреймворк Ultralytics упрощает процесс обучения пользовательских моделей сегментации на таких наборах данных, как COCO, или специализированных наборах данных, таких как сегментация деталей автомобиля или трещин. Такие инструменты, как Ultralytics HUB, предлагают оптимизированную платформу для управления наборами данных, обучения моделей(доступно облачное обучение) и их развертывания. Ты можешь изучить документацию по задаче сегментации для получения подробной информации о реализации или проследить за такими руководствами, как сегментация с помощью предварительно обученных моделей YOLOv8 или сегментация изображений с помощью YOLO11 на Google Colab.