Grüner Scheck
Link in die Zwischenablage kopiert

Alles, was du über Bildverarbeitungsaufgaben wissen musst

Lerne, wie Computer Vision Aufgaben wie Objektverfolgung, Instanzsegmentierung und Bildklassifizierung funktionieren und wie Ultralytics YOLO11 sie unterstützt.

Dank Kameras und Fortschritten in der künstlichen Intelligenz (KI) sind Computer und Maschinen heute in der Lage, die Welt auf ähnliche Weise zu sehen wie Menschen. Sie können zum Beispiel Menschen erkennen, Objekte verfolgen und sogar den Kontext des Geschehens in einem Video verstehen.

Computer Vision ist der Teilbereich der KI, der es Maschinen ermöglicht, visuelle Informationen aus ihrer Umgebung zu verstehen und zu interpretieren. Computer Vision umfasst eine Vielzahl von Aufgaben, die alle darauf abzielen, eine bestimmte Art von Erkenntnissen aus Bildern oder Videos zu gewinnen. So hilft zum Beispiel die Objekterkennung dabei, verschiedene Objekte in einem Bild zu identifizieren und zu lokalisieren, während andere Aufgaben wie Tracking, Segmentierung und Posenschätzung Maschinen helfen, Bewegungen, Formen und Positionen genauer zu verstehen.

Welche Bildverarbeitungsaufgabe für eine bestimmte Anwendung verwendet wird, hängt davon ab, welche Art von Erkenntnissen du benötigst. Computer Vision Modelle wie Ultralytics YOLO11 unterstützen verschiedene Computer-Vision-Aufgaben und sind damit eine zuverlässige Wahl für den Aufbau realer KI-Systeme.

In diesem Leitfaden werfen wir einen genaueren Blick auf die Computer Vision Aufgaben, die von Modellen wie YOLO11 unterstützt werden. Wir schauen uns an, wie jede Aufgabe funktioniert und wie sie in verschiedenen Branchen eingesetzt wird. Los geht's!

Was sind Bildverarbeitungsaufgaben?

Computer-Vision-Aufgaben zielen darauf ab, die menschlichen Sehfähigkeiten auf unterschiedliche Weise nachzubilden. Diese Aufgaben können Maschinen dabei helfen, Objekte zu erkennen, ihre Bewegungen zu verfolgen, Posen zu schätzen und sogar einzelne Elemente in Bildern und Videos zu umreißen. Normalerweise werden Computer Vision Aufgaben durch Modelle ermöglicht, die visuelle Daten in kleinere Teile zerlegen, damit sie das Geschehen besser interpretieren können. 

Vision AI-Modelle wie dieYOLO Ultralytics unterstützen mehrere Aufgaben wie Erkennung, Verfolgung und Segmentierung in einem einzigen Framework. Dank dieser Vielseitigkeit lassen sich YOLO11 -Modelle leicht für eine Vielzahl von Anwendungsfällen einsetzen.

Abb. 1. Computer Vision Aufgaben, die von YOLO11 unterstützt werden.

Ein gutes Beispiel dafür ist die Sportanalytik. YOLO11 kann mit Hilfe der Objekterkennung jeden Spieler auf dem Spielfeld erkennen und ihn dann mit der Objektverfolgung während des gesamten Spiels verfolgen. Die Posenschätzung von YOLO11 hilft bei der Analyse von Spielerbewegungen und -techniken, und die Instanzsegmentierung kann jeden Spieler vom Hintergrund trennen, was die Analyse noch präziser macht. 

Zusammen ergeben diese YOLO11 Computer-Vision-Aufgaben ein komplettes Bild des Spielgeschehens und geben den Teams tiefere Einblicke in die Leistung der Spieler, die Taktik und die Gesamtstrategie.

Ein Überblick über die von YOLO11 unterstützten Bildverarbeitungsaufgaben

Nachdem wir nun einen Blick darauf geworfen haben, was Computer-Vision-Aufgaben sind, wollen wir die einzelnen von YOLO11 unterstützten Aufgaben anhand von Beispielen aus der Praxis genauer verstehen.

YOLO11Unterstützung für die Bildklassifizierung

Wenn du dir ein Foto ansiehst, können die meisten Menschen leicht erkennen, ob es einen Hund, einen Berg oder ein Verkehrsschild zeigt, weil wir alle gelernt haben, wie diese Dinge normalerweise aussehen. Die Bildklassifizierung hilft Maschinen dabei, dasselbe zu tun, indem sie ihnen beibringt, ein Bild anhand seines Hauptobjekts zu klassifizieren und zu beschriften - egal ob es ein "Auto", eine "Banane" oder ein "Röntgenbild mit Fraktur" ist. Diese Kennzeichnung hilft Bildverarbeitungssystemen, den visuellen Inhalt zu verstehen, damit sie entsprechend reagieren oder Entscheidungen treffen können.

Eine interessante Anwendung dieser Computer Vision Aufgabe ist die Überwachung von Wildtieren. Mithilfe der Bildklassifizierung lassen sich verschiedene Tierarten anhand von Fotos aus der freien Natur identifizieren. Durch die automatische Kennzeichnung von Bildern können Forscherinnen und Forscher Populationen verfolgen, Migrationsmuster überwachen und gefährdete Arten leichter identifizieren, um die Naturschutzbemühungen zu unterstützen.

Abb. 2. Ein Beispiel für die Verwendung von YOLO11 zur Bildklassifizierung.

Die Objekterkennungsfunktionen von YOLO11

Die Bildklassifizierung ist zwar hilfreich, um sich einen Überblick über den Inhalt eines Bildes zu verschaffen, aber sie weist dem gesamten Bild nur eine Bezeichnung zu. In Situationen, in denen detaillierte Informationen, wie z. B. die genaue Position und Identität mehrerer Objekte, benötigt werden, ist die Objekterkennung unerlässlich.

Bei der Objekterkennung werden einzelne Objekte in einem Bild identifiziert und lokalisiert, oft durch das Zeichnen von Begrenzungsrahmen um sie herum. Ultralytics YOLO11 ist besonders leistungsfähig bei der Objekterkennung in Echtzeit und eignet sich daher für eine Vielzahl von Anwendungen.

Ein Beispiel sind Computer-Vision-Lösungen, die in Einzelhandelsgeschäften zum Auffüllen der Regale eingesetzt werden. Die Objekterkennung kann dabei helfen, Obst, Gemüse und andere Artikel zu zählen und so eine genaue Inventur zu gewährleisten. Auf landwirtschaftlichen Feldern kann dieselbe Technologie den Reifegrad der Pflanzen überwachen, um den Landwirten zu helfen, den besten Erntezeitpunkt zu bestimmen und sogar zwischen reifen und unreifen Produkten zu unterscheiden.

Abb. 3. Erkennen von Früchten mit Ultralytics YOLO11.

YOLO11 für die Segmentierung von Instanzen verwenden

Bei der Objekterkennung werden Bounding Boxes verwendet, um Objekte in einem Bild zu identifizieren und zu lokalisieren, aber sie erfassen nicht ihre genaue Form. Hier kommt die Instanzsegmentierung ins Spiel. Anstatt einen Rahmen um ein Objekt zu ziehen, zeichnet die Instanzsegmentierung seine genauen Umrisse nach.

Du kannst dir das so vorstellen: Anstatt einfach zu sagen: "In diesem Bereich ist ein Apfel", wird die genaue Form des Apfels sorgfältig umrissen und ausgefüllt. Dieser detaillierte Prozess hilft KI-Systemen, die Grenzen eines Objekts klar zu erkennen, vor allem, wenn die Objekte nahe beieinander liegen.

Die Instanzensegmentierung kann für viele Anwendungen eingesetzt werden, von Infrastrukturinspektionen bis hin zu geologischen Untersuchungen. So können zum Beispiel Daten aus geologischen Untersuchungen mit YOLO11 analysiert werden, um sowohl große als auch kleine Oberflächenrisse oder Anomalien zu segmentieren. Durch das Ziehen präziser Grenzen um diese Anomalien können Ingenieure Probleme erkennen und beheben, bevor ein Projekt beginnt. 

Abb. 4. YOLO11 Risssegmentierung.

Objektverfolgung: Objekte über Frames hinweg mit YOLO11 verfolgen

Bisher haben wir uns mit Computer Vision Aufgaben beschäftigt, die sich auf ein einzelnes Bild konzentrieren. Bei Videos brauchen wir jedoch Erkenntnisse, die über ein Einzelbild hinausgehen. Die Aufgabe " Objektverfolgung" kann dafür genutzt werden.

Die Objektverfolgung von YOLO11 kann ein bestimmtes Objekt, z. B. eine Person oder ein Auto, verfolgen, während es sich durch eine Reihe von Videobildern bewegt. Auch wenn sich der Kamerawinkel ändert oder andere Objekte auftauchen, verfolgt das System weiterhin das gleiche Ziel. 

Das ist entscheidend für Anwendungen, die eine Überwachung über einen längeren Zeitraum erfordern, wie z. B. die Verfolgung von Autos im Verkehr. YOLO11 kann Fahrzeuge genau verfolgen und jedem Auto folgen, um ihre Geschwindigkeit in Echtzeit zu schätzen. Das macht die Objektverfolgung zu einer Schlüsselkomponente in Systemen wie der Verkehrsüberwachung.

Abb. 5. Die Unterstützung von YOLO11für die Objektverfolgung kann für die Geschwindigkeitsschätzung genutzt werden.

Erkennen von orientierten Bounding Boxen (OBB) mit YOLO11

Objekte in der realen Welt sind nicht immer perfekt ausgerichtet - sie können geneigt, seitlich oder in ungeraden Winkeln positioniert sein. Auf Satellitenbildern zum Beispiel erscheinen Schiffe und Gebäude oft gedreht. 

Herkömmliche Methoden zur Objekterkennung verwenden feste rechteckige Boxen, die sich nicht an die Ausrichtung eines Objekts anpassen, was es schwierig macht, diese gedrehten Formen genau zu erfassen. Die Erkennung von orientierten Bounding Boxen (OBB) löst dieses Problem, indem sie Boxen verwendet, die sich so drehen, dass sie genau um ein Objekt passen und sich an dessen Winkel ausrichten, um eine präzisere Erkennung zu ermöglichen.

Bei der Hafenüberwachung kann die OBB-Erkennung von YOLO11dazu beitragen, Schiffe unabhängig von ihrer Ausrichtung genau zu identifizieren und zu verfolgen, damit jedes Schiff, das in den Hafen einläuft oder ihn verlässt, ordnungsgemäß überwacht wird. Diese präzise Erkennung liefert Echtzeitinformationen über Schiffspositionen und -bewegungen, die für das Management stark frequentierter Häfen und die Vermeidung von Kollisionen entscheidend sind.

Abb. 6. Erkennung von Booten mit OBB-Erkennung und YOLO11.

Posenschätzung und YOLO11: Verfolgung von Schlüsselpunkten 

Pose Estimation ist eine Computer Vision Technik, die Schlüsselpunkte wie Gelenke, Gliedmaßen oder andere Markierungen verfolgt, um zu verstehen, wie sich ein Objekt bewegt. Anstatt ein ganzes Objekt oder einen Körper als komplette Einheit zu betrachten, wird es bei dieser Methode in seine wichtigsten Teile zerlegt. So lassen sich Bewegungen, Gesten und Interaktionen im Detail analysieren.

Eine häufige Anwendung dieser Technologie ist die Schätzung der menschlichen Haltung. Indem sie die Positionen der verschiedenen Körperteile in Echtzeit verfolgt, liefert sie ein klares Bild davon, wie sich eine Person bewegt. Diese Informationen können für eine Vielzahl von Zwecken genutzt werden, von der Gestenerkennung über die Aktivitätsüberwachung bis hin zur Leistungsanalyse im Sport. 

Auch in der körperlichen Rehabilitation können Therapeuten die menschliche Posenschätzung und YOLO11 nutzen, um die Bewegungen der Patienten während der Übungen zu überwachen. So können sie sicherstellen, dass jede Bewegung richtig ausgeführt wird, und den Fortschritt im Laufe der Zeit verfolgen.

Abb. 7. YOLO11 kann ein Training mit Hilfe von Posenschätzungen überwachen.

Erkunden, wie YOLO11 verschiedene Computer Vision Aufgaben unterstützt

Nachdem wir nun alle von YOLO11 unterstützten Bildverarbeitungsaufgaben im Detail kennengelernt haben, wollen wir uns ansehen, wie YOLO11 sie unterstützt. 

YOLO11 ist nicht nur ein Modell - es ist eine Reihe von spezialisierten Modellvarianten, die jeweils für eine bestimmte Computer Vision Aufgabe entwickelt wurden. Das macht YOLO11 zu einem vielseitigen Werkzeug, das an eine Vielzahl von Anwendungen angepasst werden kann. Du kannst diese Modelle auch mit benutzerdefinierten Datensätzen feinabstimmen, um die einzigartigen Herausforderungen deiner Projekte zu meistern.

Hier sind die YOLO11 , die für bestimmte Sehaufgaben trainiert wurden:

  • YOLO11: Dieses Modell erkennt und beschriftet mehrere Objekte in Echtzeit und ist damit ideal für die visuelle Hochgeschwindigkeitserkennung.

  • YOLO11: Diese Variante konzentriert sich auf die Segmentierung, indem sie detaillierte Masken verwendet, um Objekte von ihren Hintergründen zu trennen.

  • YOLO11: Dieses Modell wurde entwickelt, um gedrehte Objekte zu erkennen, indem es Boundingboxen zeichnet, die sich an der Ausrichtung des Objekts orientieren.

  • YOLO11: Diese Variante klassifiziert Bilder, indem sie ein einziges Kategorie-Label auf der Grundlage des Gesamtinhalts zuweist.

  • YOLO11: Dieses Modell schätzt Schlüsselpunkte am Körper, um die Haltung, die Position der Gliedmaßen und die Bewegung zu verfolgen.

Jede Variante ist in verschiedenen Größen erhältlich, so dass die Nutzer das richtige Gleichgewicht zwischen Geschwindigkeit und Genauigkeit für ihre spezifischen Bedürfnisse wählen können.

Die wichtigsten Erkenntnisse

Computer Vision Aufgaben verändern die Art und Weise, wie Maschinen die Welt verstehen und mit ihr interagieren. Indem sie Bilder und Videos in Schlüsselelemente zerlegen, erleichtern diese Technologien die Analyse von Objekten, Bewegungen und Interaktionen im Detail. 

Von der Verbesserung der Verkehrssicherheit und der sportlichen Leistung bis hin zur Rationalisierung industrieller Prozesse können Modelle wie YOLO11 Erkenntnisse in Echtzeit liefern, die Innovationen vorantreiben. Mit der weiteren Entwicklung von Vision AI wird sie wahrscheinlich eine immer wichtigere Rolle dabei spielen, wie wir visuelle Daten täglich interpretieren und nutzen.

Tritt unserer Community bei und besuche unser GitHub-Repository, um KI in Aktion zu sehen. Erkunde unsere Lizenzierungsoptionen und entdecke mehr über KI in der Landwirtschaft und Computer Vision in der Produktion auf unseren Lösungsseiten. 

LinkedIn-LogoTwitter-LogoFacebook-LogoKopier-Link-Symbol

Lies mehr in dieser Kategorie

Lass uns gemeinsam die Zukunft
der KI gestalten!

Beginne deine Reise in die Zukunft des maschinellen Lernens

OSZAR »