Glossar

Inferenzmaschine

Entdecke, wie Inferenz-Engines KI vorantreiben, indem sie Vorhersagen in Echtzeit liefern, Modelle optimieren und den plattformübergreifenden Einsatz ermöglichen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Im Bereich der künstlichen Intelligenz (KI) und des maschinellen Lernens (ML) ist eine Inferenzmaschine eine wichtige Software- oder Hardwarekomponente, die dafür verantwortlich ist, trainierte Modelle auszuführen, um Vorhersagen für neue, ungesehene Daten zu treffen. Nachdem ein Modell in der Trainingsphase Muster gelernt hat, wendet die Inferenzmaschine dieses trainierte Modell auf reale Eingaben an. Dieser Prozess, der als Inferenz bekannt ist, ermöglicht es KI-Systemen, Aufgaben wie die Erkennung von Objekten, die Klassifizierung von Bildern oder die Verarbeitung natürlicher Sprache (NLP) in praktischen Anwendungen durchzuführen. Die Inferenz-Engine ist das Herzstück eines KI-Modells, das das gelernte Wissen effizient in umsetzbare Ergebnisse umwandelt.

Wie Inference Engines funktionieren

Eine Inferenz-Engine verwendet ein vorab trainiertes Modell, das oft mit Deep-Learning-Frameworks (DL) wie PyTorch oder TensorFlowentwickelt wird, das das für eine bestimmte Aufgabe benötigte Wissen kapselt. Wenn neue Daten (z. B. ein Bild, ein Audioclip oder ein Textsatz) als Input zur Verfügung gestellt werden, verarbeitet die Inferenz-Engine diese durch die Rechenstruktur des Modells (oft ein neuronales Netzwerk). Dadurch wird eine Ausgabe erzeugt, z. B. die Identifizierung von Objekten mit Bounding Boxes in einem Bild, die Transkription von Sprache oder die Klassifizierung von Stimmungen. Ultralytics YOLO Modelle sind zum Beispiel auf effiziente Inferenz-Engines angewiesen, um die Erkennung und Segmentierung von Objekten in Echtzeit auf verschiedenen Plattformen zu ermöglichen, von leistungsstarken Cloud-Servern bis hin zu ressourcenbeschränkten Edge-Geräten. Die Leistung der Inferenz-Engine wirkt sich direkt auf die Geschwindigkeit und Reaktionsfähigkeit der Anwendung aus und wird oft anhand der Latenzzeit und des Durchsatzes gemessen.

Optimierungen und wichtige Funktionen

Eine Schlüsselrolle moderner Inferenzmaschinen ist die Optimierung. Die direkte Ausführung eines großen, trainierten Deep-Learning-Modells kann rechenintensiv und langsam sein. Inferenz-Engines verwenden verschiedene Techniken, um Modelle schneller und effizienter zu machen und den Einsatz auf unterschiedlicher Hardware zu ermöglichen. Zu den gängigen Modelloptimierungsstrategien gehören:

  • Modellquantisierung: Verringerung der Genauigkeit der Modellgewichte (z. B. von 32-Bit-Gleitkommazahlen auf 8-Bit-Ganzzahlen), um die Modellgröße zu verringern und die Berechnungen zu beschleunigen, oft mit minimalen Auswirkungen auf die Genauigkeit.
  • Model Pruning: Entfernen von überflüssigen oder unwichtigen Verbindungen (Gewichten) innerhalb des neuronalen Netzwerks, um ein kleineres, schnelleres Modell zu erstellen.
  • Graph-Optimierung: Verschmelzen von Schichten oder Umordnen von Operationen im Berechnungsgraphen des Modells, um die Ausführungseffizienz auf bestimmter Hardware zu verbessern.
  • Hardware-Beschleunigung: Nutzung von Spezialprozessoren wie GPUs, TPUs oder speziellen KI-Beschleunigern, die in Geräten wie der Google Edge TPU oder dem NVIDIA Jetson zu finden sind.

Viele Inferenz-Engines unterstützen auch standardisierte Modellformate wie ONNX (Open Neural Network Exchange), mit denen Modelle, die in einem Framework (wie PyTorch) trainiert wurden, mit einer anderen Engine oder Plattform ausgeführt werden können. Beliebte Inferenz-Engines sind NVIDIA TensorRT, Intel OpenVINO und TensorFlow Lite. Ultralytics Modelle unterstützen den Export in verschiedene Formate, die mit diesen Engines kompatibel sind.

Inference Engine vs. Training Framework

Es ist wichtig, zwischen Inferenzmaschinen und Trainingsframeworks zu unterscheiden.

  • Schulungs-Frameworks (z. B., PyTorch, TensorFlow, Keras): Dies sind umfassende Bibliotheken, die für den Aufbau, das Training und die Validierung von Machine-Learning-Modellen verwendet werden. Sie bieten Werkzeuge für die Definition von Netzwerkarchitekturen, die Implementierung von Backpropagation, die Verwaltung von Datensätzen und die Berechnung von Verlustfunktionen. Der Schwerpunkt liegt auf der Flexibilität und dem Lernprozess.
  • Inference Engines (z.B., TensorRT, OpenVINO, ONNX Runtime): Dies sind spezialisierte Tools, die dafür entwickelt wurden, vortrainierte Modelle effizient für Vorhersageaufgaben auszuführen(Modellbereitstellung). Ihr Hauptaugenmerk liegt auf der Optimierung für Geschwindigkeit(niedrige Latenz), geringe Speichernutzung und Kompatibilität mit der Zielhardware. Sie nehmen oft Modelle, die mit Frameworks trainiert wurden, und konvertieren sie in ein optimiertes Format.

Anwendungen in der realen Welt

Inferenzmaschinen sind entscheidend für den Einsatz von KI in praktischen Szenarien:

  1. Autonome Fahrzeuge: Selbstfahrende Autos(wie die von Waymo entwickelten) sind in hohem Maße auf effiziente Inferenz-Engines angewiesen, die auf eingebetteter Hardware(wie NVIDIA Jetson Plattformen) laufen, um Sensordaten (Kameras, LiDAR) in Echtzeit zu verarbeiten. Die Engines optimieren komplexe Computer-Vision-Modelle wie YOLO für Aufgaben wie die Objekterkennung (Erkennung von Autos, Fußgängern, Schildern) und die semantische Segmentierung (Verständnis der Straßenführung) mit minimaler Verzögerung, was für die Sicherheit entscheidend ist. Erfahre mehr über KI in der Automobilindustrie.
  2. Medizinische Bildanalyse: Inferenz-Engines beschleunigen die Analyse medizinischer Scans (Röntgenbilder, CT, MRT) für Aufgaben wie die Erkennung von Tumoren(siehe Gehirntumor-Datensatz) oder Anomalien. Optimierte Modelle, die über Inferenzmaschinen eingesetzt werden, können schnell auf Krankenhausservern oder speziellen medizinischen Geräten laufen und Radiologen(siehe KI in der Radiologie) helfen, indem sie schnellere Diagnosen oder Zweitmeinungen liefern. Sieh dir die Lösungen für KI im Gesundheitswesen an.

Inference Engines schließen die Lücke zwischen trainierten KI-Modellen und ihrer praktischen Anwendung. Sie stellen sicher, dass anspruchsvolle KI-Funktionen effizient und effektiv über eine Vielzahl von Geräten und Plattformen bereitgestellt werden können, einschließlich der Verwaltung von Modellen über Plattformen wie Ultralytics HUB.

Alles lesen
OSZAR »