Glossar

Softmax

Entdecke, wie Softmax Punkte in Wahrscheinlichkeiten für Klassifizierungsaufgaben in der KI umwandelt und damit Bilderkennung und NLP-Erfolge ermöglicht.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Softmax ist eine wichtige Aktivierungsfunktion, die häufig in der Ausgabeschicht von neuronalen Netzen (NNs) verwendet wird, insbesondere bei Klassifizierungsproblemen mit mehreren Klassen. Ihre Hauptaufgabe besteht darin, einen Vektor von Rohwerten (oft Logits genannt), die von der vorangegangenen Schicht erzeugt wurden, in eine Wahrscheinlichkeitsverteilung über mehrere potenzielle Klassen umzuwandeln. Jeder Ausgabewert stellt die Wahrscheinlichkeit dar, dass die Eingabe zu einer bestimmten Klasse gehört. Wichtig ist, dass sich diese Wahrscheinlichkeiten zu 1 summieren, so dass die Ausgabe leicht als Konfidenzniveau für sich gegenseitig ausschließende Ergebnisse interpretiert werden kann.

Wie Softmax funktioniert

Das Konzept der Softmax-Funktion besteht darin, die rohen Ausgangswerte einer neuronalen Netzwerkschicht umzuwandeln. Dazu wird zunächst jeder Wert potenziert, wodurch alle Werte positiv werden und größere Werte stärker betont werden. Dann normalisiert es diese potenzierten Werte, indem es jeden Wert durch die Summe aller potenzierten Werte teilt. Dieser Normalisierungsschritt stellt sicher, dass die resultierenden Werte zwischen 0 und 1 liegen und in der Summe 1 ergeben, wodurch eine Wahrscheinlichkeitsverteilung über die verschiedenen Klassen entsteht. Die Klasse mit dem höchsten Wahrscheinlichkeitswert wird in der Regel als endgültige Vorhersage des Modells ausgewählt. Dieser Prozess ist grundlegend für Deep Learning-Modelle (DL), die Klassifizierungsaufgaben lösen.

Wesentliche Merkmale

  • Wahrscheinlichkeitsverteilung: Die Ausgaben stellen Wahrscheinlichkeiten für jede Klasse dar, die sich immer zu 1 summieren.
  • Multi-Klassen-Fokus: Speziell für Szenarien entwickelt, in denen eine Eingabe nur zu einer von mehreren möglichen Klassen gehören kann (sich gegenseitig ausschließend).
  • Interpretation der Ausgabe: Macht die Ausgabe des Modells intuitiv und stellt das Konfidenzniveau für jede Klasse dar.
  • Differenzierbarkeit: Glatt und differenzierbar, so dass sie effektiv mit gradientenbasierten Optimierungsalgorithmen wie dem Gradientenabstieg während des Modelltrainings eingesetzt werden kann.

Softmax vs. verwandte Aktivierungsfunktionen

Es ist wichtig, Softmax von anderen Aktivierungsfunktionen zu unterscheiden:

  • Sigmoid: Sigmoid gibt zwar auch Werte zwischen 0 und 1 aus, wird aber typischerweise für die binäre Klassifizierung (ein Ausgangsneuron) oder die Multi-Label-Klassifizierung (mehrere Ausgangsneuronen, bei denen jeder Ausgang eine unabhängige Wahrscheinlichkeit darstellt und die Summe nicht unbedingt gleich 1 ist) verwendet. Softmax wird verwendet, wenn sich die Klassen gegenseitig ausschließen. Weitere Einzelheiten findest du in Ressourcen wie den Stanford CS231n Notes.
  • ReLU (Rectified Linear Unit): ReLU und ihre Varianten wie Leaky ReLU oder SiLU werden hauptsächlich in den versteckten Schichten von neuronalen Netzen verwendet, um Nichtlinearität einzuführen. Sie erzeugen keine wahrscheinlichkeitsähnlichen Ausgaben, die für die letzte Klassifizierungsschicht geeignet sind. DeepLearning.AI bietet Kurse an, in denen Aktivierungsfunktionen in neuronalen Netzen erklärt werden.

Anwendungen in KI und maschinellem Lernen

Softmax wird häufig in verschiedenen Bereichen der KI und des maschinellen Lernens (ML) eingesetzt:

Überlegungen

Softmax ist zwar leistungsstark, reagiert aber empfindlich auf sehr große Eingabewerte, was zu numerischer Instabilität (Über- oder Unterlauf) führen kann. Moderne Deep Learning-Frameworks wie PyTorch und TensorFlow implementieren numerisch stabile Versionen von Softmax, um diese Probleme zu entschärfen. Das Verständnis seines Verhaltens ist entscheidend für effektives Modelltraining und -interpretation, was oft durch Plattformen wie Ultralytics HUB für die Verwaltung von Experimenten und Einsätzen erleichtert wird.

Alles lesen
OSZAR »