Übung 42

Erklären Sie, was im CNN auf den verschiedenen Schichten geschieht, damit der in der Abbildung oben gezeigte Bildausschnitt als Roboterhand klassifiziert wird. Benutzen Sie in Ihrer Erklärung mindestens die Begriffe Eingabebild, Merkmalsantwort, Faltungsschicht, Merkmalskarten, Filter, Subsampling-Layer, rezeptives Feld, Gewichte, Klassifizierung. In einem CNN werden Subsampling-Layer (Pooling-Layer) und ein “Fully-Connected-Layer” benötigt, siehe dazu:
https://de.wikipedia.org/wiki/Convolutional_Neural_Network.
Ihre Erklärung sollte mindestens eine halbe DIN A4-Seite füllen.

Convolutional Neural Networks (CNN) stellen einen Teilbereich des Deep Learnings dar und werden zur Bildverarbeitung verwendet, um Bilder zu untersuchen und eine Klassifizierung des Inhalts vorzunehmen. Ein herausstechendes Merkmal von CNN ist die Fähigkeit zu generalisieren, also auch Dinge zu erkennen, für die sie nicht expizit trainiert wurden, also auch andere Bilder zu erkennen, an denen sie vorher nicht trainiert wurden.

Roboterhand CNN

Bei dem vorgegebenen Beispiel wird das Eingabebild analysiert. Es soll die Wahrscheinlichkeit festgestellt werden, mit der es sich im grau markierten Bereich um eine Roboterhand handelt.

Dazu werden verschiedene Faltungsschichten (convolutional layer) verwendet, die aus mehreren Merkmalskarten (feature maps) bestehen. Jede Merkmalskarte erfasst dabei genau ein Merkmal im Eingabebild, jeweils an einer unterschiedlichen Stelle. Die Neuronen jeder Merkmalskarte wurden allerdings auf gleiche Weise trainiert. Den Betrachtungsraum jeder Merkmalskarte, die jeweils grau in der Beispielabbildung markiert sind, nennt man dabei rezeptives Feld (also Wahrnehmungsfeld). Die Neuronen der Merkmalskarten, die eine Ausgabe produzieren, die Merkmalsantwort genannt wird, sind dabei in gewisser Weise gewichtet. In einer Faltungsschicht nennt man diese Gewichte Filter, weil diese gewichteten Merkmalsantworten maßgeblich für das Gesamtergebnis verantwortlich sind.

Zwischen diesen Faltungsschichten gibt es Subsampling-Layer, die auf die Merkmalsantworten der vorangegangenen Schicht zugreifen und ein größeres rezeptives Feld haben, sodass mehrere Merkmalskarten in einen Kontext gesetzt werden können. Durch diesen Prozess wird erlaubt, dass einzelne Merkmale auch erkannt werden, wenn sie leicht verschoben sind, sich aber dennoch im richtigen Bereich befinden.

Dieser Prozess aus Faltung und Subsampling wird so oft wiederholt, bis man zur letzten Schicht, der Fully-Connected-Layer (vollständig verbundene Schicht) gelangt, die mit allen vorangegangenen Ergebnissen eine schlussendliche Klassifizierung des Eingabebildes vornehmen kann, also eine Wahrscheinlichkeit angeben kann, dass es sich in unserem Eingabebild um eine Roboterhand handelt.


Geschrieben von@Dennis Adamczyk
Matrikelnummer: 30545