close

Вход

Забыли?

вход по аккаунту

?

4097.Neuronale Netze 002 .pdf

код для вставкиСкачать
Neuronale Netze
Vorlesung im WS 99/00
Barbara Hammer
10. Juli 2000
Mehl
"Feed-forward Netz"
Neuronale Netze, WS 99/00
i
Inhaltsverzeichnis
1 Einleitung
1.1 Motivation . . . . . . . .
1.2 Das biologische Neuron .
1.3 Historische Entwicklung
1.4 Definition . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
2
3
5
2 Das Perzeptron
2.1 Perzeptronalgorithmus . . . . . . . . . . . .
2.2 Alternativen . . . . . . . . . . . . . . . . . .
2.3 Exkurs in die Komplexitätstheorie . . . . . .
2.4 Das Perzeptron im nicht linear trennbaren Fall
2.5 Das Rosenblatt-Perzeptron . . . . . . . . . .
2.6 Konstruktive Verfahren . . . . . . . . . . . .
2.7 Ensembles . . . . . . . . . . . . . . . . . . .
2.8 Perzeptronnetze . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
10
10
12
14
16
18
19
.
.
.
.
.
.
.
.
22
23
29
32
35
37
39
41
43
.
.
.
.
46
46
56
63
68
.
.
.
.
.
.
69
69
71
74
77
79
80
.
.
.
.
.
85
85
88
90
94
96
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Feedforward Netze
3.1 Trainingsverfahren . . . . . . . . . .
3.2 Präsentation der Daten . . . . . . . .
3.3 Interpretation der Trainingsergebnisse
3.4 Architekturauswahl . . . . . . . . . .
3.5 Pruning . . . . . . . . . . . . . . . .
3.6 Konstruktive Methoden . . . . . . . .
3.7 Approximationseigenschaften . . . .
3.8 Komplexität . . . . . . . . . . . . . .
4 Exkurs in die COLT-Theorie
4.1 PAC Lernbarkeit . . . . . . . . .
4.2 Anwendung für feedforward Netze
4.3 Support Vektor Maschine . . . . .
4.4 Alternativ: Bayesianische Statistik
5 Partiell Rekurrente Netze
5.1 Jordan und Elman Netze . . . . .
5.2 Trainingsverfahren . . . . . . . .
5.3 Approximationseigenschaften . .
5.4 Lernbarkeit . . . . . . . . . . . .
5.5 Komplexität . . . . . . . . . . . .
5.6 Automaten und Turingmaschinen .
6 Rekurrente Netze
6.1 Hopfieldnetze . . . . . . . .
6.2 Trainingsalgorithmen . . . .
6.3 Hopfieldnetze als Optimierer
6.4 Alternative Schaltdynamiken
6.5 Die Boltzmannmaschine . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
B. Hammer
ii
7 Selbstorganisierendes Lernen
7.1 Hebbsches Lernen . . . . . .
7.2 Learning Vector Quantization
7.3 Self Organizing Maps . . . .
7.4 Hybride Architekturen . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
102
102
109
112
114
In eigener Sache
Dieses Skript ist am Entstehen, es werden stetig Kapitel hinzugefügt und Fehler verbessert. Für
Kommentare und Hinweise auf Fehler bin ich jederzeit dankbar.
Die Vorlesung geht nicht linear mit dem Skript vor, sondern gibt erst einen Grobüberblick über
die einzelnen Netzmodelle mit besonderem Wert auf den unmittelbar praktisch relevanten Bereichen, d.h. insbesondere Trainingsalgorithmen, in einem zweitem Durchlauf werden die teilweise
eher theoretischen Fragestellungen und die aufwendigeren praktischen Verfahren behandelt. Wer
den ersten Teil beherrscht, kann mit Neuro in der Praxis schon viel anfangen. Die weiteren Fragen
sind natürlich für das Verständnis interessant, teilweise aber nicht ganz einfach, so daß ein grobes
Verständnis nach dem ersten Hören ausreichend ist – zum Teil handelt es sich um sich gerade erst
etablierende Gebiete oder auch neue Forschungsergebnisse. Der verzweifle also nicht, der just
einige Sätze nicht in anderen Lehrbüchern findet, die kommen dann aus Papern oder stehen noch
nirgends :-)
Die Auswahl des Stoffes lehnt sich prinzipiell soweit wie möglich an das im Neurobereich
etablierte Repertoire an – allerdings gibt es dieses bisher nur in grundlegenden Teilbereichen. Ein
Vergleich mit Lehrbüchern (siehe Semesterapparat) sei hier empfohlen.
Es wird so wenig wie möglich an mathematischen Methoden verwandt. Sollte dennoch der
eine oder andere Begriff neu sein, so reicht eine intuitive Vorstellung. Da wir uns in gutartigen
Gefilden bewegen, treten Spezialfälle, wo man mit intuitivem Verständnis schief liegt, nicht auf.
Zum Trost: Durch seine Aktualität und das Einbeziehen vieler unterschiedlicher mathematischer
und anderer Methoden wird Neuro interessant; man kommt sehr schnell an Stellen, wo man selbst
forschen kann.
Noch eine Bitte: Es ist manchmal schwierig, einzuschätzen, ob der Stoff beim ersten Hören zu
schwer ist. Da es aber niemandem etwas nützt, wenn Stoff zu schnell oder zu schwer präsentiert
wird oder umgekehrt uninteressante Sachen zu sehr ausgewälzt werden, bitte ich in dem Fall um
möglichst sofortige Rückmeldung, dann kann man’s ändern! Danke!
Neuronale Netze, WS 99/00
1
1 Einleitung
1.1
Motivation
Viele Aufgaben sind mit exakten Methoden bisher nur unzureichend gelöst, die Möglichkeit der
Automatisierung – obwohl erwünscht – ist nur partiell gegeben: Personenerkennung, Sprachverstehen, Aufräumen, Autofahren, . . . Sie haben gemein, daß eine mathematische Modellierung
unmöglich oder aufwendig erscheint. Nichtsdestotrotz können die Aufgaben aber von Menschen
zufriedenstellend gelöst werden – nur aufgrund von partieller expliziter Information, Erfahrung
und Übung. Letztere beiden Begriffe könnte man auch als Vorhandensein von Beispielen‘ be’
zeichnen. Neuronale Netze sind eine Methode, eine Gesetzmäßigkeit (Funktion, Verhaltensweise,
. . . ) nur mithilfe von Beispielen zu lernen. Sie sind dabei weder das einzig mögliche Verfahren
in diesem Bereich, noch ein Allheilmittel – obwohl scheinbar ein universeller Ansatz. Bei jedem
neuen Problem wird man den Hauptteil der Arbeit für die Problemrepräsentation, die konkrete Anpassung und das Feintuning verwenden. Jedoch in diesem Rahmen verhelfen neuronale Netze oft
zu erstaunlichen Erfolgen, wenn (und nur wenn !) kein ausreichendes explizites Wissen vorhanden
ist. Einige Beispiele für Anwendungen:
Bildverarbeitung
– Erkennung von handgeschriebenen Ziffern
– Erkennen von Personen
– Erkennen von Fehlstellen in Materialien
– Krankheitsdiagnose anhand von Röntgenbildern
Klassifikation/Prognose
– Krankheitsverlaufsprognose anhand von Daten
– Kreditwürdigkeitsprognose
– Eigenschaften von Molekülen vorhersagen, z.B. Sekundärstruktur, Aktivitität in Bezug
auf Medikamentierung,
– Klassifikation von Bootstypen anhand von Unterwassergeräuschen
– Minenerkennung
Zeitreihenverarbeitung
– Börsenkursprognose
– Wettervorhersage
– Spracherkennung/-erzeugung
Robotik/Steuerung
– Robotersteuerung
– Steuerung von Maschinen
– Fahren
Datenaufbereitung
B. Hammer
2
– Clustering
– Dimensionsreduktion
– Data Mining
Varia
– Spielstrategien
– Komponieren
...
Eigenschaften sind, daß die zu modellierenden Prozesse/Gesetzmäßigkeiten nicht in einer exakten mathematischen Beschreibung vorliegen. Vorhandenes Wissen ist in der Regel in die Repräsentation der Daten integriert (z.B. Rotationsinvarianz, Inflationsrate, Wichtigkeit oder Unwichtigkeit einzelner Faktoren). Es gibt (viele) Beispiele für die Gesetzmäßigkeit. Neuronale
Netze sind dort
lernfähig,
hochgradig parallel,
fehlertolerant, bei wachsendem Fehler der Daten oder Ausfall von Komponenten sinkt die
Leistung nur allmählich ab,
arbeiten auf einer verteilten Darstellung der Information, daher ist die Verknüpfung mit symbolischen Komponenten schwierig, keine Introspektion möglich.
1.2
Das biologische Neuron
Neuronen mit je ca.
bis
Synapsen (teilDas menschliche Gehirn besteht aus ca.
weise wesentlich mehr: Purkinje Zellen) ausgehend vom Axon und je bis
synaptischen
Verbindungen von anderen Neuronen zu den Dendriten der Zelle. Information wird mithilfe elek
trischer Signale vermittelt. Im Ruhezustand hat die Zelle ein Potential von mV gegenüber der
Umgebung. Dieses berechnet sich wie folgt: Die Zellmembran ist permeabel für K , aber nicht für
Cl . Dieses führt zu einer Diffusion von K in die Umgebung, bis sich ein Gleichgewicht mit der
durch die in der Zelle verbleibenden Cl Ionen erzeugten Spannung einstellt. Gleichzeitig sorgen
Ionenpumpen in der Zelle für den Austausch von je drei Na Ionen von innerhalb der Zelle gegen
zwei K Ionen von außerhalb der Zelle je Pumpvorgang, so daß im Ruhezustand die Konzentration
an Na außerhalb 12 mal höher, die Konzentration an K innerhalb 40 mal höher ist.
Liegt positive Ladung (von anderen Zellen) an, so öffnen sich Natriumkanäle, die durch die
einströmenden Ionen ein Erhöhen des Potentials auf 30 mV bewirken. Bei ca. 30 mV öffnen sich
Kaliumkanäle, die Kaliumionen nach außen dringen lassen. Das Potential sinkt kurzeitig unter das
Ruhepotential ab und gleicht sich dann wieder dem Ruhezustand an. Es ist ein Spike entstanden,
ein kurzzeitiger Spannungsanstieg und Abfall.
Der Spike pflanzt sich über das Axon fort, indem die durch das Einströmen der Natriumionen verursachte positive Ladung das Öffnen weiterer spannungsgesteuerter Natriumkanäle bewirkt. Das Quadrat der Geschwindigkeit ist dabei proportional zum Durchmesser des Axons.
Einige wichtige Nervenstränge weisen Axone mit Myelinhülle auf. Diese hat eine isolierende
Wirkung, was zu einer Übertragungsgeschwindigkeit proportional zum Durchmesser führt: Ohne Myelinhülle nimmt die Dichte der Feldlinien ab, sofern man sich vom depolarisierten Bereich
Neuronale Netze, WS 99/00
3
wegbewegt, Übertragung erfolgt durch das Öffnen benachbarter Natriumkanäle. Mit Myelinhülle,
die in regelmäßigen Abständen Unterbrechungen aufweist, verlaufen die Feldlinien nahezu parallel vom polarisierten Bereich zur nächsten Unterbrechung der Hülle. Die Übertragung erfolgt
durch das Öffnen von Kanälen an der nächsten Unterbrechung, durch das stärkere Feld kann die
Distanz überwunden werden.
Über Nervenzellen hinweg pflanzt sich der Spike durch die Synapsen fort: Das Aktionspotential bewirkt an den Synapsen das Öffnen von Kalziumkanälen, die wiederum ein Verschmelzen der
in der Synapse enthaltenen Bläschen mit der Membran bewirken, Neurotransmitter werden freigesetzt. Die Transmitter überwinden den synaptischen Spalt und beeinflussen chemisch gesteuerte
Ionenkanäle an den anliegenden Neuronen. Neurotransmitter sind etwa Dopamin, Glutaminsäure,
Noradrenalin; sie wirken hemmend oder verstärkend je nachdem, welche Art von Ionenkanälen
sie beeinflussen.
Den genauen Natrium-/Kalium-/Kalzium-/Chlorfluß kann man lokal durch ein System von
Differentialgleichungen, den sog. Hodgin-Huxley-Gleichungen beschreiben, die Fortsetzung auf
räumliches Geschehen geschieht etwa durch geeignete Kompartimentmodelle.
Plastizität entsteht durch Verändern der Verbindungsstrukturen (man geht davon aus, daß zwar
die Neuronen nach der Geburt komplett vorhanden sind, aber nicht die synaptischen Verbindungen)
und durch Verändern der Stärke der Synapsenbindungen.
Es ist nicht klar, welches Element der elektrischen Signale Information trägt, denkbar wäre
binäre Kodierung durch den Zustand des Neurons (fehleranfällig),
Frequenzkodierung (langsam),
Kodierung durch Koinzidenz (wer steuert diese?).
Verifizierbar ist dieses durch die notwendigen Eigenschaften, die so eine Kodierung besitzen muß,
und nachgewiesene Effekte (z.B. synchron spikende Neuronen).
Im menschlichen Gehirn sind die Zellen in Regionen mit unterschiedlicher Funktionalität angeordnet. Den größten (und jüngsten) Teil bildet der Neocortex mit unterschiedlichen funktionellen Bereichen, etwa dem motorischen und somato-sensorischen Rindenfeld, welche je Regionen,
die für einzelne Organe verantwortlich sind, aufweisen. Etwa das visuelle System ist relativ gut
untersucht, man kann hier verschiedene Schichten von Neuronen ausmachen, die untereinander
verbunden sind.
1.3
Historische Entwicklung
[43 ] McCulloch/Pitts: Schaltkreise mit Schwellwertelementen, binäre Gewichte. Sie zeigen Berechnungsuniversalität.
[49 ] Hebb: Lernparadigma des Hebbschen Lernens, Verstärkung von Verbindungen zwischen
Neuronen gleichartiger Aktivierung, Abschwächung der übrigen Verbindungen.
[58 ] Rosenblatt: Das Rosenblatt-Perzeptron besteht aus einem einzelnen Perzeptron mit vorgelagerten Masken. Es findet Einsatz in der Mustererkennung. Die Gewichte werden mit einer
Hebb-artigen Regel trainiert, Beweis der Konvergenz des Algorithmus.
[60 ] Widrow/Hoff: Adaline, ähnliches Prinzip. Widrow gründet die erste NeurocomputingFirma, die Memistor-Corporation.
Neuronale Netze gelten als hinreichendes Modell für selbstlernende intelligente Systeme.
B. Hammer
4
[69 ] Minsky/Papert: Sie zeigen die theoretische Beschränkung der existenten Modelle, einige
einfach erscheinende Aufgaben sind nicht darstellbar.
Stop der Finanzierung von Forschung im Neuro-Bereich.
[71 ] Vapnik/Chervonenkis: Möglichkeit, aus empirischen Daten auf die Generalisierungsfähigkeit eines Systems zu schließen; dieses bildet bis heute die mathematische Grundlagen für
sog. informationstheoretische Lernbarkeit.
[73 ] von der Malsburg: Schlägt einen Ansatz für unüberwachtes Lernen vor, der es erlaubt,
die Ausbildung spezieller Areale des visuellen Cortex, die auf spezielle Orientierungen von
Linien reagieren, zu erklären.
[74 ] Werbos: Schlägt in seiner Doktorarbeit das noch heute gebräuchliche Lernverfahren Backpropagation für überwachtes Lernen neuronaler Netze vor. Es findet allerdings keine Beachtung, und Werbos wurde lange Zeit nicht als Urheber des Verfahrens anerkannt.
[76 ] Grossberg: Schlägt (in unleserlichen Artikeln) verschiedene Modelle vor, wobei er sowohl
überwachtes als auch unüberwachtes Lernen benutzt. Besonders interessiert ist er am sogenannten Stabilitäts-Plastizitäts-Dilemma, d.h. der Möglichkeit, sich an die Umwelt zu
adaptieren und gleichzeitig Gelerntes beizubehalten. Bekannt ist er durch seine Adaptive
Resonance Theory.
[77 ] Kohonen: Effiziente Algorithmen zu selbstorganisierendem Lernen, topologieerhaltende
Abbildungen.
[82 ] Hopfield: Hopfieldnetze als Assoziativspeicher. Er entwickelt sowohl Lernregeln als auch
die notwendige Hintergrundtheorie (mit Anleihen an physikalische Modelle).
[83 ] Kirkpatrick et.al.: Erweiterung des Hopfieldmodells um Simulated Annealing, so daß effizienter Betrieb möglich scheint.
[83 ] Fukushima: Das Neocognitron als funktionsfähiges Schriftzeichenerkennungssystem.
Wachsendes Interesse im Neurobereich.
[84 ] Valiant: Schlägt den Begriff PAC Lernbarkeit vor.
Formalismus, der die Fähigkeit eines Systems, effizient zu lernen, mathematisch beschreibt.
[85 ] Hopfield: Anwendung auf klassische Optimierungsaufgaben, z.B. TSP.
[86 ] Rumelhart et.al.: (Wieder-)Entdeckung von Backpropagation.
[86 ] Sejnowski/Rosenberg: NetTalk, ein extrem erfolgreiches Projekt zur Spracherzeugung; die
Leistung ist vergleichbar mit dem bis dato besten symbolischen Ansatz.
Aufschwung im Neurobereich.
[89 ] Blumer et.al.: Verknüpfung von VC-Dimension und PAC Lernbarkeit.
Mathematische Fundierung von lernenden Systemen.
Es gibt eine Fülle von weiteren neuronalen Systemen, Anwendungen in verschiedensten
Bereichen, Verknüpfung mit unterschiedlichsten Methoden, internationale Tagungen und
Zeitschriften und eine etablierte Neuro-Society.
Neuronale Netze, WS 99/00
1.4
5
Definition
Definition 1.1 Ein neuronales Netz ist ein Tupel +-,
"!#%$%&'(*) mit
.../%021 den Neuronen,
34657
der Vernetzungsstruktur,
8:9<;>=?);A@B= (9<;>=DCFE ) den Gewichten,
!G:HI;J);LKM
( HI;NCFE ) den Schwellwerten oder Biases.
$OPQR;NSETUE<);LKM
den Aktivierungsfunktionen,
&V34
den Eingabeneuronen,
(G3W
den Ausgabeneuronen,
Eine neuronale Architektur ist ein Tupel TXBYZ"[X\"! X %$%&'(*) wie oben, wobei [X nur
für einige (in der Regel keine) Verbindung ]^ _ definiert ist und ! X nur für einige (in der Regel
kein) Neuron definiert ist.
Die Idee ist, daß ein einzelnes Neuron ] die entsprechend den Verbindungsgewichten gewichteten
Signale durch die Vorgängerneuronen aufsummiert und je nach Größe der berechneten Zahl ein
Signal weiterleitet, welches mithilfe der Aktivierungsfunktion berechnet wird. Im Falle, daß die
Neuronen nur einen von zwei Zuständen besitzen (Spike oder nicht-Spike), und die Funktion Q
die Perzeptronaktivierung ist, die je nach Größe den Wert oder ausgibt, findet man direkt das
biologische Verhalten unter Vernachlässigung von zeitlichen Aspekten wieder: Die an ein Neuron
anliegenden Spikes werden je nach Stärke der Synapsenverbindung gewichtet aufsummiert und
bei Überschreiten einer Schwelle ein Spike weitergeleitet. Die Verknüpfungsstruktur regelt das
Gesamtverhalten und & und ( die Verbindung zur Außenwelt.
Achtung: Diese Definition faßt zunächst nur die meisten gebräuchlichen neuronalen Netze für
überwachtes Lernen, es werden weitere Objekte ein neuronales Netz genannt.
Definition 1.2 Folgende Vernetzungsstrukturen treten auf:
Bei einem feedforward Netz ist Z"`) ein azyklischer Graph, & sind die Neuronen ohne
Vorgänger, ( sind die Neuronen ohne Nachfolger. Wir nehmen im Folgenden &a (cb an. Man
findet immer eine Zerlegung der Form degfihj...h7gk mit l;'amn=*eb für ]pq
o _ , &Felf ,
(cTgk ,
k
3
r
r
k
;N57=.
;Astf =su; [v
vw
Bezogen auf so eine Darstellung, heißt l; die ] te hidden Schicht für
, gf heißt Einga]
w
beschicht, lk heißt Ausgabeschicht, heißt die Tiefe des Netzes. Verbindungen in l;x5yn= mit
v
]
_l
heißen shortcut Verbindungen.
Ein (voll vernetztes) multilayer feedforward Netz liegt vor, falls zusätzlich
`
r
k
;As l; 5
l;
gilt. Die Vernetzungsstruktur wird durch den Ausdruck :0zf...?%0zk{) mit 0z;|~};} angegeben.
B. Hammer
6
Ein (voll vernetztes) multilayer feedforward Netz mit shortcut Verbindungen ist ein feedforward
Netz mit
k
`
r
r
k
;N57=R.
;Astf =su; Die Vernetzungsstruktur wird durch den Ausdruck :0|fI...I0|k{) s mit 0€;|~};} angegeben.
Diese Netztypen werden hauptsächlich zur Klassifikation oder Funktionsapproximation verwendet.
Ein (voll) rekurrentes Netz liegt für
`57
vor. Häufig ist dann &‚P(ƒP oder &‚P( . Dieser Netztyp wird hauptsächlich als Assoziativspeicher oder für Optimierungsaufgaben verwendet.
Bei einem partiell rekurrenten Netz ist
3`Y57
(aber i.A. weder azyklisch noch ). & sind die Neuronen ohne Vorgänger. Gebraucht wird dieses
zur Verarbeitung von Sequenzen oder zur Simulation dynamischer Systeme.
Definition 1.3 Einige Aktivierungsfunktionen:
H …„z)iƒ†
Perzeptronaktivierung
„
vˆ
„
sgn …„z)iƒ†
Bipolare Aktivierung
‡
„F‡
„
v`
id J„z)BT„
Identität
Š>‹
lin …„z)B
Semilineare Funktion
sgd …„z)i
Sigmoide
Tangenshyperbolicus
R
iŽ
‰
„
„
‡
„
pv
Œ
„
vW
e R)
‘’”“t•#J„z)BG e^

e {) e
Ž
e {)
Eine Squashing Funktion ist eine monoton wachsende Funktion Q mit –L—\˜ @
Q›J„z)œc
 š™
v
und –L—\˜ @
QxJ„z)žŸ für Werte 
Ÿ .

™
Häufig ist QR;|WQ für alle Neuronen eines Netzes. In diesem Fall lassen wir die Indizes weg.
Definition 1.4 Ein Zustand eines Netzes ist ein Tupel m¡:¢R;…)£;LKM mit ¢R;iCjE . Eine Aktivierung von ist eine Folge von Zuständen 2J¤¥)¦§KI¨ . Die Aktivierung des Neurons ] zum Zeitpunkt
¤ ist die Größe
net;£…¤¥)Bq©
9B=ª;L¢/=”J¤¥)x«HI;¬.
=¥@œ;
Es werden jetzt verschiedene Dynamiken definiert, die es erlauben, ausgehend von einem Startzu
stand 2 ) und weiteren Eingaben eine Aktivierung zu berechnen. Dieses beschreibt die Funktionsweise der Netze.
Neuronale Netze, WS 99/00
7
Topologische Schaltdynamik bei feedforward Netzen:
M
Sei ­gfxhy.I..Rhlk eine Zerlegung. Für 2 )<CFE^® ® definiere
¢;£J¤
ŽT
falls ]BC7= mit _°Œ`¤"
sonst.
¢R;J¤¥)
QR;£ net;J¤¥)¥)
)ž¯†
w
Das Netz berechnet die Funktion Q«SšE ® ±"® E ® ²³® , Q›J´#)œ8¢;>µ{ ));>µ"K , wobei ¢;>µ{ )œ¶„= für
²
]L=C & und ¢;>µ )ž
sonst. Die Funktion Q hängt nicht von der Zerlegung ab.
Synchrone Schaltdynamik bei rekurrenten Netzen:
¢;£…¤
Ž4
)žqQ;£ net;£…¤¥))
für alle ]BC7 , ¤·C7¸ .
Asynchrone Schaltdynamik bei rekurrenten Netzen:
¢R;J¤
ŽT
Q ;£ net;£…¤¥))
¢;£…¤¥)
)BĠ
]2W]…¤¥)?
sonst
wobei ]…¤¥) ein (zufällig ausgesuchtes) Neuron ist. In beiden Fällen startet man mit einem vorgege
M
benen Vektor 2 )¹CFE ® ® .
Rekurrente Schaltdynamik bei partiell rekurrenten Netzen:
Ž°
f
Sei JE^® ±"®A)ªº die Menge der endlichen Sequenzen mit Elementen in E^® ±"® , notiert als »´ I...I¥´|¼'½ (¾
M
ist die Länge der Sequenz). Für vorgegebenes ¿TCÀE^® ® €® ±?® , den sogenannten Startkontext, und
eine Sequenz der Länge ¾ definiere
Š
‹‰ÁÁ
¢;£…¤¥)B
ÁÁ
¦
„ =
à =
QR;£ net;£…¤›
¢;£J¤x
)
]2T]L=DC &'¤·ŒÂ¾Â
]2T]L=pC o &'¤›
pv
]^C o &'
¤¹ŒÂ¾Ä
)¥)
sonst.
Man kann eine Funktion QRÅ°S€…En® ±"®A)ªº¹ÆE^® ²³® definieren als QRÅ'¥»´
f
.../´|¼'½§)žG¢;>µ{J¾
ŽT
)¥)£;>µ%K
²
.
2 Das Perzeptron
2.1
Perzeptronalgorithmus
Wir fangen mal mit einem Neuron an, einem sogenannten Perzeptron, formal ein multilayer feed
forward Netz :0x ) mit der Aktivierungsfunktion H. Die Gewichte der Ausgabe seien 9 , . . . , 9<Ç ,
der Bias H . Es berechnet also
Ç
´FÈ
H ©
;És 9<;\„Ê;€ËH)|.
Eine Lernaufgabe für ein Perzeptron ist folgende Aufgabe: Gegeben sei eine Trainingsmenge
Ì
¶,šJ´
Die Aufgabe ist dann, Gewichte für alle _ , d.h.
=
Ç
)<CFE
5Î,
1}ª_*
..I./%Ï
1·.
=
und einen Bias H zu finden, so daß H ¬Ð9<;L„ ; ÂH)D
=
=
9<;L„ ; ‡4H falls à ©
=
=Í Ã =
©
= v
9<;\„ ;
=
H falls à .
ÒÑ)
Die Punkte ´ mit à heißen positive Punkte, die anderen negative Punkte.
Elementare Reduktionen:
à = gilt
B. Hammer
8
=
=
Ç
Statt ´ kann man …´ )¹CFE betrachten und so H durch ein zusätzliches Gewicht ^9<Ç simulieren. Wir lassen also H im Folgenden weg.
Falls es Gewichte gibt, die Ñ) erfüllen, so gibt es auch Gewichte, die Ñ) mit statt ‡
=
erfüllen. Skalieren von führt dazu, daß man sogar } Ð 9<;L„ ; }›‡
verlangen kann. Wir
betrachten also im Folgenden ÒÑ) mit statt ‡ und ggfs. auch mit letzterer Skalierung.
Die Idee des Perzeptronalgorithmus ist Hebbsches Lernen. Die Gewichte werden sukzessive für
falsch klassifizierte Beispiele so angepaßt, daß sie tendentiell korrekt sind. D.h. im Falle der
Gewünschten Ausgabe werden Verbindungen, wo positive Aktivierung anliegt, verstärkt, andere
abgeschwächt. Entspechend bei gewünschter Aktivierung .
Ó
Definition 2.1 Sei
Š‹
J
‰
¥´N)ž
´ positiv und Ð
9 ;\„Ê;2Œ
<
´ negativ und Ё9<;\„Ê;2‡
sonst .
Dann ist der Algorithmus folgendermaßen:
Ó
ÔSÕ4°f
Ó
Solange ein ´ mit … ´#)Do
Ž
ÔSÕ4
existiert
JF´N)2Ö´
Satz 2.2 Sofern die Lernaufgabe lösbar ist, konvergiert der Perzeptronalgorithmus in endlich vielen Schritten.
¦
¦
Beweis: Wir schreiben ´ für Ð×9<;L„Ê; , } ´<} für Ø Ð„';Ù . Sei ein Lösungsvektor mit } ´<}‡ .
Sei °Ú der Vektor im Perzeptronalgorithmus nach dem Û ten Schritt. Sei „Êܯݘ[’RÞ',Ê} ´<}'}R´ ist
Beispiel 1 . Dann gilt
1. ¦
°ÚO‡Â
¦
Ž
°f
2. } ßڐ} Ù ŒG} °f} Ù
Ž
Û ,
ۄ ÜÙ .
Induktion nach Û : Ûà
Ó
ist ok. Die Rechnung
¦
°Ú
¦
…°Ú
¦
‡
‡
°f
¦
} °Ú
}Ù
Ž
} °Ú
} °Úš} Ù
Œ
¦
Ž
Û
Û
¦
á J°Ú”âI´N
ã )£
å ŽT
´ä
Ó
zeigt 1. 2 folgt aus
Es gilt } Ž
Ž
°f
Ó
J°Ú”¥´N)£´N)
Ž
} °f} Ù
Ž
Ž
Ó
J°Ú”¥´N)£´<} Ù
¦ Ž
á J°Ú{âI´N
} ´<} Ù
ã ) Ú ´ ä
æ f
Ž
ۄ ÜÙ
„ ÜÙ .
ßڐ}ŒG} ç}Öt} °Ú} (Cauchy-Schwarzsche Ungleichung). Man erhält also
¦
°f
Ž
ۂŒ`
¦
°ÚOŒG} Î}\} °Úè}ŒG} Î} Ø
} ßf”} Ù
Ž
ۄ ÜÙ .
ÑèÑ)
Neuronale Netze, WS 99/00
9
Das kann für große Û nicht gelten.
é
Wie sieht so eine Lösung aus? Ein Neuron definiert nichts anderes als eine Hyperebene (in E Ù
eine Gerade), wobei die Punkte auf der einen Seite nach abgebildet werden, die Punkte auf
der anderen Seite nach . Ist eine Lernaufgabe lösbar, dann heißen deswegen die Punkte auch
linear trennbar. Wir haben gesehen, daß der Algorithmus für linear trennbare Punkte konvergiert.
Allerdings gibt es auch nicht linear trennbare Mengen, so z.B. das XOR:
Í Í Í Í )"R )"R )"R )|.
Kann man erkennen, wenn eine Trainingsmenge nicht linear trennbar ist?
Satz 2.3 Gegeben eine Trainingsmenge, dann kann man eine Zahl ê berechnen, so daß nach
spätestens ê Schritten der Perzeptronalgorithmus konvergieren muß, sofern die Menge linear
trennbar ist.
Beweis: Sofern in ÑèÑ) Gleichheit gilt, dann ist kein weiterer Schritt möglich. Dieses liefert
einen Ausdruck für ê , der die Größen °f , „ÊÜ und benötigt. Für °f<
etwa
ê+ƒ} Î} Ù } „ÊÜ} Ù .
Könnten wir } Î} beschränken, dann könnten wir auch ê abschätzen. ist irgendein Vektor mit
¦ ;
;
¦ ;
;
für positive ´ und ´ Œ- für negative ´ . O.E. fällt letzteres weg. D.h.
´ ‡
ë
ë
ԇcì
ë
für eine Matrix . Ist d‡¯ì lösbar, dann findet man maximal 0 Zeilen in der Matrix, so daß
ë
ë
ë
sich eine Lösung durch das Gleichungssystem X ì ( X sind die 0 Zeilen von ) ergibt.
Anschaulich bedeutet das, daß man im Lösungspolygon in die Ecken gehen kann.
[Idee: Starte mit einer Lösung. Ändere 9 , bis die erste Ungleichung zur Gleichung wird.
;\í
Falls das nicht geht, kann 9 beliebig gewählt werden. Sei ´
die zugehörige Zeile. Suche im
;Lí
Orthogonalraum von ´ eine neue Richtung, entlang derer die Gewichte geändert werden, bis die
nächste Ungleichung zur Gleichung wird. Falls das nicht geht, ist diese Richtung frei wählbar.
;Éî
;Lí
;Aî
Sei ´ die zugehörige Zeile. Analog kann man im Schnitt der Orthogonalräume von ´ , ´ , . . .
fortfahren. Sukzessive erhält man so 0x dim (Lösungsraum) Gleichungen mit vollem Rang.]
D.h. aber, daß man die Koeffizienten von } ç} durch eines von endlich vielen Gleichungssystemen, die durch die Punkte gegeben sind, erhält, daher kann man abschätzen.
é
Alternativ kann man das sog. Perzeptron-Zyklus-Theorem von Minsky und Papert benutzen,
welches besagt, daß man die Länge der durch den Perzeptronalgorithmus erreichbaren Gewichtsvektoren in Abhängigkeit von der Trainingsmenge und dem Startvektor abschätzen kann. Lernt
man nur mit ganzzahligen oder rationalen Mustern, so erhält man also im Falle einer nicht linear
trennbaren Trainingsmenge einen Zyklus und kann dann stoppen.
Wie schnell konvergiert der Algorithmus bei einer lösbaren Trainingsaufgabe? Wir beschrän Ç
ken uns hier auf binäre Muster, d.h. Eingaben ´jCj, 1 . Dann konvergiert der Algorithmus bei
Start in ï nach spätestens
:0
Ž4
) Ù J0
ŽT Ç
) Schritten.
[Wir haben ê } Î} Ù } „ÊÜg} Ù berechnet. Für Einträge mit und kann man aber } Î} beschränken, indem man das zugehörige Gleichungssystem wie oben beschrieben löst, das führt
ÇtðñòóÕÇ ô
.]
über einige Rechnerei zu einer Gewichtsschranke B. Hammer
10
Umgekehrt benötigt aber die Funktion
…´ž¿x)žÈ
Ç
†
; Ё„Ê;:
‡Ð
Ã
; ;J
sonst
Ç

Ž[
) . (Der Beweis benutzt
Gewichte mit Ð } 9<;ª}‡T
, folglich ein Gewicht der Größe :0
das sog. Diskriminatorlemma aus der Theorie Boolescher Schaltkreise.) Der PerzeptronalgorithÇ
mus braucht also mindestens õœÖ{
Schritte ( õ ist eine positive Konstante) für diese Funktion, hat
also exponentiellen Aufwand.
Nichtsdestotrotz ist er aufgrund seiner Einfachheit, Plausibilität und häufigen Schnelligkeit
beachtenswert.
2.2
Alternativen
Ungleichungen der Form
ö
ö
´çŒ`÷
für eine feste Matrix , einen festen Vektor ÷ und Unbekannte ´ können mithilfe Methoden linearer Optimierung gelöst werden. 79 bewies Khachiyan, daß dieses Problem polynomiell lösbar
ist. (Eine aus theoretischer Sichtweise bemerkenswerte Tatsache, da dasselbe Problem mit der
Restriktion, daß die Lösungen ´ ganzzahlig sein müssen, NP-vollständig ist.) Allerdings ist sein
Algorithmus in der Regel wesentlich langsamer als der gebräuchliche, aber evtl. exponentielle
Simplex-Algorithmus. 84 schlug Karmakar einen Algorithmus mit der Laufzeit O :0|øù ú?) vor, der
ö
insbesondere bei großen
Instanzen besser als der Simplexalgorithmus ist.
[Idee: Überführe ´ÎŒ4÷ zu einem Problem der Form:
¦
minimiere
ö
÷ ¿
mit Bedingung ¿mû ,
¿Î‡4ï ,
ö
ö[ü erfüllenden Vektor
ü
ü
wobei ö man einen die Nebenbedingungen
Man erhält die
¿ kennt. Genauer:
ü ´ Ž ¿ˆü G÷ , ´m ´ý , ´4‡Gï , ´`‡Pï , ¿Tü ‡Pï . O.E. ist
Form X ´ X ƒ
÷ X , ´ X ‡Gï durch
ö
´7
Ž«þ
þ
þ
÷#Xz‡4ï , sonst ersetze durch XÕ´|X
÷ , ö ÷ j÷#X , ‡4ï für genügend großes ÷ . Dieses wird
Ž
überführt zum Problem: minimiere Ð Ã ; mit X ´ X ¿ X W÷ X , ¿ X ‡4ï , ´ X X ‡4ï . Das Minimum ist
genau dann, wenn es für das vorherige Problem eine Lösung gab. Für dieses Problem kennt man
einen Punkt im durch die Nebenbedingungen definierten Polygon: ´ X Tï , ¿ X 4÷ X .
Das Problem wird approximiert durch
¦
ö – à =
minimiere ÷ ¿ËÿgЁ
mit Bedingung ¿7û ,
für ÿ
. Für ¿ç ï wird der Wert groß, so daß man die Ungleichung für ¿ quasi integriert hat.
Obiges System kann man mit üblichen Methoden der Analysis angehen. Lagrangemultiplikatoren
führen zu einem näherungsweise lösbaren Gleichungssystem und einem neuen (besseren) Wert für
¿ . Dieses Vorgehen wird jetzt geeignet für ÿÀ
iteriert und liefert einen Pfad von Punkten ¿ ,
die gegen das Optimum konvergieren.]
2.3
Exkurs in die Komplexitätstheorie
Gegeben ist ein Entscheidungsproblem; d.h., gegeben eine geeignet repräsentierte Instanz eines
Problems „ , soll entschieden werden werden, ob für „ ein Sachverhalt zutrifft. Für eine Instanz „
sei } „ž} die Länge der Repräsentation.
Neuronale Netze, WS 99/00
11
Definition 2.4 Ein Problem heißt polynomiell lösbar, falls es ein Programm und ein Polynom
gibt, das, gegeben eine Instanz „ , nach spätestens "} „ž}>) Schritten entscheidet, ob der nachzuprüfende Sachverhalt zutrifft. Die Klasse der polynomiell lösbaren Probleme bezeichnen wir mit
P.
Beispiele sind:
Test, ob eine Liste sortiert ist,
Test, ob das Produkt von „ und à die Zahl ergibt,
Test, ob eine Trainingsmenge linear separierbar ist.
Nur polynomiell lösbare Probleme sind auch für große Instanzen effizient lösbar. [Stimmt nicht so
ganz, die heute als praktikabel anerkannte Klasse ist nicht P, sondern RP, die Klasse der mit einem
nichtdeterministischen Algorithmus in polynomieller Zeit und mit großer Wahrscheinlichkeit
korrekt lösbaren Probleme. Es wird aber ebenso NP o RP vermutet.]
Definition 2.5 Ein Problem ist nichtdeterministisch polynomiell lösbar, falls es ein Programm
und Polynome , Ù gibt mit folgender Eigenschaft: Das Programm läuft mit durch beschränkter Laufzeit. Auf eine Instanz „ trifft die zu testende Eigenschaft zu genau dann, wenn es eine Hilfe
Ã
mit Ù } „ž}>)^‡¯} à } gibt, so daß das Programm die Eingabe à „z) mit ja‘ bescheidet. Die Klasse
’
der nichtdeterministisch polynomiell lösbaren Probleme bezeichnen wir mit NP.
Ein Problem heißt NP-vollständig, falls es in NP liegt, aber die polynomielle Lösbarkeit des
Problems die polynomielle Lösbarkeit jedes anderen Problems in NP implizieren würde.
Die Idee bei NP ist, daß man zwar mit dem Problem selbst nicht viel anfangen kann. Ist allerdings ein guter Freund zur Hand, der uns einen Tipp gibt, dann können wir damit etwas anfangen
und die nachzuweisene Eigenschaft testen.
Das Bemerkenswerte ist, daß es tatsächlich sogar eine ganze Latte von NP-vollständigen Problemen gibt! Falls ein Problem NP-vollständig ist, wird vermutet, daß es nicht effizient lösbar ist.
Genauer: Für keines der NP-vollständigen Probleme wurde bis dato ein polynomieller Lösungsalgorithmus gefunden [auch kein Algorithmus aus RP].
Einige Beispiele für NP-vollständige Probleme:
SAT: Gegeben eine Boolesche Formel in konjunktiver Normalform
;
=
;={
wobei ;>= eine Boolesche Variable oder eine negierte Boolesche Variable ist, gibt es eine
erfüllende
Belegung? Cook wies das als NP-vollständig nach, sogar im Fall _[CÎ, šš1 .
Das ist in NP: Wir können zwar bei einer Formel („ ) die Erfüllbarkeit nur testen, indem wir
alle (exponentiell vielen) Belegungen durchprobieren. Verrät uns aber jemand eine erfüllende Belegung (Ã ), dann können wir sehr schnell sehen, ob sie stimmt. Pech haben wir, wenn
uns jemand falsch geraten hat.
TSP: Gegeben Städte, positive Verbindungsdistanzen zwischen den Städten und eine Zahl
ê , gibt es eine Rundreise mit der Länge maximal ê ?
B. Hammer
12
Hitting set: Gegeben Punkte , Teilmengen und eine Zahl Û , gibt es eine Menge õ von
Û Punkten, so daß õœaÎõ;po b für alle õ;DC gilt? Anschaulich: Kann man verschiedene
Interessengruppen mit maximal Û Vertretern abdecken?
[Reduktion von SAT: Eine Reduktion ist ein polynomieller Algorithmus Q von Instanzen von SAT zu Instanzen Q› ) des hitting set Problems, so daß lösbar ist, wenn und nur wenn
Q› ) lösbar ist. Könnte man jetzt das hitting set Problem effizient lösen, so auch SAT und
damit alle anderen Probleme in NP.
Wir reduzieren:
Q7S
;|È
x"Ût)
mit Ûß Anzahl der Variablen in ,
c-,è,;³}
ë
j-, .../Ú I...? ڔ1
ë
; kommt in = vor 1œh7, ;³}
; kommt in = vor 1l}ª_t1œhm,è,;I ;¬1l}"]¥1·.
erfüllbar. Für eine erfüllende Belegung definiere die Menge õe,I;2}
ë
, I ;³}
; ist wahr 1 . Dadurch wird jedes õ;NC getroffen.
Sei
ë
; ist wahr 1^h
Sei umgekehrt eine Menge õ von Û Punkten gegeben, so daß jedes õ;C getroffen wird.
ë
I;C4õ . Wegen der Mengen ,I;¬I
;¬1 ist für
Definiere eine Belegung durch ; wahr ë
; falsch der Punkt ; CPõ . D.h. aber, daß die Punkte in õ genau den erfüllten Literalen
entsprechen und also jede Formel erfüllt ist, da jede der Formel entsprechende Menge von
Punkten durch mindestens einen Vertreter in õ abgedeckt ist.]
-SSP: Gegeben Punkte , Teilmengen , existiert eine disjunkte Zerlegung  h ,
Ù
C o z; für alle õ°C , ]nC`, "
1 gilt? Anschaulich: Teile eine Schulklasse in zwei
so daß õZ
Gruppen ein, so daß die Leute, die zusammen Quatsch machen, getrennt werden.
[Reduktion von SAT, überführe ! ; in G6,
ë
Variablen in , ,è,I;¬"I ;œ}]ª1ph`,è,;¬" = } ;
ë
Belegungen entsprechen Zerlegungen ,I;¹} ;
c, 1<hm, .I../" Ç1$% .]
Ù
..I.IIÇ ..I.II ǚ 1 , 0 Anzahl
ë
C ڔ
=ÀC Ú{1Z}šÛ'1 . Erfüllende
ë
ist wahr 1gh`,#I ;·} ; ist falsch 1 und
Û -SSP: Gegeben Punkte , Teilmengen , existiert eine disjunkte Zerlegung Î& ‚
h ...h
|Ú mit õpC'
o z; für alle õC , ]BCÎ, ..I./"Û'1 ? Das gilt sogar für }õè}Œ für alle õC' .
[Reduktion von -SSP, auch bei letzterem kann }õè}Œ angenommen werden.]
Ì
Separability in the plane: Gegeben Punkte ¶3PE Ù , Zerlegung von in und ( , Zahl Û ,
Ì
C ( eine Linie zwischen und ) verläuft?
gibt es Û Linien, so daß für alle C
und ) *
[Bewiesen durch Megiddo.]
2.4
Das Perzeptron im nicht linear trennbaren Fall
Man kann immer noch versuchen, eine möglichst gute Lösung zu finden, sofern man mit einer
nicht linear trennbaren Menge konfrontiert ist. Um möglichst gute Ergebnisse zu erzielen, wird
der Perzeptronalgorithmus wie folgt modifiziert:
Definition 2.6 Gegeben eine Patternmenge
Ì
, so hat der Pocket-Algorithmus folgende Form:
Neuronale Netze, WS 99/00
13
Ì Í
,
Í Ì
Í +
,
Í +
­SÕWï ; Vº^SÕ4
S
ºÄS , fnSÕ
Ì
WHILE Ó fg
o b und ich habe noch Geduld ) DO
Ì Í
Wähle ´çC
f
ÒÑ)
IF JF´N)ž
Ì
+
+ Ž4 Í Ì
Í
SÕ
fnSÕ
f$š,´›1
+ +
IF
º THEN
Í +
+Í
⼀S `
ºÄSÕ
END;
ELSE
ÔS 4
Ž
Ó
JF´N)£´
Í,+
SÕ
Í Ì
fnSÕ
Ì Í
END;
END;
Satz 2.7 Es gilt das Pocket-Konvergenz-Theorem: Seien die Punkte rational. Für alle gibt
es ein ¾|f , so daß für alle ¾~‡P¾zf gilt: Wählt man in Ñ)›´ so aus, daß jeder Punkt mit positiver
Wahrscheinlichkeit ausgesucht wird, dann ist die Wahrscheinlichkeit, nach ¾ Schleifendurchläufen
+
einen maximal möglichen Wert º erreicht zu haben, ‡
.- .
Ì
Beweis: Betrachte eine optimale Hyperebene und die Punkte X , die dadurch richtig klassifiziert
werden. Egal von welchem Vektor man startet, es gibt eine Folge von je falsch klassifizierten
Ì
Punkten in X , die zu einem optimalen Vektor führt. Die Wahrscheinlichkeit, genau diese Folge
Ì
+
aus den Punkten zu ziehen, ist n.V.
. Nehme jetzt an, X sei die maximal erreichte Menge
an korrekt klassifizierten Punkten und diese sei nicht optimal. Nach dem Zyklustheorem ist die
Länge der Gewichtsvektoren, die erreicht werden können, beschränkt. Bei rationalen Mustern gibt
es also nur endlich verschiedene erreichbare Gesichtsvektoren. Für jeden von diesen gibt es eine
Folge, die mit positiver Wahrscheinlichkeit gezogen wird und zu einem optimalen Vektor führt,
d.h. zu jedem Zeitpunkt kann man mit positiver Wahrscheinlichkeit eine optimale Patternfolge fol
gen. Bei beliebiger Zeitdauer wird also mit Wahrscheinlichkeit eine zum Erfolg führende Folge
gezogen. Man kann daher einen Zeitpunkt bestimmen, nach dem mit Wahrscheinlichkeit ‡
/ein Optimum erreicht ist.
é
Allerdings ist es so, daß bei anderer, z.B. zyklischer Reihenfolge nicht notwendig ein Optimum
erreicht wird. Wann erhält man so ein Optimum mit hoher Wahrscheinlichkeit? Die aus dem Beweis resultierenden Schranken für die Zeitdauer sind astronomisch. Ist das nötig? Wahrscheinlich
ja, oder genauer:
Ì
Ç
Satz 2.8 Betrachte folgendes Problem: ÛçCý¸ , 0ˆCý¸ , eine Patternmenge in , 1 5Ë, 1
Ì
Ì
seien gegeben. Gibt es ein Perzeptron, das auf höchstens Û Fehler macht? ( Û , 0 und sind
variabel.) Dieses Problem ist NP-vollständig.
Beweis: In NP ist klar, denn man kann Gewichte raten (deren Darstellung ist durch O :0O–ž0³)
beschränkt) und testen, ob sie zu maximal Û Fehlern führen.
Das Problem ist auch NP-vollständig: Dieses wird durch eine Reduktion vom hitting set Problem gezeigt. Sei
0ζ, .I..IIǐ1c-,{õ I...I%õ"ÜÄ1"Ût)
+
eine Instanz vom hitting set Problem. O.E. }õ }¹ ...Ä }õÜl}¹
. (Ansonsten vergrößere õ";
+
um neue Elemente.) Definiere die Eingabedimension 0zX¹Ý0 und die Trainingsmenge mit den
Punkten
1
Í
e;Ò
)"-]2
.I..I%02
e;¬¡.../ e;Ò e;
1 ;
,7
,7
,7 Í
2
e;Lí43 3 ;65¬
e.../
)"
1 7 µ
,7 ùùù
,7
,7
Í 2 µ
e.../
e;Lí83 3 ;95
)"4_p
.../%Ï7
ùùù
B. Hammer
14
Ç
wobei e;œCËE der ] te Einheitsvektor ist und e;\í83 3 ;95 der Vektor mit an den Positionen ] .I..I%] 7
ùùù
und sonst für õ¥=߁,I;Lí%.../I;951 . Diese Menge kann mit maximal Û Fehlern getrennt werden
dann und nur dann, wenn es ein hitting set der Größe Û gibt:
Es gebe ein hitting set õ der Größe Û . Definiere für die Gewichte :9<;>=?);As 3 3 7 3 =s 3 3 Ç
ùùù
9<;=œ~†
=pC7
o õ
=DC7õ
ùùù
1
und Hl . Das bildet genau die Punkte ; mit I;NC7õ falsch ab.
Û Fehlern gegeben.
Sei umgekehrt
eine Lösung mit maximal
Definiere ein hitting set õ wie
1
1
1
k
2
folgt: Falls ; falsch ist, ist I;2C õ . Falls ein µ falsch, aber alle ; für Punkte I; in õª= richtig sind,
ist ein beliebiger Punkt aus õª= in õ . Nehme an, ein õ¥= sei nicht von õ getroffen. Dann bekäme man
für alle I;NC7õª= :
7
©
und für õª= selber für
w
CÎ,
9œk;#‡4H
k?s 7
©
k?s ©
:<;
K 2µ
+
9œk;#‡
H
+
.I..I 1 :
©
:0;
K 2µ
9œkª=
v
H
©
7
k?s ©
:<;
K 2µ
9œk;
v
+
H<.
é
Widerspruch.
Obige Reduktion ist sogar kostenerhaltend, d.h. die Größe eines hitting set und die Anzahl der
Fehlklassifikationen entsprechen sich genau. Es ist für hitting set sogar schwierig, eine Lösung zu
finden, die nur maximal õ mal so schlecht wie das Optimum ist (õ eine positive Konstante). Dieses
transferiert sich auf das Trainingsproblem: Auch nur Lösungen zu finden, die maximal õ mal mehr
Fehler als optimal machen, ist schwierig.
2.5
Das Rosenblatt-Perzeptron
Um die Mächtigkeit eines Perzeptrons zu erhöhen, sind verschiedene Variationen denkbar. Das
Rosenblatt Perzeptron versucht, lineare Trennbarkeit zu erreichen, indem die Daten durch geeignete, aber feste Funktionen vorverarbeitet werden. Konstruiert ist es für Bilddaten, d.h. wir nehmen
Ç%=”Ü
eine Eingabe aus E
an. Die Funktionen sollen – dem visuellen System des Menschen ähnlich
– lokale Operationen vornehmen, etwa Rauschen unterdrücken, Kanten extrahieren, spezielle lokale Muster erkennen, . . . . Hinter die so vorverarbeitetn Daten wird ein wie üblich trainierbares
Perzeptron geschaltet.
Definition 2.9 Ein Rosenblatt Perzeptron berechnet eine Funktion QmSE
Ç>=”Ü
durch Verknüpfung eines Perzeptrons mit festen Funktionen QR;NSE
Q Ç%=”Ü
,
,
1 , die sich
1 ergibt, d.h.
¬Q J´N)".../"Q?‚…´N))|.
Die Funktionen QR; heißen Masken. Die Maske QR; hat die Ordnung Û , falls Q; nur von Û Koeffizienten der Eingabe abhängt. Die Maske QR; hat den Durchmesser Û , falls QR; nur von Koeffizienten
in einem Quadrat der Kantenlänge Û abhängt.
Offensichtlich könnten bei unbeschränkten Masken alle wesentlichen Operationen einfach durch
die Masken vorgenommen werden, so daß alles verarbeitet werden kann. Sinnvolle Operationen
Neuronale Netze, WS 99/00
15
sind jedoch begrenzte, lokale Operationen, die durchaus vom Bildmaterial abhängig sein können.
Auf einer Auktion von Gemälden sind etwa Masken sinnvoll, die den Schriftzug des Malers erkennen können – dieser ist für den Preis entscheidend. Um einen Text erkennen zu können, sind
Masken (für Prototypen) für die einzelnen Buchstaben sinnvoll. Tatsächlich ist es eine gebräuchliche Methode in der Bildverarbeitung, im original Bildmaterial zunächst lokale Merkmale zu extrahieren, etwa Kantendetektoren, mittlerer Grauwert, . . . und auf dieses vorverarbeitete Material
zu trainieren.
Jedoch das Rosenblatt Perzeptron hat mit beschränkten Masken nur eingeschränkte Trennfähigkeit, so daß es nicht als universeller Mechanismus eingesetzt werden kann. Konkret betrachten wir das Problem, zusammenhängende Muster zu erkennen: Sei @ die Aufgabe, zusam Ç>=”Ü
menhängende Muster in , 1
nach und unzusammenhängende Muster nach abzubilden.
Dabei heißt ein Muster ´ zusammenhängend, sofern je zwei Punkte „Ê;>= und „'Ú 7 mit Wert über
einen Pfad von Punkten mit Wert verbunden werden können.
Satz 2.10 Ein Rosenblatt Perzeptron mit Masken vom Durchmesser Ï
Ç%=”Ü
aus , 1
für 0m‡Ï das Problem @ nicht lösen.
(ÏׇBA ) kann auf Eingaben
Beweis: Betrachte die folgenden Muster.
L
M
R
L
M
R
L
M
R
L
M
R
Es gibt Masken, die auch auf den Bereich bzw. auch auf den Bereich C , aber nicht auf beide
zugreifen, und Masken, die nur auf den mittleren
Bereich zugreifen. Von diesen drei Gruppen von
Masken erhalten wir also je einen Beitrag für die Aktivierung des Perzeptrons. Dieser wird mit
+
;Ò%ÏV;¬EDI;…) bezeichnet, wobei ] das Muster und der Buchstabe die jeweilige Region bezeichnet. Da
die Muster in den entsprechenden Bereichen teilweise gleich sind, erhält man
Ï
+
W
Ï
Ï
W
TÏGFR
Ù
ø +
+
+
ED B
D FRED DHFN.
Ù Ù
ø
ø
Wären die Muster korrekt, erhielte man also folgende Ungleichungen, wobei H den Bias des Neurons darstellt:
Ž
Ž
+
+
+
+
Ž
Ž
+
Ù
”Ï
Ž
D
Ù
Ï
Ï
Ž
D
ø
v
D
Ž
Ï
Ù Ž
Ž
+
Ï
Ž
D
Ž
D
Ž
D
4
‡ H
v
H
v
H
ø
‡4H
ø
H Œ
+
Ž
Ž
+
Ù
”Ï
Ž
D
Ž
D
ø
é
Widerspruch.
Minsky und Papert betrachten spezielle Masken folgender Form:
Q;£…´N)B
ö
†
„=¥Ú^
I
ö
_Û C
sonst
ö
wobei eine ausgezeichnete
Menge von Koeffizienten ist. D.h. Masken dieser Form testen, ob
an mindestens den durch spezifizierten Stellen eine steht. Minsky und Papert zeigen, daß folgendes Problem, sofern es mit einem Perzeptron mit Masken obiger Bauart implementiert werden
B. Hammer
16
soll, mindestens eine Maske benötigt, die auf den ganzen Eingaberaum zugreift:
Q›J´N)Bƒ†
}Õ,š\_Ût)·}„=¥Ú^
1Ê} ist gerade
sonst
Es kann also nicht mit lokalen Vorverarbeitungen zu einem linear trennbaren Problem transformiert
werden.
[Dazu nutzen sie das sog. Gruppeninvarianztheorem, welches besagt, daß ein Problem, das
gegenüber einer Gruppe J von Transformationen (etwa Rotation, Translation, . . . ) invariant ist
und mithilfe von Masken dargestellt werden kann, so daß die Menge der zulässigen Masken gegenüber J abgeschlossen ist, dann auch eine Darstellung besitzt, so daß alle durch J ineinander
ö
überführbaren Masken dieselbe Gewichtung besitzen.
ö
Daher
sind in obigem Problem o.E. die Gewichte aller Masken zu einer Menge mit demselö
ben } } gleich, denn wir können als J die Gruppe aller Permutationen der Indizes betrachten.
Es
sei ein Pattern mitö K Stellen gegeben. Für dieses liefern genau die Masken mit festem } }4_
?
eine , bei denen in den K Stellen enthalten ist, d.h. man erhält von L =NM solchen Masken eine
Rückgabe. Daher findet man die Aktivierung
©
O
Ú
=s QP
K
_SR
für alle Muster mit K Koeffizienten . Û ist die maximale Maskengröße. Das ist ein Polynom
vom Grad _ in K . Betrachte die Funktion Q . Die Pattern mit K Werten werden abwechselnd
für wachsendes K nach , , , . . . abgebildet. D.h. die Aktivierung muß für wachsendes K das
Vorzeichen 0[5°Ï Mal wechseln. Daher muß es mindestens eine Maske geben, die auf alle Punkte
zugreift.]
Vom Rosenblatt Perzeptron übriggeblieben ist in der modernen Bildverarbeitung immer noch
das Verfahren, zunächst lokale Merkmale zu extrahieren, die dann mit – wie wir gesehen haben
notwendig mächtigeren – Klassifikatoren weiterverarbeitet werden können.
2.6
Konstruktive Verfahren
Alternativ kann man für diese komplexeren Probleme Perzeptronnetze einsetzen – nur, wie soll
man diese trainieren? Basierend auf dem Perzeptronalgorithmus gibt es verschiedene Verfahren,
die jeweils nur ein Perzeptron trainieren und geeignet mit einem bestehenden Netz zusammenÌ
Ç
setzen, so daß sukzessive ein mächtigerer Klassifikator entsteht. Sei fÂ3 E
5, 1 eine
Ì
Í
Í
Trainingsmenge. f sei nicht widersprüchlich, d.h. enthalte keine Werte …´ à ) und J´ à ٠) mit
à à .
o
Ù
Definition 2.11 Tower-Algorithmus:
Ì
SÕ
Ì
f
Í
Q7SÕPJ´
È
ïz)
Í
Ì
Wiederhole, solange Q die Menge noch falsch klassifiziert:
Ì
Trainiere ein Perzeptron auf .
Í
Q7S J´ È …´ž"Q›…´N))¥)
Ì
Í
Í
SÕ¶,šJ´›"Q›J´#)) à )ž}”J´ à )¹C
Ì
fI1 ;
Nach & Schleifendurchläufen besteht das fertige Netz aus & Perzeptronen neben den EingabeneuŽm
ronen, die in einem Turm angeordnet sind, d.h. es gibt Verbindungen von Neuron ] zu Neuron ]
für alle ] , die berechnete Funktion hat die Form
±
…´ž
±%
…´ž.../RJ´›
…´N))|.I.. ))|.
Neuronale Netze, WS 99/00
17
Satz 2.12 Es gibt einen Trainingsverlauf, so daß der Tower-Algorithmus nach Zufügen von maxiÌ
mal } f} Neuronen hält.
Beweis: Ordne die Muster ´ .../´ Ü , so daß } ´ }Č } ´ Ù }Čd... gilt. Sind ´ I...I¥´ ; durch
die bisher berechnete Funktion Q korrekt klassifiziert, aber ´|; noch falsch, dann können durch
Hinzufügen eines weiteren Neurons ´ I...I¥´ ; korrekt klassifiziert werden. Daher gibt es auch
eine geeignete Auswahl der Muster, die genau diesen Trainingsverlauf bewirkt.
1.Fall: ´ ; ist positiv. Definiere für das Neuron die Gewichte J9 .../%9<Ç)n´|; , 9<Ç . Für
€} ´ ; } Ù und den Bias } ´ ; } Ù . Für ´ ; berechnet sich die Aktivierung '} ´ ; } Ù ÖIQ›…´ ; )B
andere Punkte ´'= , _[Œ`] ergibt sich der Wert
Ž
¦
´ ; ´'=¹q} ´ ; } Ù .
v
¦
Da } ´ ; ´'=è}
nicht negativ.
} ´ ; } Ù ist, ist dieses genau für Q›J´'=?)B
2.Fall: ´|;
ist negativ. Definiere für das Neuron die Gewichte :9 .I..I%9<Ç)à6Ä´ ; , das
Vv
v
¦
Gewicht 9<Ç ¶
€} ´|; } Ù /- für
˜ß—\“=,Ê} ´ ; } Ù c} ´ ; ´Ê=} 1 und den Bias à} ´ ; } Ù . Das
ergibt die Aktivierung
¦
¬
€} ´ ; } Ù T
-%)Q›…´'=?)xj´ ; ´'=iq} ´ ; } Ù .
é
Dieses ergibt die gewünschten Ausgaben.
€} ´ ; } Ù Ö{QxJ´'=/)
Offensichtlich kann damit der Algorithmus mit jedem Neuron auch bei beliebigem bisherigen
Trainingsverlauf mindestens ein Muster mehr korrekt klassifizieren, sofern die Eingabemuster alle
Ç
denselben Betrag haben. Das gilt also für Muster aus , 1 und, da sie nur durch eine affine
Ç
Abbildung der einzelnen Komponenten aus diesen hervorgehen, auch für Muster aus , 1 . D.h.
Ì
auf binären oder bipolaren Mustern ist man nach spätestens } f} Neuronen fertig, sofern jedes
einzelne Neuron optimal trainiert wird.
Trainiert man etwa auf das XOR Problem
Í Í Í Í )"R )"R )"R )|
so kann man z.B. nach dem ersten Durchlauf die Trainingsmenge
Í Í Í Í )"R )?R )"R )
erhalten, sofern das erste Neuron ein OR berechnet. Diese Trainingsmenge ist etwa mit den Ge
Í wichten £ "
) linear trennbar, so daß man in diesem Fall nach zwei Durchläufen fertig
ist.
Definition 2.13 Upstart-Algorithmus: Die Prozedur
Ì
Training( ; Q )
,
Trainiere ein Perzeptron auf
Ì
Falls nicht korrekt ist:
Ì
Ì
, die Gewichte seien JFH) .
Ì Í Í Í )B}”J´
) C
¹
J ´#)ž
1<hm,šJ´
) }{…´
·
) C
<
Ì Í Í Í )B}”J´
) C
¹
J ´#)ž
1<hm,šJ´
) }{…´
·
) C
<
,Q )
Training( Ù , Q Ù )
U
¦ ŽU Q›J´N)<SÕ H J ´
Q J ´#)x
Q J´N)x«H)
Ù
sonst: Q S 1
S ¶,š…´ Í
Ì
Í
S ¶,š…´
Ù
Ì
Training(
Ì
Ì
Ì
1
1
B. Hammer
18
Ì
wird mit Training( f ; Q ) gestartet.
U
ist genügend groß gewählt.
D.h. in jedem rekursiven Schritt werden zwei Neuronen eingefügt, die sich quasi auf das Trennen der noch falschen positiven bzw. der noch falschen negativen Muster vom Rest spezialisieren.
Bei geeigneter Kopplung dieses Spezialwissens kommt man zum Ziel, da ja in jedem Schritt die
Mengen um mindestens einen Punkt kleiner werden. (Ein positiver und ein negativer Punkt können
mindestens richtig gemacht werden.) So erhält man ein Netz mit einer Neuronenanzahl von maxi
ŽT
die maximale Rekursionstiefe ist.
mal 0 , ± , ±% , . . . , , Neuronen je Schicht, wobei &
U
Satz 2.14 Wenn man genügend groß wählt, dann klassifiziert Q die Menge
Ì
Ì
und Q Ù die Mengen bzw. Ù korrekt klassifizieren.
Beweis: Für ein Pattern gibt es vier Möglichkeiten für die Aktivierung:
…´
…´
Í Í ¦
´Î‡4H : á v
¦
) mit ´
¦
H : á
„[
âIã «Hä
å f
Ž
U
U
á Q âI ã J´Nä ) á Q âIÙ ã J´Nä ) ‡
å f
stf
„V
âIã jHä
V f
U
vÂ
ŽWU
á Q âI ã …´Nä ) á Q âIÙ ã …´Nä )
å f
stf
richtig, wenn Q ŽWU
U
á Q Iâ ã …´Nä ) á Q Iâ Ù ã …´Nä ) ‡
s f
t
s X
Ž
U
U
vÂ
Í ¦
¦
… ´
) mit ´Î‡4H : á „[
âIã «Hä
á Q âI ã J´Nä ) á Q âIÙ ã J´Nä )
å f
stf
s X
…´
Í ¦
) mit Ì
) mit ¦
´
v
H : á
¦
„V
âIã jHä
V f
U
é
Dieses gilt für genügend großes .
2.7
Ensembles
Ein Ensemble kombiniert mehrere Klassifikatoren Q .../"QRÜ , die etwa von Perzeptronen gebildet
Ç
werden, zu einem einzelnen Klassifikator durch eine einfache Funktion QjStE
E , so daß eine
komplexere Funktion QZYlQ .I..I"Qܹ) entsteht. Üblich sind etwa eine einfache Mittelung
Ü
„ È
H ©
oder eine gewichtete Mittelung
;As QR;J´N)x
Ï
)
Ü
„‚È
H ©
;As ³;JQ;ªJ´N)xjH)
O
mit geeigneten Gewichten O#; , H , die man z.B so wählen kann, daß Funktionen Q; mit höherer
Güte stärker gewichtet werden, oder die man einfach trainieren kann. Dieser Ansatz wird uns
später noch einmal begegnen, wobei wir statt einfachen Perzeptronen Q; komplexere Funktionen
kombinieren werden.
Die Darstellungsmächtigkeit so eines Ensembles ist gegenüber einem einfachen Perzeptron
gesteigert, denn jede Boolesche Funktion kann mit einem Perzeptronnetz der Tiefe zwei dargestellt
werden, sogar falls die Gewichte der Ausgabeneuronen alle sind.
Die Frage stellt sich jetzt, wie man die einzelnen Perzeptronen QR; am besten trainiert. Sie sollten
jeweils möglichst wenig Fehler machen. Haben sie allerdings Fehler, dann nützt es offensichtlich
nichts, wenn diese für alle Neuronen gleich sind. Daher wendet man Heuristiken an, die möglichst
unterschiedliche einzelnen Q; produzieren. Möglichkeiten sind etwa:
Neuronale Netze, WS 99/00
19
Den Perzeptronalgorithmus für die Q; bei unterschiedlichen Werten starten und unterschiedlich lange trainieren lassen.
Jedes Neuron auf unterschiedliche Trainingsmengen trainieren.
Boosting: Ziehe aus der Trainingsmenge
pro Perzeptron.
Ì
mit Zurücklegen eine Menge derselben Größe
Ì
Arcing: Ziehe je neuem Perzeptron aus eine Trainingsmenge derselben Größe, wobei die
bisher noch nicht korrekt klassifizierten Punkte eine höhere Wahrscheinlichkeit haben. Sind
Q , . . . , QRÚ schon trainiert, wählt man für ´ etwa die Wahrscheinlichkeit
¹Ž
J´#)i
F
Ð
Õ} ,R]x}/Q;ªJ´#) ist falsch 1Ê}
·Ž
}Õ,R]x}/Q;£J´Ê=I) ist falsch 1Ê} F )
= ® [³
s ® Etwa für das XOR Problem kann dieser Mechanismus zu den Trainingsmengen
Í Í Í Í Í Í ,š )?R )?R )"1 und ,š )?R )?R )"1
führen, die beide etwa mit Perzeptronen Q und Q Ù linear trennbar sind. Die Kombination
\
¬Q J´#)
Ž
Q
Ù
…´N)x
.]A)
löst dann XOR.
Ensembles werden häufig eingesetzt, um die Generalisierungsfähigkeit des Klassifikators zu verbessern. Wir kommen später zu diesem Effekt.
2.8
Perzeptronnetze
Man kann natürlich mit beliebigen Perzeptronnetzen starten. Es reicht zur Darstellung jeder Booleschen Funktion eine verborgene Schicht aus. Nichtsdestotrotz können mehr Schichten die Anzahl
der Neuronen reduzieren helfen.
[Etwa die Funktion, die 0 binäre Eingaben der Größe nach sortiert, kann nicht mit einem Netz
der Tiefe und nur polynomiell vielen Neuronen dargestellt werden, hingegen doch mit einem
Netz der Tiefe und polynomiell vielen Neuronen.]
Sei also ein festes Netz mit Schichten mit 0|f , 0 , . . . , 0|k Neuronen und der Perzeptronaktivierung gegeben. Wie kann man dieses trainieren? Ein Algorithmus ergibt sich aus folgender
;
;
Überlegung: In einem fertig trainierten Netz bildet jedes einzelne Neuron ] die Punkte ´ , . . . , ´ Ü ,
;
;
die sich durch die Aktivierung auf den Trainingspattern ergeben, auf Werte à , . . . , Ã Ü ab. Dieses
¦ ;
geschieht, indem die Aktivierung des Neurons ´ = ýH mit verglichen wird. Wir hatten schon
gesehen, daß es möglich ist, und H so zu ändern, daß sie sich als Lösung eines Gleichungssy;
stems mit durch die Punkte ´ = bestimmten Koeffizienten ergeben, ohne die Funktion des Netzes
Ž¶
auf den gegebenen Daten zu ändern. Das heißt aber, mit Auswahl von maximal 0€;
Punkten
;
aus ´ = (0z; sei die Eingabedimension des Neurons ] ) und deren Klassifikation nach oder ist
und H bestimmt. Jetzt testen wir einfach für jedes Neuron Schicht für Schicht rekursive alle
Möglichkeiten durch. Es gibt zwar exponentiell viele Möglichkeiten in Bezug auf die jeweilige
Ü
Eingabedimension 0z; des betrachteten Neurons ] (man sucht bis zu L Ç ; M Punkte und für diese
eine aller möglichen Klassifikationen aus), aber nur polynomiell viele Möglichkeiten in Bezug auf
die Anzahl der Trainingspunkte Ï . D.h. die Prozedur ist polynomiell für eine feste Architektur.
Die Architekturparameter treten aber exponentiell auf.
Wahrscheinlich geht das prinzipiell nicht besser. Genauer hat man folgende NP-Ergebnisse:
B. Hammer
20
Ì
Ç
Satz 2.15 Betrachte folgendes Problem: 0¡Ce¸ und eine Patternmenge in , 1 54, 1
Ì
Ì
seien gegeben. Gibt es ein Perzeptronnetz :02"
š ) , das auf korrekt klassifiziert? (0 und sind
variabel.) Dieses Problem ist NP-vollständig.
Beweis: Das Problem ist in NP, denn man kann (polynomielle) Gewichte raten und testen, ob sie
stimmen. Es ist auch NP-vollständig, da man das NP-vollständige -SSP darauf reduzieren kann:
Sei ein SSP xg) gegeben. Sei o.E. }õè}tŒ& für alle õgC
. Sei }^}-0 . Folgende Punkte in
Ç
, 1 tøÄ5ç, 1 sind zu lernen:
Í ...? ),
Í ;|P .../ ..I. ) für alle ]BCÎ, .I..I%0N1 , die steht an der Stelle ] ,
1
Í µœP .../ . ..? ..I./ ) für alle õª=œc,I; í I; î I;9_/1*C ; die stehen an den
Stellen I; í , I; î , 6; _ ,
1
2
Í ...? ),
Í ...? ),
Í ...? ),
Í ...? ),
Í ...? ),
Í ...? )
Es ist jetzt zu zeigen, daß dieses Problem mit einem Netz genau dann lösbar ist, wenn das SSP
lösbar ist.
Sei eine Lösung , Ù für das SSP gegeben. Definiere als Gewichte für die beiden verborgenen
Neuronen J ) bzw. … Ù ) mit
9<;>=œ
†
falls =C'z;
sonst und
Biases .6A , die Ausgabe berechne ein und. Das bildet alle Punkte richtig ab. Für die Punkte
1
2 µ folgt das, da alle Mengen õª= gesplittet werden.
Sei umgekehrt ein neuronales Netz gegeben, das die positiven Punkte korrekt abbildet. Betrachte zunächst folgendes Teilproblem in den letzten drei Koordinaten:
\
\
Die unterschiedlich klassifizierten Punkte werden durch zwei Ebenen und Ù , die den Neuronen in der hidden Schicht entsprechen, voneinander getrennt. O.E. liegt kein Punkt direkt auf einer
\
w
dieser Ebenen. Sei die Abbildung, die die Punkte auf der Seite von , auf der ï liegt, nach
w
w
w
abbildet, Ù analog. Dann berechnet das Augabeneuron : Angenommen, das sei nicht der
Ù
Fall. Dann würde es nicht nur einen, sondern drei der vier möglichen Werte in der verborgenen
Schicht ) , ) , ) , ) nach abbilden, da nur eine Ebene offensichtlich die Punkte
Neuronale Netze, WS 99/00
21
nicht trennt und das XOR nicht mit einem Perzeptron lösbar ist. Das hieße aber, daß eine Ebene
mindestens zwei schwarze Punkte von allen weißen abtrennt. Das geht offensichtlich nicht.
Betrachte jetzt wieder alle Dimensionen. Die beiden hidden Neuronen definieren je eine Ebe\
\
w
w
ne, die wir wieder mit und1 Ù bezeichnen. Analog zu eben
seien die Abbildungen und Ù
1
w
w
w
w
definiert. Sei d,I;i} 1 ;J)[
1 und d,;i}
;…)V
1$% . Da das Netz Ù
Ù
Ù
berechnet und die Punkte ; alle nach gehen, ist das
eine disjunkte Zerlegung von . Wären für
1
w
eine Menge õ alle Punkte in , dann würde auch 2 1 von auf abgebildet werden, denn der
\
Punkt liegt dann
als Linearkombination der einzelnen ; auf derselben Seite der Ebenen , wie
1
die einzelnen ; . Analog mit Ù .
é
Obwohl man das vermutet, folgt nicht automatisch, daß das Training größerer Netze genauso
schwierig ist. Dazu bedarf es eines neuen Beweises:
Ì
Ç
Satz 2.16 Betrachte folgendes Problem: 0qC¸ und eine Patternmenge in E
5ˆ, 1 seien
Ì
Ì
gegeben. Gibt es ein Perzeptronnetz J0x%0 .../%0|k ) , das auf korrekt klassifiziert? (0 und
sind variabel, 0 ‡T
, . . . , 0|k sind fest.) Dieses Problem ist NP-vollständig.
Beweis: Auch hier kann man Gewichte raten und testen, ob sie funktionieren.
Der Beweis der NP-Vollständigkeit geht durch eine ähnliche Reduktion vom 0 -SSP: Wir deuten das hier nur an.
Sei ein 0 -SSP 0x*) mit Mengen õ°C` der Kardinalität maximal gegeben. Sei }^D}ʃ0 .
Ž
ŽT
Ça
Sei 0 X W0
0 . Folgende Punkte in E
5Î, 1 sind zu lernen:
Í .I..I ..I./
),
1
Í ; P .
. ./ .I.. I... ) für alle ]iCç, ...?%0N1 , die steht an der Stelle ] ,
1
Í 2 µg­
..I./ ..I./ ...? I...?
) für alle õ¥=g¡,I;LíI;Aî/I; _ 1 C/ ; die stehen an
den Stellen I;Lí , I;Aî , I; _ ,
Ç
Í Ç í bz;¬
) für alle bz;NCÎ, 1 $Ê ...? )
Ç
Í Ç{í
b|f
) mit b|f¹¶, 1
ü
ü
Ç þ Í ŽW
Ç þ ŽT
þ
;Ò
) für ]›
, . . . , 0 :0 ) und ;¬ ) für ]›
, . . . , 0 :0 ) , wobei ;
þ
und ; wie folgt konstruiert werden:
\
Ž
I
ǔí
Wähle 0 Punkte in jeder Menge ;2ƒ,´ýCÎE
}/„Ê;2
_Îc
o ]€„=
1 , und nenne
þ
þ
sie , Ù , . . . , die gesamte Menge @ . Die folgende Eigenschaft soll dabei gelten: Gegeben
ŽG
verschiedene Punkte in @ , dann liegen diese auf einer Hyperebene dann und nur
0 \
dann, wenn
sie
in
einem
einzigen
; enthalten sind. (Das kann man durch die Bedingung
ü
\
þ
...
Ç{í
þ
þ
o
; definiere =CFE
det P
testen, daher ist das möglich.) Für =C
í
; í ...
9; c 0
ü
íd R
þ
Ž
þ
þ
Ç{í
als =œG0 = ..I./ =£; =£; -I =£; ..I./ =£Ç”í£)? und =CE
als =œP0 = .../ =ª; =ª;
Ç{í
ü
-I
=ª; ...? =ªÇ{íª)" für kleines
- mit folgender Eigenschaft: Falls eine Hyperebene in E
ŽÀ
þ þ
ŽÀ
mindestens 0 Paare ;Ò ;…) separiert, dann sind das die 0 Paare, die zu denjenigen
\
ŽÂ
0 Punkten in einer Hyperebenen ; korrespondieren und die separierende Hyperebene
ist nahezu gleich mit derjenigen durch
testen, daher geht das.)
\
; . (Das kann man wieder durch eine Determinante
Diese Punkte erzwingen, daß die Neuronen in der ersten
verborgenen Schicht nahezu mit
1
\
ǔí
den ; übereinstimmen müssen. Daher werden die ; auf ganz , 1
abgebildet in der
ersten verborgenen Schicht, das heißt, das restliche Netz berechnet wegen bz; notwendig ein
und!
B. Hammer
22
Sei eine Lösung , . . . , zǔí des 0 -SSP gegeben. Definiere den Bias des ] ten Neuron im ersten
e;¬ .6A) mit
hidden Layer als ]. A und die Gewichte als  ..I.I
R=œ¯†
® e³®
; enthalten
= ist in z
sonst
und dem ] ten Einheitsvektor e; . Alle anderen Neuronen berechnen ein und. Das klassifiziert alles
richtig.
þ
ü umgekehrt ein Netzwerk, das alles richtig klassifiziert, gegeben. Wegen der Punkte b€; , ;
Sei
þ
und ; berechnet dann das Netz ab der zweiten Schicht einfach nur
die Funktion und. Definiere
1
z;z¶,=€} das ] te Neuron in der ersten verborgenen Schicht bildet = nach
ab. 1$Ê0 h...Jhfz; ) .
Das bildet ein Splitting, wie analog zum obigen Beweis gesehen werden kann.
é
Obiges Ergebnis gilt sogar, wenn man nicht eine perfekte, sondern nur eine approximative Lösung
sucht, d.h. eine Lösung, die einen großen Bruchteil, aber nicht alle Punkte korrekt klassifiziert.
Man erhält sogar NP-Ergebnisse, wenn man die Eingabedimension fest läßt, aber die Neuronenanzahl variiert. Dieses Problem könnte z.B. auftreten, wenn man nach einer möglichst kleinen
Architektur für ein festes Problem sucht. Man erhält:
w
Satz 2.17 Für eine Architektur der Form :0x0 ..I.I%0zk ) mit festem ‡T
, 07‡W
und variierenÌ
Ç
dem 0 und 0 Ù und eine variierende Patternmenge in E 5Z, 1 ist es NP-hart zu entscheiden,
Ì
ob mit geeigneten Gewichten korrekt klassifiziert werden kann.
Beweis: Reduktion von ’separability in the plane with lines’: Seien Punkte ( und C in E Ù gegeben. Betrachte
Ì
¶,šJ´ ;¬ à ;§)<CFE Ù 5ç, 1}”J´ ;NCC à ;z
Ì
)hg΅´ ;NC( à ;|
)1.
kann mit einem Netz der Architektur š"Ûz”}^C[} ) klassifiziert werden dann und nur dann, wenn
(
und C sich durch maximal Û Geraden trennen lassen:
Ì
Falls korrekt klassifiziert werden kann, dann definieren die durch die Û Neuronen in der
ersten verborgenen Schicht definierten Geraden Û Geraden, die ( und C trennen.
Falls ( und C durch Geraden getrennt werden, dann definiere das Netz wie
folgt:1 Die Neuro1
nen in der ersten verborgenen Schicht entsprechen den Û Geraden. Sei CW¶, ...? Ün1 . Das _ te
Neuron in der zweiten verborgenen
Schicht berechnet J„ ..I.I„'Ú)žÈ B)„ F...7B)„'Ú , wobei
1
bei „Ê; 1 auftaucht, falls = auf der negativen Seite der ] ten Gerade liegt. Insbesondere bildet dieses
Neuron = nach und b nach ab für alle b7C( . Also tut’s ein oder‘ als Ausgabe.
é
’
Tja, die Situation sieht also ziemlich schnell übel aus, falls die Architektur zu groß wird. Man
hofft aber, daß obige schwierigen Fälle in der Praxis nicht auftreten und trainiert trotzdem. Da
niemand den oben genannten polynomiellen Algorithmus für kleine Architekturen in der Praxis
ernsthaft benutzt, betrachten wir aber jetzt die in der Praxis gebräuchlichen Trainingsmethoden für
feedforward Netze.
3 Feedforward Netze
Um ein effizientes Training von feedforward Netzen zu ermöglichen, bedient man sich eines entscheidenden Tricks: Man ersetzt die Aktivierungsfunktion durch die sigmoide Funktion sgd J„z)B
R Ž
e {) die ja die Perzeptronaktivierung für Werte gegen ikj gut annähert. Vorteil: Die
Netzfunktionen werden differenzierbar, und alles löst sich in Wohlgefallen auf. Alles, was mit
Neuronale Netze, WS 99/00
23
Perzeptronnetzen darstellbar war, läßt sich auch durch Netze mit der sigmoiden Funktion gut ap
proximieren, da für „«o
–\—L˜ sgd õ„z)i H …„z)
2 @
™
gilt. Außerdem können jetzt nicht nur binärwertige Abbildungen, sondern Ausgaben aus » ½
betrachtet werden.
3.1
Trainingsverfahren
Ç
7
5«» ½ } ...?%Ï 1 gegeben. Die
Sei also ein Netz und eine Trainingsmenge ,šJ´ml¥¿ml{)<C E
Eingabeneuronen seien die Neuronen , . . . , 0 . Die Ausgabe des Neurons ] bei Eingabe des ten
Musters bezeichnen wir mit ¢l"; , die Aktivierung des Neurons ] bei Eingabe des ten Musters mit
netl; ; für die Neuronen, die nicht Eingabeneuronen sind, gilt
netl";|
©
9B=£;§¢lª=·«HI;¬
=@<;
¢l;z
sgd netl;…)".
Der quadratische Fehler des Netzes ist die Größe
n
Ü
©
?l s =
á
¢lª=·
©
ist Ausgabeneuron
âIã
©
/l s ä
op
Ü
à ¥l =?) Ù n
è.
l
n
Falls das Netz alle Beispiele richtig abbildet, dann ist
. Training bedeutet, Gewichte zu
n
n
finden, so daß möglichst klein ist. Man beachte, daß differenzierbar ist. Daher ist ein sogenannter Gradientenabstieg möglich: Gehe auf der Fehlerfläche schrittweise in die Richtung
des steilsten Abstiegs, bis es nicht mehr weiter geht. Die Richtung des steilsten Abstiegs ist aber
gerade der sogenannte Gradient qSr
n
n
… )ž
J‚)
Pts
s
9<;>=
R
;A@B=
wobei wir wieder angenommen haben, daß der Bias jedes Neurons durch ein zusätzliches Gewicht,
d.h. eine Verbindung zu einem Eingabeneuron mit konstanter Eingabe realisiert ist. Mathematisch ist Gradientenabstieg daher folgendes Verfahren:
setze ÔS Tvu (i.A. kleine Zufallszahlen)
wiederhole
n
ÔSÕTe.w
P
J‚)
s
9<;>=
s
àv
;>=
R
w die sogenannte Schrittweite, die die Größe der Gewichtsänderungen bestimmt.
Dabei ist
Backpropagation bezeichnet lediglich obiges Verfahren, wobei die Gradienten auf eine spezielle,
besonders effiziente Weise berechnet werden; wir betrachten der Einfachheit halber den Fall , und lassen den Index weg. Für mehrere Pattern muß man die Rechnung für jedes Pattern
durchführen und anschließend aufsummieren. Es ist
Ó
n
s
s
J )
9<;>=
n
s
s
net=
Ö
net=
s
s
9<;>=
=¹ÖR¢;è.
B. Hammer
24
(Kettenregel: ¬Q›yx …„z))¥)£XšqQ€X…zx|J„z)¥)2Ö{xXJ…„z) ) mit dem Fehlerterm
Ó
n
=SÕ
s
s
und
Ó
net=
s
s
9<;>=
s
Ð
net=
Ú@B= 9œÚÒ=?¢RÚ
s
9<;>=
¢;Ò.
Man kann die = sehr einfach durch folgende rekursive Formel berechnen, die es gestattet, ausgehend von den Ausgabeneuronen die Fehlerterme für die Neuronen der einzelnen Schichten zu
berechnen. Sie werden quasi Schicht für Schicht zurückpropagiert, daher der Name Backpropa’
Ó
gation‘:
Ó
¢?=· Ã =/)xÖ sgdX net=?)?
_ ist Ausgabeneuron
=œ}|
=@œÚ 9B=ªÚ ÚœÖ sgdX net=/)"
Ð
sonst.
Letzteres ergibt sich wie folgt:
n
s
s
n
net=
s
©
Ö
¥= @œÚ Ó s net Ú
s
s
©
Ú ©
#
9<;ÉÚ
¥= @œÚ Ó A; @œÚ
©
=¥@œÚ
net Ú
net=
s
sgd net;:)
net=
s
ÚI9B=ªÚ<Ö sgdX net=?)
(Kettenregel im Mehrdimensionalen: Q›yx J„z)?I...I~x”ÇuJ„z)¥) X  €

í Ö{x X J„z)
Ž
...
Ž
Definition 3.1 Offline/Batch Backpropagation ist folgender Algorithmus:
VS Bw,u
w
Í
Initialisiere , ! mit kleinen Zufallszahlen;
Wiederhole
‚
‚
Í
ÔS Tï ; !7S ï
Für jedes Pattern …´mlè¿ml)
¢;NS Ó
|
„>l;
] ist Eingabeneuron,
sgd Ð =@<; 9B=£;§¢?=·«HI;:)
sonst.
Ó :¢/=¹ à lª=?)¥¢?=” «¢/=?)
=DS ƒ|
Ó
Ð =¥@ÄÚ 9B=¥Ú ÚI¢/={ «¢?=?)
‚
‚
Ó
Í
‚
9<;=S ‚
9<;>=i«¢R; =
Ž
Í
‚
HI;NSÕ ‚
HI;
;
Ž
Ž
Í
ÔSÕT
w
; !mSÕq!
w
!
_ ist Ausgabeneuron,
sonst
(*)
Bei online Backpropagation wird die ÄnderungÓ (*) ersetzt durch
Ó die Änderung
Ž
Í
9<;>=SÕW9<;>=i.wu¢; = IH ;NS HI;
innerhalb der Schleife.
w
;
Í
{Ç X J„z) )
€ c x

Neuronale Netze, WS 99/00
25
Dabei ist w”f
; wir haben sgdX J„z) sgd J„z)I sgd J„z)¥) benutzt. Online Backpropagation
nimmt die Gewichtsänderungen jeweils schon nach jedem Pattern vor, ist also kein tatsächlicher
Gradientenabstieg mehr. Es hat sich aber gezeigt, daß die dadurch entstehenden Zufälligkeiten
förderlich für die Ergebnisse sind. Der Aufwand von Backpropagation hängt von der Anzahl der
nötigen Schleifendurchläufe ab, die sich je nach gewählter Lernrate und Situation ändern kann.
Der Aufwand eines einzelnen Schleifendurchlaufs
ergibt sich als Anzahl der Pattern multipliziert
Ó
mit der Anzahl der Gewichte mal eine Konstante, da in jeder Vorwärtswelle‘ zum Berechnen der
’
¢; bzw. Rückwärtswelle‘ zum Berechnen der ; jedes Gewicht genau einmal angeschaut wird.
’
Dieses Verfahren ist mit einigen Problemen konfrontiert, die man durch zahlreiche Variationen
versucht hat, zu meistern:
Lokales statt globales Minimum gefunden,
Minimum wird aufgrund zu großer Schrittweite übersprungen,
Oszillation in schmalen Tälern,
Stagnatation im Hochplateaus,
...
Folgende teilweise heuristisch motivierte Modifikationen sind etwa möglich. (Bias durch OnNeuron realisiert!):
Ó
Flat-spot-elimination:
In den Fehlertermen = taucht die Größe sgdX J„z) auf, die im besten Fall . ,A , im schlimmsten
Fall nahezu ist. Dieses führt zu extrem kleinen Fehlersignalen, insbesondere, sofern sie
durch mehrere Schichten propagiert werden. Bei flat-spot-elimination verwendet man statt
Ž
(ß.
- für ein sgdX …„z) den Wert sgdX J„z)
Momentum Term: (Nur für die Offline-Version)
Nahe bei lokalen Minima kann es geschehen, daß der Gradient zu groß ist und deswegen das
Verfahren oszilliert. Umgekehrt kann auf einer langen Gefällstrecke ein kleines lokales Mi‚
nimum den Suchprozeß aufhalten. Die Idee ist, gegen solche Effekte ein Trägheitsmoment
einzuführen, so daß tendentiell die
letzte Richtung beibehalten wird. Es bezeichne die
‚
‚
‚
in ÒÑ) berechnete Änderung und 7J¤¥) die im Folgenden tatsächlich
vorgenommene
ÄndeŽ
rung nach dem ¤ ten Schleifendurchlauf, d.h. 9<;>=OS q9<;>=
9<;>={J¤¥) . Es ist m )icï . Bei
Backpropagation mit Momentum ist
‚
9<;>={J¤
ŽT
‚
)žw
9<;>=
Ž
‚
O
9<;>={J¤¥)
mit O¯C¯» .Õ
š .…„”½ dem Momentum Term. Allerdings ist der Effekt begrenzt und ändert
nichts daran, daß die auch durch den Gradienten bestimmte Schrittweite für die jeweiligen
Situationen unpassend ist.
Ó
Manhattan Training: Man ersetzt innerhalb der Schleife
‚
‚
9<;=S 9<;>=i«¢R; sgn =/)
Í
Die Fehlersignale bestimmen also nur die Richtung der Änderung und nicht mehr die Größe.
Tatsächlich entspricht dieses einem Gradientenabstieg auf der durch Ð l Ð = }¢lª=< Ã l¥=} ge
gebenen Fehlerfläche. Da in keine Differenzierbarkeit gegeben ist, kommt es hier evtl. zu
Oszillationen.
B. Hammer
26
SuperSAB:
Die Idee ist, für jedes Gewicht eine eigene Schrittweite zu verwenden, um Verzerrungen für
die einzelnen Richtungen zu vermeiden. Die Schrittweiten werden adaptiert.
”;>=” ž
) Bwf
(z. ‚ B. )
w‚
9<;>={J¤¥)žBw”;>=”J¤¥)
”;>=”J¤¥)ž
”;>=”J¤2
Š ‰ÁÁÁ
ÁÁ
‹
Á
J¤2
9<;>=
s
s
)
n
)2ֆwš
”;>=”J¤2
w
s
s
”;>=”J¤2
ÁÁ
‚

)2ֆwÊ
w
ÁÁ
n
n
w
w
n
9<;>=
J¤2
9<;>=
)
s
9<;>=
s
n
)
s
s
sonst v`
J¤¥)
J¤¥)
9<;>=
J¤¥)
9<;>=Ä
9<;>= . wÊCg½ » z.B. .]A sorgt für Verkleinerung der Schrittweite, falls
mit
s
s
z.B. .Õ
sorgt für Vergrößerung, falls die Richtung
sich die Richtung geändert hat, w beibehalten bleibt. Allerdings ist der Gradient ein immer noch stark bestimmender Faktor.
Im zweiten Fall kann es zu einer Explosion der Schrittweite kommen.
DeltaBarDelta:
Dasselbe Verfahren, wobei man den zweiten Fall durch
{;>={J¤¥)Bw”;=”…¤›
w
n
)
Ž
w
falls
s
s
9<;>=
J¤2
n
)
s
9<;>=
J¤¥)
s
ersetzt. Dadurch soll eine Explosion verhindert werden.
RProp:
Resilient Propagation benutzt auch eine eigene adaptive Schrittweite für jedes Gewicht, verzichtet aber gänzlich darauf, die i.A. irreführende Größe des Gradienten zu verwenden. Zudem werden verschlechternde Schritte, d.h. man ist über das Minimum hinausgegangen,
zurückgenommen und mit verbesserter Schrittweite neu probiert.
‚
‰ÁÁ
‚
9<;>={J¤¥)B
9<;=…¤x
n
)
falls
Š ÁÁÁ
s
s
ÁÁ
9<;=
…¤x
ÁÁ
ÁÁ
Á
fw{;>=…¤¥)xÖ sgn
P
s
s
9<;>=
s
s
n
ÁÁ
J¤¥)
R
)
n
setze zudem
‹
n
9<;>=
s
s
9<;>=
v`
J¤¥)
n
…¤¥)<S s
s
9<;=
…¤›
)"
sonst
{;>={J¤¥) wird wie bei SuperSAB verändert. Der erste Fall entspricht dem Zurücknehmen eines
w
verschlechternden Schrittes. Die Größe der maximalen Gewichtsänderung wird zusätzlich
beschränkt. RProp ist ein extrem robustes und schnelles Verfahren, so daß es häufig die Methode der Wahl ist. Allerdings ist schnelles Training häufig kontraproduktiv für die Generalisierungsleistung, so daß diese durch weight decay oder early stopping erzwungen werden
sollte (kommt später).
Steepest descent:
Die Idee ist, in Richtung des Gradienten soweit zu gehen, daß man in dieser Richtung ein
Minimum erreicht, und dann erst eine neue Suchrichtung einzuschlagen. In Richtung des
Gradienten wird nur die Schrittweite adaptiert, aber kein neuer Gradient berechnet. Dieses
hilft etwa bei langen, geraden (!) Tälern oder Hochebenen, schlägt aber schon bei einer
einfachen Fehlerfläche mit elliptischen Höhenlinien fehl, da es stark oszilliert.
Neuronale Netze, WS 99/00
27
Konjugierte Gradienten:
Alternativ kann man in einer leicht vom Gradienten abweichenden Richtung suchen, so daß
diese Oszillation verhindert wird. Wenn man im Schritt ¤ schon in der Richtung ‡¦ gesucht hat, dann möchte man nicht wieder in die Richtung ‡¦ suchen müssen. D.h. in der
neuen Suchrichtung ‡¦ sollte der Gradient möglichst senkrecht zu ‡¦ sein. Für folgende
Überlegungen benutzt man, daß
sich jede hinreichend glatte Funktion durch eine Taylorentq
wicklung gut approximieren läßt. Es gilt
Ž
Q›J„z)‰ˆ-Q›…„'f?)
Q›J„'f")/J„[΄'f?)
ŽTR
Oօ„[j„'f?)
¦
\
…„'f?)IJ„ßj„'f")
\
mit Hessematrix von Q . Die Approximation ist für Polynome maximal zweiten Grades
sogar exakt, für mindestens zweimal stetig differenzierbare Funktionen kann sie durch einen
Term abgeschätzt werden, der mit dem Abstand der Punkte „ und „'f skaliert. Obige Idee,
den Suchrichtung so zu wählen,
daß der Gradient möglichst senkrecht zur alten Suchrichtung
q
bleibt, bedeutet:
ˆ
q
n
ŽŠU
¦
âIã և¦ ä ) և¦
Já ঠneue Suchgerade
ˆ
f
á
‹ Œ3
ŽU
¦
JàâI¦ ã ) Ö ‡ä ¦
n
‡
¦
¦ \
…ঠ)~‡¦
da entlang Ž minimiert
\
Dabei sei ঠder Gewichtsvektor vor Minimieren in Richtung ‡¦ und die Hessematrix von
n
. Man minimiert z.B. in sogenannten konjugierten Richtungen, d.h. Richtungen mit
‡
¦
¦ \
Jঠ)~‡¦Nˆ
q
.
q
Anteil in Richtung ‡è¦ korrigierter Gradient gewählt, so daß
è¦ wird jetzt als um einen
n
‘
Ž ‘
und ‡è¦ konjugiert sind: ‡¦ Y
‡è¦
Jঠ)
Ö>‡¦ , wobei so gewählt wird, daß
q
¦ \
n
\
ŽT‘
¦
‡è¦ gilt, d.h. £
‡ ¦
Jঠ)
և¦:)
‡è¦|
n
¦\
…ঠ)
‡¦
‘
.
¦\
‡ ¦
‡¦
¦\
Dieses ist nur definiert, falls ‡ ¦ ‡è¦
ist. Anderenfalls muß man sich mit ad hoc Richtun‡
gen, etwa dem einfachen Gradienten, behelfen.
Dieser
q
q Ausdruck ist noch sehr ineffizient zu
Ž
O³¦|և¦. Dann ist
berechnen, daher formt man weiter um: Sei ঠTà¦
\
q
և¦hˆ
n
n
n
¦
Jঠ) J ঠ)x
Jà¦:)¥)
n
n
¦
Jà¦))
á ‡ ¦ âIã …à¦ ä )x
q
q
f
n
n
¦
Jঠ) r Jà¦
¦
âIq ã{‡ ä ¦
á{f
’No
q ó Ž ô
qí
n “ Ž”
>
¦
Jঠ) Jà¦
n
…°¦J) ¦
q
ˆ
q
n
q
n
ˆ
Jà¦:)
q
q
ˆ
Jঠ)x
O ¦
#
q
also
‘
n
q
(Hestenes-Stiefel)
n
)x
n
n
Jà¦:)¥)
…°q ¦J)
)x
Jà¦:)
n
Jà¦:)¥)
B. Hammer
28
q
q
q
ˆ
q
q
¦
Jঠ)
n
Jà¦) ¦
n
q
(Pollack-Ribiere)
n
…°¦ )
…°¦)
n
(Fletcher-Reeves)
n
n
da
…°¦J)Œ•
…ঠ) annähernd gilt, wie wir gleich sehen werden. Der gesamte Algo
rithmus ist also:
q
ÔSÕ4°f
‡°S ¶
Í
n
Í
J°f")
Wiederhole
,
n
Finde ¤ q , so daß
Ž
X S T
‘
S
q
Í
¤ ‡q
–
J[X )x
n
n
ÔSÕT X
‡°S Í
n
q
¤›Ö‡) minimal ist (line search).
q
n
J‚) ¦
Ž/‘
J‚)
Ž
q
J
J‚))
n
¦
n
…[XÉ) Í
… )
Í
‡
1
n
Für eine quadratische Funktion konvergiert dieses Verfahren nach spätestens 0 Anzahl
n
q
der Parameter Schritten, denn für quadratisches sind alle bisherigen Näherungen
exakt,
n
¦\
q
J‚)£´~o
außer für Richtungen, wo konstant
ist ´
, so daß alle Terme definiert sind,
n
…°¦J)i
und die berechneten Gradienten sind paarweise orthogonal, O³¦<o
außer für
.
n
[Beweis für letzteres: Sei x”¦žSÕ
wird folgendes bewiesen:
I
1. {x ¦<•‡;
O ;·o
2. ³
3. x ; Ix =œ
¤,
außer für x”;z
¦
v
]
Jà¦:) ,
\
\
SÕ
J‚) ist konstant. Durch Induktion nach ¤
,
I
]^ˆ
o _ߌ`¤ ,
4. ‡;·o
außer für x{;| ,
I
v
¦\
5. ‡ ; ‡{=<
_
]BŒÂ¤ .
In obigen Fällen ist für ¤ž
nichts zu zeigen. Der Induktionsschritt ist wie folgt:
¦
1. x ¦ ‡¦#
nach Konstruktion. Für _

\
¦ zx{¦ Wx{¦) O#¦ .
da ‡³
v
¦
¦
¦
±+
¤ ist x ¦ {
‡ = –
e yx”¦ —x”¦J) R
‡ =Ä&O#¦y‡ ¦
\
{= ~± e
‡
,
q
2. Für eine quadratische Funktion kann man O#; ausrechnen:
Ž
…à;
Ž
¦
‡ ; x”;
O ;˜‡
#

¦
O#;zGyx ; x”;…)
‡
<
n
\
Ž
³;y‡;J)Bx{;
O³;
‡è;
\
Ž
¦
¦
¦
‡
;
c
™
x
{
x
;
³
O
;y‡ ;
;
;
¦\
; ‡;…)".
O
\
;
‡
Die zweite Zeile benutzt dabei, daß in die Suchrichtung minimiert wurde, x{; also senk ¦
recht zur alten Suchrichtung ‡; steht. Also O³; x ; x{; x{; ó ô ¦ x”f¹¶™x ¦ ‡èf ó ô ŽT‘
¦
¦
; ‡; ) ¦ x{;zBx ¦ ªf‡è;
3.
¦
x
x
¦
Neuronale Netze, WS 99/00
‡ ¦
4. è
¦
¦ 5.
‡
‡
¦
¦ \
è¦|
‡
\
{= ±– e
‡
29
‘
{¦ x
ó ô
¦<‡¦
{¦ x
, da konjugiert.
™x ¦
¦
\
q
ó ô q
R
¦
für ¤
R=¹™x ¦ y x= —
x=?)
O = ø
€
n
Newton-Verfahren: Mit dem Ansatz
man die Iterationsvorschrift
n
…ঠ)šˆ
\
°¦ Tà¦z
Jà¦:) Jà¦:)
q
n
Ž4
_
‡
Ž
\
.]
…à¦:)I…°¦ ýà¦) erhält
Jà¦:)|.
Durch die Matrixinversion ist das Verfahren allerdings aufwendig. Es kann sehr instabil sein,
sofern die Approximation schlecht ist.
Quickprop: Die Matrixinversion beim Newtonverfahren wird umgangen. Man nimmt an,
\
habe Diagonalgestalt, und ersetzt die Einträge durch den Differenzenquotienten
n
s
Ù
n
s
…à¦:)
9 ;>Ù =
s
ˆ
n
…°¦ )
9<;>=
9<;=
s
s
.
9<;>={J¤¥)xË9<;>={J¤x
)
Jà¦)
Man erhält
s
n
9<;=”…¤
Ž4
s
)žT9<;>=”J¤¥)x
n
s
s
…à¦Ò)
9 ;>=
<
s
Jà¦)
9<;>=
‚
9<;>=R…¤¥)
n
s
s
Jঠ)
9<;>=
.
Ebenso wie das Newton Verfahren kann Quickprop sehr instabil sein.
Monte Carlo: In jedem Schritt wird zufällig eine Gewichtsänderung aus einem vorgegebenen Intervall gezogen und bei Verkleinerung des Fehlers auch vorgenommen.
Simulated Annealing:
Die obige Änderung wird auch bei Verschlechterung mit der Wahroœ
scheinlichkeit e #‚ ›
akzeptiert
für ein ¾
, welches im Laufe des Verfahrens gegen
¼
n
n
n
konvergiert, und
…à¦)x
Jঠ) .
Beide Verfahren sind sehr langsam, da sie die Struktur der Fehlerfläche in keiner Weise
n
ausnutzen. Allerdings können sie auch für nicht differenzierbare Fehlerfunktionen verwandt werden. Gegenüber Monte-Carlo kann Simulated Annealing lokale Minima wieder
verlassen, so daß bei geeigneter Verkleinerung von ¾ die Konvergenz gegen ein Optimum
sichergestellt ist.
3.2
Präsentation der Daten
In der Praxis sind Beispiele für eine zu lernende Gesetzmäßigkeit gegeben, und die Lernaufgabe
soll mit einem feedforward Netz gelöst werden. Dazu muß die Aufgabe so formuliert werden, daß
Ç
Ü
sie als Lernen einer Funktion QmS„FC E È Ã CFE
aufgefaßt werden kann. Die Daten sollten so
repräsentiert sein, daß die zu lernende Funktion eine möglichst einfache Form hat und möglichst
viel exaktes Vorwissen in die Repräsentation integriert ist. Zugleich sollte die Eingabedimension
möglichst niedrig sein, um zu gewährleisten, daß die Daten die unbestimmten Parameter der Architektur festlegen, d.h. überflüssige Information sollte vermieden werden. (Dieser Punkt wird später
noch exakt gemacht.) Die Beispiele, die die Gesetzmäßigkeit bezeugen, sollten repräsentativ für
den Bereich sein, für den die Funktion gelernt werden soll.
B. Hammer
30
In der Praxis gibt es keine Standardverfahren für eine geeignete Repräsentation. Einige der
oben genannten Kriterien sind offensichtlich widersprüchlich, und es gilt, eine geeignete Balance
zwischen den Anforderungen zu finden. Eine geeignete Repräsentation zu finden, ist in der Regel
eine sehr zeitaufwendiges Unterfangen, von dem allerdings der Erfolg des Lernens wesentlich
abhängt. Es folgen einige Kochrezepte für mögliche Repräsentationen:
Symbolische Daten: Viele Daten sind durch Attribute symbolischer Natur beschrieben. diese müssen als reelle Zahlen kodiert werden. Treten nur zwei Ausprägungen auf oder be
sitzen die Attribute eine natürliche Anordnung, so kann man sie durch und bzw. durch
verschiedene aufsteigende Werte im Intervall » ½ repräsentieren. Besitzen die Attribute
keine natürliche Anordnung, so ist eine unäre Kodierung angebracht: Attribut ; wird durch
den ] ten Einheitsvektor in Etž , ç Anzahl der Attribute, repräsentiert. Das ist gegenüber
einer theoretisch ebenfalls denkbaren binären Kodierung vorzuziehen, da eine binäre Kodierung nicht begründete Ähnlichkeiten zwischen unterschiedlichen Attributen definieren
würde. Unäre Kodierung ist insbesondere angebracht, wenn man eine Klassifikation der
Daten in mehr als zwei Klassen lernen möchte, d.h. zur Kodierung der Ausgabe.
Reelle Daten können direkt eingegeben werden. Nichtsdestotrotz ist im Allgemeinen eine Skalierung der Daten angebracht, um nicht – bei anfänglich gleicher Lernrate für jedes
Gewicht – eine Eingabe beim Lernalgorithmus zu bevorzugen. Skalieren erfolgt so, daß ten dentiell das Intervall » ½ oder »É ½ durch die einzelnen Eingaben ausgeschöpft ist. Die
Daten sollten dazu linear transformiert werden, z.B.:
„V΄ÊÜ
„ È
„?cj„ÊÜ
mit „ÊÜÀ minimaler angenommener Wert und „?P maximaler angenommener Wert.
Vermutet man, daß die Eingaben zwar beschränkt, aber die Extrema nicht in der Datenmenge tatsächlich vorhanden sind, kann man „ÊÜ bzw. „? um z.B. AŸ der Distanz „?¯`„ÊÜ
verkleinern bzw. vergrößern.
Sind die Daten nicht beschränkt bzw. zwar beschränkt, aber mit wenigen Ausreißern, dann
kann man sie auch durch den Ausdruck
„ È
Ð
l
„V«Ð
;És J„Ê;€«Ð
 „Ê;
;As  
l
) Ù ¥= s „=
l
)
normieren, bezeichne die Anzahl der Muster, „Ê; die betrachtete Koordinate des Musters
] . Die einzelnen Koeffizienten der Patternmenge bilden eine Verteilung. Dieser Ausdruck
sorgt dafür, daß diese Verteilung den Erwartungswert und die Varianz hat, d.h. tendentiell
liegen die Daten im Intervall »É ½ .
Möchte man bei Ausreißern keine numerischen Probleme bekommen, kann man die Daten
auch einfach quantifizieren in geeignet viele symbolische Beschreibungen: klein, mittel,
hoch, sehr hoch.
Häufig hat man das Problem, daß einige Daten fehlende Attribute aufweisen. Sind genügend
Daten vorhanden, kann man sie einfach wegstreichen. Sind nicht genügend Daten vorhanden, dann müssen die Attribute geeignet ersetzt werden. Möglich sind etwa:
– geeigneter Default-Wert (etwa bei symbolischen Attributen die häufigste Ausprägung),
Neuronale Netze, WS 99/00
31
– häufigster Wert bzw. Mittelung der Ausprägung bei den Û ansonsten ähnlichsten Mustern,
– Wert, der angibt, daß der Wert fehlt, (zusätzliches Neuron auf ),
Bei der Zeitreihenprognose/-verarbeitung möchte man häufig aus einer prinzipiell unbegrenzten Zeitreihe einen Wert vorhersagen. Da ein feedforward Netz nur mit begrenzt vielen
Eingaben umgehen kann, legt man über die Zeitreihe einen Zeitfenster einer festen Größe
Û , anhand dessen die Daten vorhergesagt werden sollen. Û muß durch Ausprobieren bestimmt werden. Die Aufgabe ist dann, aus „ʦ Ú , „ʦ Ú , . . . , „ʦ die Ausgabe vorherzusa
gen, statt aus „ , . . . , „ʦ . Globale Information, d.h. von allen bisherigen Werten abhängige
Information, kann man zusätzlich in beschränktem Maße integrieren: man kann in einem
zusätzlichen Wert etwa eine exponentiell abfallend gewichtete Summe über alle bisherigen
Eingaben speichern oder die Zahl der unmittelbaren Vorgänger, die insgesamt eine aufsteigende/absteigende Folge bilden, aufsummieren. Beide Größen sind von einer im Prinzip
unbeschränkten Vergangenheit abhängig.
Bei Zeitreihenprognose besteht sehr schnell die Gefahr, nicht für repräsentative Daten zu
lernen, sofern die Reihen nicht stationär sind. Stationär heißt, daß sich die Reihe prinzipiell
bei jedem Zeitpunkt so verhält, wie ganz zu Anfang, sofern man die Vorgänger nicht weiß.
Liegt ein Trend (z.B. Inflationsrate) vor, kann man diesen aber leicht beseitigen, indem man
etwa zu den Differenzen „Ê; À„Ê; übergeht oder von der Zeitreihen einen linearen Prozeß
+
…„Ê;..I.I„Ê; Ú) abzieht, der durch einfache Gaußsche Regression gewonnen wurde.
Ç>=”Ü
In der Bildverarbeitung bestehen die Daten aus Bildern, die z.B. Elemente aus E
sind.
Im allgemeinen ist die Dimension sehr hoch und das Material durch die Aufnahmegegebenheiten (Licht, Verwackeln, . . . ) nicht optimal. Die Dimension kann reduziert werden,
indem man z.B. statt jedes Pixels je über mehrere Pixel mittelt oder charakteristische (problemabhängige) Features statt des Bildes verwendet. Oft ist nicht der gesamte Ausschnitt
wichtig; relevante Bereiche können ausgeschnitten werden. Etwa bei Ziffernerkennung sollte man alle Ziffern gleich skaliert und zentriert präsentieren. Binarisierung (d.h. alle Werte
über einer gewissen Schwelle werden , alle anderen , auch feiner in Graustufen möglich)
verkleinert den benötigten Spericherplatz und Berechnungsaufwand.
Um das Material zu verbessern, kann es geeignet vorverarbeitet werden. Oft wird dabei über
jedes Pixel eine Maske gelegt, die angibt, wie das Pixel mit seiner Umgebung verrechnet
werden soll. Diese Filter bewirken z.B., daß Details deutlicher oder umgekehrt Rauschen
unterdrückt wird. Lineare Filter können einfach durch die Koeffizientenmatrix angegeben
werden, z.B. bewirkt der Filter
† Ö¢¡£
ein Glätten, der Filter
¤
Ö
¡£
¦¥§
¤
¨§¥
extrahiert Kanten. Es gibt auch globale Operatoren wie Fouriertransfomation, Segmentierung, Texturanalyse, . . . .
In der pixelbasierten Bildverarbeitung soll jedes einzelne Pixel eines Bildes separat auf eine
Ausgabe abgebildet werden, etwa um Luftaufnahmen automatisch zu kartographieren und
B. Hammer
32
die verschiedenen Objekte Feld, Wald, bebautes Land, . . . herauszufinden. Dazu wendet
man einige der obigen Operationen an, so daß man mehrere Repräsentationen desselben
Bildes erhält, und verwendet die je an nur einem Pixel stehende Information als Eingabe für
ein Netz. Dadurch, daß geeignet vorverarbeitet wurde, erhält das Netz (hoffentlich) auch
die zur Klassifikation des Pixels nötige Information, denn nur mit dem Grauwert des Pixels
selber kann ein Netz in der Regel nichts anfangen.
In der Sprachverarbeitung trifft man auch auf verschiedene Filter, Fouriertransformation,
. . . . Hinzu kommt hier der schon erwähnte Aspekt der Zeitreihenverarbeitung.
Häufig müssen nicht nur die einzelnen Pattern, sondern auch die ganze Patternmenge an das
Problem angepasst werden. Es kann z.B. sein, daß gewisse Daten nicht genügend häufig
repräsentiert sind, obwohl Ausgaben in diesem Bereich für die spätere Nutzung relevant
sind. Etwa bei einem medizinischen Problem kann es wesentlich weniger Krankheitsfälle
als andere Fälle geben. Sollen dennoch alle Fälle gleich gut gelernt werden, müssen die weniger vertretenen stärker gewichtet, d.h. die entsprechenden Trainingsdaten z.B. mehrmals
identisch kopiert werden. Häufig kennt man zudem Eigenschaften der Abbildung, etwa
eine Invarianz gegen gewisse Transformationen, die nicht komplett in die Repräsentation
der Pattern eingearbeitet werden kann. Man kann dann dem Netz zusätzliche mithilfe der
Transformationen erzeugte Pattern präsentieren, um eine Invarianz durch die Lernaufgabe
zu erzwingen. Eine gewisse Robustheit gegen Rauschen wird etwa dadurch erzwungen, daß
man die Eingabedaten mehrfach leicht verrauscht repräsentiert.
3.3
Interpretation der Trainingsergebnisse
Auch die trainierten Ausgabedaten sind nicht bzgl. ihres Formates notwendig identisch zu den
tatsächlich gewünschten Ausgaben. Möglich ist auch hier, daß bei reellen Daten eine Skalierung
auf das Intervall » ½ oder »É ½ vorgenommen wurde, so daß eine Rückskalierung erforderlich
ist. Die Ausgabewerte sollten im (Abschluß des) Wertebereichs der verwendeten Aktivierungsfunktion liegen! Bei Klassifikationsaufgaben benutzt man häufig eine unäre Kodierung, wie schon
beschrieben. Es ist dabei nicht klar, zu welcher Klasse die Eingabe gehören soll, sofern die Ausgabe nicht eine strikt unäre Darstellung besitzt, was in der Regel bei sigmoiden Ausgaben nicht der
Fall ist. Folgende Möglichkeiten sind denkbar:
band Es wird um jede gewünschte Ausgabe ein Intervall einer angegebenen Bandbreite gelegt.
Sind alle Ausgabewerte innerhalb dieses Intervalls, dann ist die Ausgabe korrekt klassifiziert,
sind alle außerhalb, ist sie falsch klassifiziert, ansonsten ist die Ausgabe unbekannt.
402040 Die Sollausgabe ist unär. Die tatsächliche Ausgabe heißt ebenfalls unär, falls genau ein
Koeffizient größer als ein vorgegebener Wert ist und alle anderen Koeffizienten kleiner einem
anderen vorgegebenen Wert sind. Falls der höchste Wert mit der zu prognostizierenden
Ausgabe übereinstimmt, ist die Klassifikation korrekt, sonst falsch. Falls die Ausgabe nicht
unär ist, ist das Ergebnis unbekannt.
WTA Die Sollausgabe ist unär. Die tatsächliche Ausgabe heißt ebenfalls unär, falls genau ein Koeffizient größer als ein vorgegebener Wert ist und alle anderen Koeffizienten um mindestens
eine vorgegebene Spanne kleiner sind. Falls der höchste Wert mit der zu prognostizierenden
Ausgabe übereinstimmt, ist die Klassifikation korrekt, sonst falsch. Falls die Ausgabe nicht
unär ist, ist das Ergebnis unbekannt.
Neuronale Netze, WS 99/00
33
Die genaue Wahl obiger Parameter hängt in der Regel vom spezifischen Ergebnis ab. Es ist klar daß
die so interpretierten Ergebnisse nicht genau mit dem berechneten Trainingsfehler übereinstimmen
müssen, d.h. ein Netz mit schlechterem Trainingsfehler kann durchaus bessere Klassifikationsergebnisse liefern.
Das legt nahe, auch die Fehlerfunktion in Frage zu stellen. In speziellen Situationen können
vom quadratischen Fehler verschiedene Funktionen sinnvoll erscheinen. Der Fehler für ein Pattern
kann etwa als
©
à =} l
}¢?=·
=
für ‡
definiert werden. Im Fall ist das in Null nicht differenzierbar und sorgt evtl.
für Oszillation. Dagegen werden aber große Abweichungen nicht so stark gewichtet wie beim
quadratischen Fehler. Die Wahl bestraft dagegen große Abweichungen mehr. Allgemeiner
kann man den Fehler als
©
=
Q›:¢/= à =/)
mit einer nichtnegativen differenzierbaren Funktion Q mit der Eigenschaft QxJ„#„z)°
wählen.
Je nachdem, ob diese oberhalb oder unterhalb dem quadratischen Fehler liegt, bestraft sie Abweichungen stärker oder schwächer. Dieses kann sinnvoll auch asymmetrisch in ¢ und à geschehen,
sofern Abweichungen in der einen Richtung eher zu vermeiden sind als in der anderen.
Bei einer unären Kodierung der Ausgabe trifft man gelegentlich die sogenannte Kreuzentropie
an, d.h. den Fehler
©
=
à =€–\“#¢?=  à =?)
mit der Vereinbarung ֚–L“¢j
. Dieses ist für à =7d¢?= Null und ansonsten positiv. Man
S
kann denselben Ansatz bei einer Wahrscheinlichkeitszuordnung statt einer nur unären Ausgabe
verwenden, d.h. im Fall Ð Ã =m
, Ð6¢?=y
. Die Kreuzentropie bildet dann ein Fehlermaß
l
zwischen zwei Wahrscheinlichkeitsverteilungen. Im Vergleich zum Fehler } à Z¢Ê} hat obiges Feh
lermaß Singularitäten an den Stellen mit à =O
und ¢/=‚o
, vermeidet also tendentiell definitive
Fehlklassifikationen.
Ó
Die Änderung des Fehlers hat natürlich veränderte Berechnungsformeln für Backpropagation
n
zur Folge. Falls lOWÐ = ‡€¢?=R à =") gilt, berechnen sich die = als
Ó
Š‹
=œ
‰
€:¢/=R à ?= ) Ó /¢ ={ Ë¢?=/)
¢?=
s
Ð =@œÚ 9B=ªÚ Ú¢?=” «¢/=?)
s
‡
_ ist Ausgabeneuron,
sonst
Die Kreuzentropie verlangt, daß die Ausgaben tendentiell unär sind bzw. eine Wahrscheinlichkeitsverteilung darstellen. Um dieses zu bewirken, bietet sich eine Änderung der Aktivierungsfunktion
an. Wird einfach die sigmoide Funktion sgd durch eine andere differenzierbare Funktion Q aus
getauscht, dann ändert sich in den Formeln lediglich der Term ¢R; ˆ¢;J) , der durch Q€XJ:¢R;…) ersetzt
wird. Möglich ist etwa eine lineare Funktion oder ‘’“t• , sofern die Ausgabe nicht nach » ½ skaliert werden soll. Eine Ausgabe, die eine Verteilung darstellt, wird durch die sogenannte Softmax
Funktion erreicht:
soft-sgd; …„ ...?„ÊÇ)B
R
iŽ
;
e ; 
ð^©Qª µŒ¬ « ; e ­ µ
) B® 
B
©
=
µ
e B. Hammer
34
die keine lokale Funktion mehr ist, sondern in „ , . . . , „ÊÇ die Aktivierungen aller Ausgaben
benötigt, um sie in der Summe auf zu normieren. Ableiten führt
Ó zu der geänderten Formel
Ó
; W©
Ú
;ʎ
enet ° enet
¯
enet °
à ÚH±cÖ
µ net
Ð = e
Ð
Ó
¯
Ú net;
Ð
; e
µ
net ) Ù
= e
netµ
= e
±
Ú
für Ausgabeneuronen ] mit dem Kroneckersymbol ; .
Weiter ist natürlich eine Gewichtung der Fehlerterme für die einzelnen Pattern möglich, etwa um relevante Bereiche der Eingabe hervorzuheben oder ein gleichmäßiges Lernen auch auf
schwach vertretenen Bereichen der Eingabe zu bewirken. Man sollte auf eine (fast überall gegebene) Differenzierbarkeit der Fehlerfunktion und der Aktivierungsfunktionen, sowie auf die Tat
sache, daß die Fehlerfläche nicht in relevanten Gebieten konstant, d.h. der Gradient ist, achten.
Letzteres verhindert etwa bei der Perzeptronaktivierungsfunktion, daß ein Gradientenabstieg verwandt werden kann, denn man bleibt in der Regel einfach am Startpunkt auf einem Hochplateau
stehen.
Falls der Trainingsfehler klein ist, sagt dieses aber noch nichts über den Erfolg des Trainings
aus. In der Regel ist man am Trainingsfehler nicht interessiert, sondern am Verhalten des Netzes
ë
Ì
ë
auf unbekannten Daten. Dazu sei
der Eingaberaum, eine Verteilung auf , ² der Ausgaë
ë
beraum, Q-S
eine zu lernende Funktion und Q³qS
die durch das Netz gelernte
²
²
Funktion. Dann ist nicht der quadratische Fehler auf den Trainingsdaten die relevante Größe, sondern der Fehler
´Qµ
¬Q›…„z)x«Q³›J„z)¥) Ù
‡
Ì
.
Dabei bedeutet das Integral, daß man für eine diskrete Verteilung
einfach summiert
©
und bei einer Dichte , die
Ì
™
;As Q›J„Ê;…)xýQ³xJ„Ê;J)) Ù
Ì
Ì
auf den Werten „ , „ Ù , . . .
…„Ê;J)
beschreibt, integriert
´ µ
Q›J„z)xýQ†³ž…„z)) Ù
J„z)–‡„*.
(Wir nehmen an, daß die obigen Ausdrücke definiert sind, was bei unseren Anwendungen immer
der Fall sein wird.) In der Regel ist der Trainingsfehler keine gute Schätzung für obigen Generalisierungsfehler, denn es wurde auf die Daten trainiert, so daß sie tendentiell richtig sind. Üblicherweise behält man daher einen Teil der Daten zurück, die sogenannte Testmenge, und schätzt den
Generalisierungsfehler durch den sogenannten Testfehler ab, d.h. durch den quadratischen (oder
je betrachteten) Fehler auf der Testmenge, auf die ja nicht trainiert wurde.
Wie gut ist das Training jetzt, wenn der Testfehler bestimmt ist? In der Regel besagt weder
ein kleiner Testfehler, daß erfolgreich trainiert wurde, noch ein großer Testfehler, daß das Training
fehlgeschlagen ist. Dieses hängt von den Daten ab. In der Regel sind die Daten fehlerbehaftet,
Ž
wt) mit einem Rauschen w erhält. Bei der
so daß man statt Pattern …„#"Q›…„z)) die Muster J„#"QxJ„z)
Eingabe „ kann man für den Fehler berechnen
n
¥¬Q›…„z)
Ž
w
n
ËQ³›J„z)) Ù )Y
¥¬Q›…„z)
á ¬Q†³›…„z)›
Ž
n
Ž
Q³xJ„z) Ù ý
Q†³xJ„z) ¬ Q›…„z)
wu)
n
Ž
Ž n
Ž
Ž
wt)¥) Ù
wg
âIã Q›J„z)
ä
á ¬QxJ„z)
Iâ ã Q›J„z)
u) Ù )
n
w
Ž
systematischer Fehler
unsystematischer Fehler
t)¥) Ù ä )
w
Neuronale Netze, WS 99/00
35
(Hierbei ist der Erwartungswert bzgl. dem Rauschen w gebildet worden. Der Erwartungswert
n
ë
ë
ë
) einer Zufallsgröße
ist, sofern definiert, für Variablen mit diskreten Werten die Größe
n
ë
)žq©
Ì
;
;
ë
;…)
und für Variablen mit Dichte die Größe
n
ë
´
)ž
„
J„z)~‡„#.

Der Erwartungswert ist linear und für stochastisch unabhängige Variablen auch multiplikativ. Die
n
ë
nlë
ë
Varianz ) Ù ) einer Zufallsgröße
gibt die zu erwartende quadratische Abweichung
vom Erwartungswert an.)
Der systematische Fehler rührt daher, daß das Netz die Gesetzmäßigkeit nicht korrekt interpoliert hat. Der unsystematische Fehler liegt an Meßungenauigkeiten oder anderen Zufälligkeiten
und kann prinzipiell nicht vermieden werden, er bildet eine untere Schranke für den Generalisierungsfehler. Tatsächlich ist ein Netz optimal, welches nur den unsystematischen Fehler besitzt.
Wie kann man den unsystematischen Fehler abschätzen, um die Güte des Testfehlers zu bestimmen? Die Anzahl der Eingaben in der Trainingsmenge, die widersprüchliche Ausgaben besitzen,
können sicher für eine untere Schranke verwandt werden. Problematisch hierbei ist allerdings,
daß in der Regel nicht identische, sondern nur fast identische Eingaben mit widersprüchlichen
Ausgaben vorliegen werden. Um deren Anteil abzuschätzen, muß man also den Anteil an ähnlichen Daten mit verschiedenen Ausgaben abschätzen. Bei Klassifikationen kann man etwa eine
bestimmte kleine Nachbarschaft untersuchen, in der keine widersprüchlichen Daten liegen dürfen.
In der Regel wird man hier mehr oder weniger aufwendige statistische Verfahren verwenden, die
eine Abschätzung ermöglichen, oder einfach den besten erreichten Testfehler zum Bias deklarieren.
Eine obere Schranke für den Testfehler erhält man etwa durch den Vergleich mit anderen einfachen Verfahren, bei Regression etwa einer einfachen linearen Regression, bei Klassifikation einer
Zuordnung aller Daten zur Klasse mit der größten Wahrscheinlichkeit. Dieses gibt eine grobe
Richtung für die Komplexität des Trainingsproblems an. In der Regel ist es immer sinnvoll, mehr
als nur ein Verfahren zu verwenden, um die Ergebnisse zu bestätigen.
3.4
Architekturauswahl
Wir haben gesehen, wie man eine feste Architektur trainieren, die Daten aufbereiten und die Ergebnisse interpretieren kann, als nächstes stellt sich die Frage, wie man eine geeignete Architektur
auswählt. Wir werden später sehen, daß Netze universelle Approximatoren sind, d.h. bei geeigneter Architektur kann prinzipiell alles dargestellt werden. Man kann also eine Architektur finden,
wo der Trainingsfehler fast zu Null wird. Dieses Netz zu verwenden, ist in der Regel ein schlechter Ratschlag. Auf den Daten sind in der Regel unsystematische Fehler präsent, die zu einem
Bias führen, der auch bei optimaler Wahl des Netzes nicht unterboten werden kann. Die unsystematischen Fehler sind allerdings in der Trainingsmenge nur implizit vorhanden, tatsächliche
Widersprüche treten selten auf, so daß ein Netz prinzipiell diese unsystematischen Abweichungen
auch lernen kann. Das führt allerdings dazu, daß die Netzfunktion den konkreten Daten und den
vorliegenden Fehlern folgt, so daß der Generalisierungsfehler und der Testfehler auf einer Menge,
wo die Fehler nicht dieselben sind, hoch ist.
B. Hammer
36
Klar wird dieses durch eine kleine Rechnung. Sei ¶ eine konkrete Datenmenge. Von deren
spezieller Ausprägung hängt das Training ab, d.h. man berechnet für das zu erwartende Ergebnisnetz Q³ , welches die Funktion Q approximieren soll,
nf·
¥¬Q†³›…„z)›«Q›J„z)¥) Ù )žGá nf·
¬Q³›J„zâI)¥ã )xýQ›J„z)¥) ä Ù
î
Bias
Ž
á
n™·
¥¬Q†³ž…„z)x âIã
nf·
Q³›J„z)¥)) Ù ä )
Varianz
Die Varianz ist hoch, sofern das Netz der jeweiligen Trainingsmenge gut folgt, denn dann werden
jedesmal die jeweiligen Zufälligkeiten abgebildet, dafür ist dann allerdings der Bias klein, denn die
Daten werden ja perfekt interpoliert. Diese Situation tritt ein, wenn ein Netz viele Freiheitsgrade,
d.h. Gewichte hat, der Effekt heißt Overfitting. Hat das Netz umgekehrt wenige Gewichte, dann
ist die Varianz gering, denn das Netz kann den jeweiligen Zufälligkeiten der Trainingsmenge nicht
folgen. Andererseits ist aber der Bias evtl. hoch, da das Netz nicht genügend Freiheitsgrade zur
Darstellung der zu lernenden Funktion hat.
De Facto muß man also eine geeignete Balance zwischen den beiden widersprüchlichen Aufgaben, den Bias und die Varianz klein zu halten, finden. D.h. man benötigt ein Netz, das mächtig
genug ist, die Funktion darzustellen, aber nicht mächtig genug, den Zufälligkeiten der Trainingsmenge zu folgen. Dieser Zwiespalt wird auch mit Bias-Varianz-Dilemma bezeichnet.
Ein naheliegendes Verfahren ist, mehrere Architekturen zu trainieren, den Generalisierungsfehler je auf einer Testmenge abzuschätzen, und anschließend die beste Architektur zum endgültigen
Training und Feintuning zu verwenden. Allerdings ist das Ergebnis stark von der jeweiligen Testmenge abhängig, die Daten gehen außerdem für das Training verloren. Û -fache Kreuzvalidierung
zerlegt die Trainingmenge ¾ in Û gleich große Teilmengen ¾ , . . . , ¾zÚ , trainiert eine Architektur
auf ¾¸$”¾€; und schätzt je den Testfehler ¹N; ab, der sich auf ¾z; ergibt. Als Schätzer für die Generalisierungsfähigkeit der Architektur gilt dann die Größe
©

#; €
Û .
¹
;
Man kann zeigen, daß die Varianz dieses Schätzers um eine Ordnung kleiner ist als die Varianz
von ¹N; . Zudem gehen keine Daten für das Training verloren. Die gemittelten Fehler definieren
eine Ordnung auf den Architekturen, gemäß der man eine optimale Architektur auswählen kann.
Kreuzvalidierung ist zur Zeit eines der häufig benutzten Mittel zur Architekturauswahl.
Ist die Architektur so gewählt, daß die gegebenen Daten gerade die freien Parameter festlegen,
dann besteht allerdings im Allgemeinen das Problem, daß die Fehlerminimierung kompliziert ist
und die Fehlerfläche viele lokale Minima besitzt. Daher wählt man im Allgemeinen die Anzahl
der freien Parameter eher etwas zu groß und verhindert Overfitting in jedem Trainingslauf durch
eine Veränderung des Trainings.
Weight Decay erzwingt, daß die Gewichte tendentiell klein sind, indem zum zu minimierenden
Fehler der Term
©
;º3 =
9 ;>Ù =
addiert wird. D.h. von jedem Gewicht wird in jedem Schritt ein kleines Vielfaches abgezogen.
Durch tendentiell kleine Gewichte ist die Netzfunktion eher glatt, kann also Zufälligkeiten auf der
Trainingsmenge nicht folgen. Tatsächlich entspricht Weight Decay einer Regularisierung, sofern
man Gaußsches Rauschen auf den Daten annimmt.
Early Stopping stoppt das Training, bevor das Netz anfängt, sich auf spezielle Ausprägungen
in der Trainingsmenge einzustellen. Um diesen Zeitpunkt bestimmen zu können, wird während des
Trainings der Fehler auf einer (kleinen) sogenannten Validierungsmenge mitprotokolliert, auf die
Neuronale Netze, WS 99/00
37
nicht selbst trainiert wird. Im allgemeinen sinkt der Fehler zu Beginn auf der Validierungsmenge,
solange allgemeine Gesetzmäßigkeiten gelernt werden, und steigt wieder, sobald die Spezialitäten
der Trainingsmenge gelernt werden. Bevor er steigt, wird gestoppt.
3.5
Pruning
Eine andere Möglichkeit der Regularisierung ist, die Verknüpfungsstruktur der Architektur während oder nach dem Training zu ändern. Verbindungen und Neuronen, die für die Ausgabe nicht
relevant sind, werden gelöscht. Dieses verhindert aufgrund der reduzierten Parameterzahl ein
Overfitting, ermöglicht aber dennoch effizientes Taining, da für die Anfangsphase des Trainierens
genügend Variablitität vorhanden ist.
Methoden, die aufgrund der Netzfunktion irrelevante Netzbereiche löschen, nennt man Pruningmethoden. Neben dem Effekt, daß die Generalisierungsleistung verbessert werden kann,
erlaubt Pruning eine kompaktere und einfachere Darstellung (fast) derselben Funktion. Ist das
Pruning von Eingabeneuronen erlaubt, kann man zudem irrelevante Eingabefaktoren bestimmen.
Verschiedene Pruningmethoden sind gebräuchlich:
MagPruning löscht in jedem Schritt die betragsmäßig kleinste Verbindung. Dieses Verfahren ist schnell und erstaunlicherweise auch sehr leistungsfähig.
Non-contributing Units löscht Neuronen, die auf einer gegebenen Trainingsmenge entweder ihre Aktivierung nicht stark ändern, mit der Aktivierung eines anderen festen Neurons
übereinstimmen oder mit dem negativen der Aktivierung eines anderen festen Neurons übereinstimmen.
Skelettierung löscht Neuronen, die irrelevant für die Güte des Trainingsfehlers sind. Dazu
ersetzt man die Gewichte ausgehend vom Neuron ]<9<;>= durch O#;…9<;= mit einen Faktor O#; .
Ist O³;ž
bedeutet das, daß das Neuron wegfällt, ist O#;›
besteht keine Änderung zum
n
ursprünglichen Netz. Es sei 0O³;J) der quadratische Fehler auf den Daten. Man kann Neuron
] löschen, falls
n
0O³; n
)x
<O#;|
)
klein ist. Man approximiert den Ausdruck
n
<O#;|
n
)x
0O³;|
)
n
G
s
ˆ
s
³;
O
0O³;|
)".
Die Ableitung kann mit Backpropagation berechnet werden:
n
0O³;:)
s
s
³Ó ;
O
n
©
s
;A@B=
s
Ó
<O#;J)
net=
Ö
net=
s
s
#;
O
q©
;A@B=
=<O#;…)¥¢;£<O#;…)ª9<;>=R
wobei die Ausdrücke =<O#;…) die Fehlersignale aus Backpropagation darstellen, ¢?=<O#;…) die
Ausgabe wie bei Backpropagation darstellt. Die Ausgaben können durch eine Vorwärtswelle, die Fehlersignale durch eine Rückwärtswelle, die nur bis zu den Nachfolgern von ]
berechnet werden muß, erhalten werden.
In der Praxis verwendet man häufig den durch den Betrag gegebenen Fehler statt des quadratischen Fehlers, da dafür obige Approximation genauer ist. Oft mittelt man die Terme,
die die Relevanz der Neuronen angeben, über mehrere Trainingszyklen.
B. Hammer
38
‚
Optimum Brain Damage prunt einzelne Gewichte, die irrelevant erscheinen.
Ändert man
die Gewichte gegenüber den trainierten Gewichten um einen Vektor , dann ergibt sich
für die Änderung des quadratischen
Fehlers der Term
q
‚
n
n
á
ˆ
‚
…âI ã )
‹ f
Ž
ä
‚
)
¦
‚
\
J‚)
F
\
wobei die Hessematrix der Fehlerfunktion darstellt. Man nimmt an, diese habe DiagonalÓ
gestalt und erhält also
‚
n
ˆ
©
n
s
Ù
;=
s
… )
9 ;>Ù = .
9 ;Ù =
Streicht man nur ein Gewicht, dann ist diese Änderung offensichtlich minimal, falls 9<;>= das
n 
9 ;>Ù = Ó J‚)ª9 ;>Ù = ist.Ó Die zweiteÓ Ableitung erhält man als
Gewicht mit minimalem Ù
s
s
¢; =/)
s
Ó
¢;
s
9<;>=
s
s
=
9<;>=
T¢ ;Ù
s
s
=
net=
.
Die Ableitung der = kann man entweder durch den Differenzenquotienten über zwei Zeitschritte approximieren oder in einer erneuten Vorwärts- und Rückwärtswelle (mit dem Aufwand ([» Ù ) ) bestimmen.
Optimum Brain Surgeon verwendet denselben Ansatz, nähert aber nicht die Hessematrix
durch eine Diagonalform. Zusätzlich werden je alle Gewichte in Bezug‚ auf das zu ‚löschende
R
¦\
Gewicht optimal geändert.
Mathematisch löst man die Aufgabe, ‚
J ) unter
Ž
der Nebenbedingung 9<;=
9<;>=n
(d.h. Gewicht 9<;>= wird gelöscht) für ein 9<;>= zu minimieren. Dasjenige 9<;>= mit dem kleinsten Minimum wird entfernt und alle anderen Gewichte
entsprechend geändert. Die Minimierung kann Standardmethoden aus der Analysis verwenden, wobei auch hier wieder Heuristiken für eine größere Effizienz sorgen. Das Verfahren
ist insgesamt relativ aufwendig.
Sensitivitätsanalyse erlaubt, die Eingabeneuronen gemäß ihrer Bedeutung für die Ausgabe
zu ordnen. Die Neuronen werden als tendentiell unwichtig angesehen, wo ein Fehler der
Eingaben nicht viel bewirkt. D.h. die Ableitung der Ausgaben nach der betreffenden Eingabe

ist für die Muster der Trainingsmenge klein. Dazu benötigen wir die Ableitungen ¢; „=Ä

s
s
¢;
net= der Ausgabe ¢R; nach der Eingabekomponente „= , die wir hier auch als Aktivierung
s
s
des entsprechenden Eingabeneurons definieren. Analog zu Backpropagation erhält man die
Rekursionsgleichung
Ó
s
s
¢;
net=
sgdX net;J) ;
Š‹
Á
‰Á
©
= @œÚ
s
s
¢;
net Ú
=
Ö sgdX net=?)ª9B=ªÚ
_ ist Ausgabeneuron
sonst.

Diejenige Eingabe Û mit kleinstem Wert Ð l ist pattern Ð ; ist Ausgabe } ¢R; „'ÚèJ´mlR)} kann als die
s
s
unwichtigste Eingabekoeffiziente angesehen werden, wenn – und nur wenn – die Eingaben
gleich skaliert sind.
Neuronale Netze, WS 99/00
3.6
39
Konstruktive Methoden
Umgekehrt gibt es Verfahren, die die Architektur konstruktiv verändern; einige solche hatten wir
bei einfachen Perzeptronen schon kennengelernt.
Cascade Correlation spiegelt Ideen vom Tower-Algorithmus wieder. Es wird in jedem Schritt
ein zusätzliches hidden Neuron eingefügt, das von allen anderen hidden Neuronen und den Eingaben Werte liest und seine Ausgabe zur Gesamtausgabe weitergibt. Training geschieht in zwei
Stufen: Es wird je das hidden Neuron trainiert, danach die Ausgabe neu trainiert. Da je nur einzelne Neuronen trainiert werden, geschieht dieses sehr effizient. Die Ausgabe kann dabei je auf die
gewünschten Ausgaben trainiert werden. Die gewünschte Ausgabe für das hidden Neuron ist nicht
offensichtlich. In Cascade Correlation wird es so trainiert, daß die Ausgabe des hidden neuron
mit dem bis dato noch gegebenen Fehlers möglichst stark korreliert ist. Falls dieses gelingt, dann
würde eine einfache Subtraktion der Ausgabe des hidden Neurons von der Gesamtaktivierung den
Fehler verringern.
Ç
Um exakt zu werden, nehmen wir an, daß nur eine Ausgabe vorliege, d.h. Q­SE
E
ist zu lernen. Wir benutzen Neuronen mit der Aktivierungsfunktion ‘%’“t• . Es gilt ‘’“t• X J„z) j‘’“u•#J„z) Ù . Biase sind durch On-Neuronen realisiert. Sukzessive werden die hidden Neuronen
Ç ; Ç ;
0€;OS2E E mit Eingaben ´ , 0 , . . . , 0z; und je das Ausgabeneuron QS2E E mit
Eingaben ´ , 0 , . . . , 0z; trainiert, so daß die entstehende Funktion
Q›…´ž%0 J´N)"%0
…´ž%0 J´N)¥)?%0
Ù
J´›%0 …´N)?%0
ø
J´›%0 …´N))¥)?..I.Õ)
Ù
die Ausgaben approximiert. Der Algorithmus ist wie folgt:
Í
&[SÕ
wiederhole
,
trainiere die Gewichte von Q mit Eingaben ´ , 0 , . . . , 0
± Ž
± trainiere 0 SÕT‘’”“t•#¬Ð9<;L„Ê;
Ð =± s 9<Ç =0t=/) auf ^J0 }Q ýQi})
±
±
Ž4 ±
Í
&[SÕW&
1
w
w
Dabei bezeichnet ^ Œxu) die Korrelation zwischen zwei Funktionen
ung x auf den Daten ´ :
¼
¼
¼
¼
¼
w
[
©
?s  Ì
¼
w
l
J´ml{)x
w
©
…´ml{)
 Ì
|J´lR)x
x
±
l
¯
|J´mlR)
©
¼
 Ì
x
l
±
¯
¼
¼
¼
.
w
Der Term Ð
sei mit abgekürzt. Ist der Term Ä:0€;Ò}QR;2qQB}>) groß, so bedeutet das,
J´lR)
daß tendentiell entweder die Abweichungen des Fehlers vom Mittel und die Abweichung der Aktivierung vom Mittel gleiche Größenordnung besitzen, oder tendentiell sie immer nur um ein Vorzeichen verschieden sind. Einfaches Addieren bzw. Subtrahieren der Aktivierung zur Ausgabe
verringert also den Fehler beträchtlich. Wird die Korrelation durch Gradientenaufstieg maximiert,
so benötigt man die Ableitung von ^J0z;”}>QR;týQi}>) , die sich wie folgt berechnet:
s
s
i
j©
i
9B=
P
j©
denn
s
Ð
s
0z
;

0€
;
s
J´l{)x
9B=
s
0€;
s
s
s

Ë0z;J´ml{)¥) Ù „>lª=
s
9B=
9B= Ð
½
½
0€
;
9B=
½
R&½
}QR;£…´ml{)xýQ›…´mlR)R}R
}QR;J´mlR)›«QxJ´ml{)}
}>QR;€«QB}^¾
}QR;J´ml{)x«QxJ´ml{)}R
}>Q;'ýQi} ¾
}QR;J´ml{)x«QxJ´ml{)}R
}>Q;'ýQi} ¾
}>Q;'ýQi} ¾
.
B. Hammer
40
Ensembles hatten wir schon einmal betrachtet. Es ist natürlich auch möglich, feedforward
Netze Q , . . . , QÇ zu einem einzigen Netz
©
³;:QR;
O
zu kombinieren, zumal ja bei Kreuzvalidierung sowieso mehrere verschiedene Netze trainiert wer
den. Gilt пO³;| , so erweist sich dieser Ansatz als günstig für die Generalisierungsfähigkeit der
sich ergebenden Funktion, zudem erhält unsere vormalige Heuristik, die Einzelnetze so verschieden wie möglich zu wählen, eine theoretische Begründung. Die QR; sind Ergebnisse eines von den
zufallsbehafteten Daten abhängigen Trainingsprozesses. Für den zu erwartenden Fehler bzgl. der
zu lernenden Funktion Q kann man berechnen:
n
½
³;JQ;zËQ ) Ù
©
O
n
¾
½
©
O
©
©
³;
O
ý
©
¾
n
³;
O
n
L
¬Q;'ýQ ) Ù
«©
M
Ž
¬QR;…Q )
n
Ž
Q ; Ù )x«
B©
O³;
QR;JQ|)
n
Ž
O#;
¬Q ; Ù )
©
O³; ©
O€=
n
³;
O
#;:Q;J) Ù
©
#;
O
n
½
n
n
n
¬Q Ù )
Q Ù )
n
QR;:Q?=/)x
¬Q;€«©
½
#;…QR;J) Ù
O
³;:QR;…) Ù
©
O
¾
¾
D.h. der zu erwartende Fehler des Ensembles ergibt sich aus der Mittelung der zu erwartenden
Fehler der Einzelnetze verringert um die zu erwartende Varianz der Netze! Die Generalisierung ist
also mindestens genauso gut, wie die der Einzelnetze, und sie wird umso besser, ja mehr Variabilität die einzelnen Netze aufweisen. Anschaulich ist das klar, da ja die Netze dort, wo sie durch
die Daten bestimmt werden, identisch sind. Die Variabilität betrifft Parameter, die nicht durch die
Daten festgelegt sind, so daß sie unterschiedlichem Rauschen folgen können. Im Mittel wird dann
das Rauschen unterdrückt.
Die Frage ist, wie man die Gewichtungen O³; wählen kann. Eine Möglichkeit ist eine einfache
R
Mittelung, d.h. O³;|
Anzahl der Netze. Man kann aber das Problem auch als Optimierungspro
blem betrachten: Suche O³; mit пO³;2
, so daß für diese der quadratische Fehler minimal wird.
Sei -¥;|qQV«QR; die Abweichung des ] ten Netzes. Dann soll
n
³;y-¥;:) Ù
©
½
O
W©
¾
#;˜Oz= á
unter der Bedingung
O
0âI-ªã ;z-Ò=?ä )
o ;
µ
³;|
w
©q
n
O
…´N) unter der Bedingung x|J´N)°
minimiert werden. [Minimieren einer Funktion
q
w
ŽŠU
mithilfe sog. Lagrangemultiplikatoren, d.h. J´#)
.] Man erhält
x …´N))ž
ï
mit der Matrix n
#Ú
O
;>=?)£;>= . Wegen ÐÁO³; n
Ž U
¬ÐÀO³;zOz= ;>=
пO³;'
n
Ž U
Š
¬ Ð O#; ;=
) =
n
U€
BÐ 7 >; =?) Ú 7
kann man
#Ú^
O
n
Die Einträge ;=œ
n
Ð
Ð
7
Ú3 7
U
))
ersetzen und erhält
;>=?) Ú 7
.
n
;=/) Ú 7
n
<-¥;y-¬=I) der Matrix können durch die Daten ´ml abgeschätzt werden:
n
;>=¢ˆ
Ì
[
©
/s l
¬Q›…´mlR)xýQR;J´ml{)¥)IQ›J´ml)xýQ/={J´ml{)¥)|.
kann man
Neuronale Netze, WS 99/00
3.7
41
Approximationseigenschaften
Es stellt sich aber noch die Frage, ob, gegeben eine Patternmenge, überhaupt ein Netz existiert,
das diese Menge approximiert und möglichst auch die zugrundeliegende Gesetzmäßigkeit wiederspiegelt. Dieses ist die Frage nach der Darstellungsmächtigkeit von feedforward Netzen. Deren
positive Beantwortung erscheint dringend, da ja z.B. einfache Perzeptronen sehr beschränkt sind.
Schranken für die Ressourcen würden darüberhinausgehend den Suchraum für geeignete Acrchitekturen bei der Architekturauswahl beschränken.
Wir werden einen Satz aus der Analysis benutzen.
Satz 3.2 (Stone-Weierstraß) Sei & ein kompaktes Intervall und ¹ eine Algebra von auf & stetigen
o ŸËCƒ& eine Funktion mit
reellwertigen Funktionen. Falls ¹ separierend ist, d.h. für alle ƒU
unterschiedlichem Wert auf  und Ÿ existiert, und ¹ Konstanten enthält, dann kann jede auf &
stetige Funktion beliebig gut durch eine Funktion aus ¹ auf & approximiert werden.
Die Eigenschaft, Algebra zu sein, bedeutet hier, daß mit zwei Funktionen in ¹ auch deren Summe,
Produkt, und skalare Vielfache in ¹ sind. Approximation bedeutet hier Approximation in der
Maximum Norm, d.h. für ein zu approximierenden Q und alle gibt es ein xƒC¹ mit
v
}Q›J„z) x|J„z)R}
- für alle „
C7& . Unmittelbare Folgerung hiervon ist, daß geeignete Netze mit nur
einer verborgenen Schicht approximationsuniversell sind.
Satz 3.3 Es sei ÃS³E¡ E eine squashing Funktion. Q sei stetig auf & . Dann gibt es für jedes
ein feedforward Netz Q†³ mit nur einer verborgenen Schicht mit Aktivierungsfunktion à und
linearer Ausgabe, das Q auf & bis auf - approximiert.
Beweis: Wir benutzen den Satz von Stone-Weierstraß. Zunächst betrachten wir Netze mit linearer Ausgabe, der Aktivierungsfunktion ÄHÅ in der hidden Schicht und sog. Æ - Ç Neuronen. Ein
Neuron kann man sich als Verknüpfung von mehreren einfachen Neuronen vorstellen, deren
Æ -Ç
einzelne Aktivierungen zu einer Gesamtaktivierung multipliziert werden. So ein Netz berechnet
also die Ausgabe
Ú
©
9<;yÇ^Ú
;As ¦
J Ú ; Z
´ «HÚ ; )
; ÄHÅ
mit geeigneten Gewichten . Offensichtlich kann man die Summe, das Produkt und skalare Vielfache von solchen Ausdrücken wieder als solch einen Ausdruck darstellen, d.h die Menge der
durch diese Netze berechneten Funktionen bildet eine Algebra. Diese enthält offensichtlich alle
¦
à ist
Konstanten, denn õ‚+õDÖ>ÄH,ÅRï ´Î
) , und ist separierend, denn für ´¡­
o ¿ , etwa „ o
ŽÀ
ŽÀ
R
ŽT
Ã
Ã
ÄÅJ9n„ .]A)DB
o ÄÅRJ9 .6A) für 9T
¬
tJ˜[’{Þt,Ê} „ } ”} }Õ1
)) .
Ž
Ž
Es gilt ÄHÅR:
Ÿ/)
ÄHŝ*˟?)Bq
ÈÄH,ÅʝÉÄŀŸ , also
Ú%s ǸÊ
½
ÚÊ·s Ù
Ç
Ž
RÐ
Ç
= 9B=ªÚ?„=¹jHÚR)
ÄHÅ
ÚÊ·s Ù
RÐ
ÄHÅ
R¬Ð
ÄH,Å
= 9B=ªÚ?„=¹«HڜֆÄÅ
= 9B=¥Ú"„=¹«HڜֆÄHÅ
= :9ó Ê· ô =
½
Ð
½
Ð
Ž
9
Ê
=")£„=·«H”ó…êÔ
= J9ó Ê· ô =¹j9
Ê
=?)£„=·ËH”ó…ê­
)xËH
)
Ž
¾
H
Ê
Ê
¾h¾

Man kann also induktiv die Produkte gegen Summen tauschen und erhält, daß Netze mit einer
hidden Schicht, der Aktivierungsfunktion ÄÅ und linearer Ausgabe die Funktion Q auf & bis auf

approximieren können.
Als nächstes wird die Funktion ÄH,Å durch die Funktion ÄË Å ersetzt, wobei
Š‹
R…„z)i
Ä
Ë Å
‰
<ÄH,ÅJ„[
Ì
)
Ž4 
) „
„
ŠÌ
ŒÂ„FŒ
v`
Ì
B. Hammer
42
Auf jedem endlichen Intervall kann die Funktion ÄÅ durch Aneinandersetzen von einigen
Ì
Ì
dargestellt werden, genauer gilt für „ CË»A*
:0 )¥
R
J0V
)
½
Ç
RJ„z)B
ÄH,Å
¯
¯
©
A; s
Ç
HÄHË ÅJ„
Ž
Ì
Ž
Ì
]Ò
Ž
)
Ž
R£^„
Ä
Ë Å
Ž
Ì
]Ò
Ì
))
±
ý
t¬
”0
ŽT
)x
±
ÄH
Ë Å
…„z)?.
Man ist nur an Eingaben aus & interessiert, verändert also die Approximation von Q im relevanten
Bereich nicht, wenn man ÄHÅ durch obigen Term ersetzt für genügend großes 0 . Das ergibt ein Netz
mit der Aktivierungsfunktion ÄHË Å in der hiddenSchicht, da alle linearen Terme durch zusätzliche
Neuronen und Gewichtsänderungen dargestellt werden können.
Als nächstes ersetzt man ÄË Å durch eine squashing Funktion à , ohne die Approximation um

mehr als - zu ändern. Dazu wählt man - X , so daß eine Änderung jeder Aktivierungsfunktion

um - X die Ausgabe nicht mehr als - beeinflußt. Dieses hängt von der Anzahl der Neuronen und
R
v

v

- X , K
- X ,(g) , ÞKq)
der Größe der Gewichte ab. Wähle ( mit (
mit ÃBª¸Kq)

W- ¬
(*) . Letzteres ist für eine ösquashing Funktion mit Limes bzw. möglich. Sei Df¹¶¸j ,

D=œÅŒÍÎ ,„[}%Ä
Ë Å…„z)Bˆ_
(à1 . Sei
= eine lineare Transformation von »^D=ED= ½ nach »ÉšKTKT½ , im
Fall D/; ikj ist auch letzteres Intervall entsprechend halboffen. Dann ist
J„z)‰ˆ&Ï©
ÄH
Ë Å
ö
B
={J„z))|.
Ã
(
=¥stf
Man kann also alle Terme ÄË Å durch obigen Ausdruck ersetzen, so daß lediglich weitere hidden
Neuronen und Gewichtsänderungen dazukommen.
é
Interessant ist, daß man also auch mit einer nicht stetigen Aktivierungsfunktion wie der Perzeptronaktivierung stetige Funktionen approximieren kann. Möchte man in der Ausgabe die lineare
Aktivierung durch à ersetzen, dann ist das ebenfalls möglich, sofern nur der Wertebereich der zu
approximierenden Funktion geeignet eingeschränkt ist. Für Ãý sgd kann dieser » ½ sein, man
U
U
approximiert dann statt Q zunächst sgd Q ) mit einem Faktor ˆ
.
Wieviel Neuronen benötigt man in dieser Schicht? In der Regel hängt das von der Glattheit
der Approximation ab. Mit Methoden der Funktionalanalysis konnte Barron z.B. zeigen, daß der
>Ð
Approximationsfehler mit
, ( + Anzahl Neuronen) skaliert, sofern die zu approximierende Funktion glatt ist (genauer: Die Norm von x sollte im relevanten Bereich durch einen in die
Abschätzungsgüte einfließenden Faktor beschränkt sein.) Interessant ist folgendes Resultat, daß
die Anzahl der Neuronen für eine konkrete Trainingsmenge beschränkt: Man benötigt für Û Punkte
maximal Û hidden Neuronen bei eindimensionaler Ausgabe.
Ü
E eine Funktionenklasse. Gelte: Für alle Punkte J„ à )?I...?RJ„'ڔ à IÚ ) in
Satz 3.4 Sei ¹eSE
v
Ü
Ã
E
5 E und 9 =?QR;µ…„Ê;:)›
;¥}
existieren Funktionen Q/= aus ¹ und Gewichte 9B= mit } Ð = B
für alle ] . Dann findet man Û Funktionen QR;>µ und Gewichte 9B= mit
Ú
©
Beweis: Wähle -
=s 9B=/Q;>µ”J„Ê;:)ž
, so daß für jede Matrix in E
} Ë&³}
v
-
à ;
Ú=Ú
I
]Ê.
gilt:
ist invertierbar.
Neuronale Netze, WS 99/00
43
Dabei bezeichnet }^‚} die Norm ˜ß’{Þg}õ;>=} . & sei die Identitätsmatrix. Definiere
QR;\í/J„ )U...PQR;95ÒJ„ )
Ñ
:] .../%] 7 ¹
) SÕ
..
.
¡Ò
£
..
.
¥HÓ
§
Q;Lí?…„'Ú)Æ...¶Q; 5 …„'Ú)
Betrachte das Problem
Q›…„ )i
QxJ„=/)ž
I
_
o
7
CFE
Ú=
7
.
Ñ
Dieses sei mit Q~ Ð =¥s 9B=/Q;>µ und Toleranz - approximiert. Es ist also :] I...?%] 7 )Œ» mit
der durch die Gewichte 9<; gegebenen Spalte » weniger als - entfernt von der ersten Spalte der
Identitätsmatrix. Diese Prozedur wird mit
Q›J„Ê;…)B
Q›J„=/)ž
I
_FW
o ]
wiederholt. Man erhält so, wenn man die zusätzlichen Koeffizienten in den schon existierenden
»
; mit auffüllt, eine Matrix mit Spalten » , » , . . . , so daß
Ù
Ñ
J] ..I.I%] 7 /) »
Ñ
weniger als - von der Identität abweicht.
Ô
Spalten führen zur invertierbaren Matrix
..I.I»7Ú)
:] .../%] 7 ) hat also den Rang Û . Û linear unabghängige
Ñ
J]§= í I...I]§= ° )?.
Ô
Man kann also für die Lösung des Ausgangsproblems
einfach das Gleichungssystem
»
¦
G Ã .I..I Ã Ú)
é
lösen.
Dieses Ergebnis beschränkt den Suchraum für die Architektur in einem konkreten Trainingsproblem: Es reichen ein bis zwei verborgene Schichten mit maximal derselben Anzahl an Neuronen,
wie Pattern vorliegen (multipliziert mit der Ausgabedimension).
3.8
Komplexität
Betrachtet man die Komplexität der einzelnen Verfahren, dann unterteilt diese sich in zweierlei:
die Komplexität für einen einzelnen Schleifendurchlauf – dank Backpropagation oder heuristischen Näherungen ist diese zumeist linear oder quadratisch in der Anzahl der Gewichte – und
die Anzahl der nötigen Schleifendurchläufe. Für letzteres gibt es nur heuristische Betrachtungen.
Zumindest kann man zeigen, daß bei gewissen (allerdings den im Allgemeinen in der Praxis langsamen) Lernverfahren und günstigen Startbedingungen unter gewissen Bedingungen Konvergenz
in geeignetem Sinne eintritt. Diese Formulierung deutet schon an, daß die Realität damit nicht unbedingt erfaßt ist – so schöne Aussagen wie beim Perzeptrontraining existieren hier (noch) nicht.
Für Differenzenverfahren, welches einfaches Batch-Backpropagation ja ist, gibt es etwa folgende Beobachtung:
Satz 3.5 Sei 9 Fixpunkt des Differenzenverfahrens der Form
9pJ0
ŽT
)B49p:0 )x—w Ö{Q›J9p…¤¥))?
so daß Q zweimal stetig differenzierbar und die Jakobimatrix Õ³Q›:9D) positive definit ist, dann konvergiert das Verfahren für hinreichend kleine Schrittweite w und Startpunkte, die hinreichend nahe
bei 9 liegen.
B. Hammer
44
Beweis: Die Jakobimatrix sammelt einfach nur alle partiellen Ableitungen des Funktionenvek ¦
o ï gilt.
tors Q auf, positiv definit bedeutet, daß „ Õ³Q›:9D)£„
für alle Vektoren „j
Ž
¤„ darstellen mit einem Vektor „ der Länge . Wir
Jeden Punkt 9 :0 ) kann man als 9
möchten sehen, daß 9p:0 ) tendentiell zu 9 driftet, dazu reicht es, zu zeigen, daß obiges ¤ immer
\
kleiner wird. Wir verwenden eine Taylorentwicklung um 9 . Dabei sei Q; die Hessematrix der
] ten Komponentenfuntkion von Q .
} 9 :0
Ž4
)xË9pJ0³)R} Ù
} 9pJ0³)2.wuQ›:9 : 0 ))2j9°} Ù
Ž
} ¤„[.
wuQ›J9
¤z
„ )} Ù

¦
ü
Q ; O
9 )£„z);} Ù
\
} ¤„[.wuQ›J9O)2—w¤Õ#Qx:9O)„[.w¤ Ù uJ„
Ž
Ž
¦
¤ Ù
¤ Ù w Ù á ]} Õ³Q›:âI9D
w¤ Ù á „ Õ#Q›
{¤ ø
ã )£„ž} ä Ù D
âIã J9O)„ ä
æ Ö í
Q
å Ö î
Q
ÒÑ)
ˆ
w
á{Rest
âIã{ä
æQÖ _
mit einem Faktor Rest und Konstanten , Ù , . Ù gibt es nach Voraussetzung, die andeø
ren Konstanten existieren aufgrund der Stetigkeit von Q , sofern man sich mit 9pJ0³) in Kompakta
v

bewegt. Wähle w mit , Ù —wQ ‡, wähle ¤ mit , ¤
. Dann gilt
Ñ)dŒ
¤ Ù ¤ Ù Œ
ø
iŽ
Ù
w
ý
wQ
Ù
Ž
R¤w#
Ww# ý
{¤–
Ù 
ø
¤ Ù .w|0-žT- ))

} 9 : 0 )2Ë9ß} Ù á —
âIwQ
ä)
ã - æ
s
.w|¬
ø
¥) )
)
Ê
Es folgt
} 9pJ0³)2Ë9°} Ù ŒG} 9 :0‚
)xË9ß} Ù ê
Œ-..I.ʌ4ê
Ç
.
Für genügend kleine Schrittweite w , die durch die Jakobimatrix bestimmt werden kann, und genügend kleine Umgebung, deren Größe von der Güte der Taylorapproximation abhängt, streben
é
also Anfangswerte gegen 9 .
q
Für lokale Optima 9 einer Fehlerfunktion gilt häufig,
daß die Hessematrix an der Stelle 9 positiv
definit ist, daher konvergiert ein Gradientenabstieg in obigem Sinne. Die Funktion Q aus obigem
n
Satz ist bei einem Gradientenabstieg die Funktion
. Die Schnelligkeit der Konvergenz läßt sich
Ç
in obigem Beweis ist
aus den Gegebenheiten in der konkreten Funktion abschätzen, der Faktor ê
da sehr vielversprechend – allerdings gilt das nur für einen eventuell sehr kleinen Bereich um das
Optimum. Hornik et.al. haben gezeigt, daß ähnliche Aussagen auch unter geeigneten Bedingungen
für Online Backpropagation gelten, das ja kein wirklicher, sondern ein sogenannter statistischer
Gradientenabstieg ist.
v
¦
Desweiteren kann man durch eine analoge Rechnung sehen, daß ein Punkt 9 mit „ Õ³Q›:9D)£„
gilt für gewisse Richtungen „ instabil ist, sofern man sich aus diesen Richtungen gegen das
Extremum 9 nähert. Kleine Auslenkungen von 9 in diese Richtungen führen im nächsten Schritt
zunächst von 9 weg.
Es stellt sich aber die Frage, was bei einem beliebigem Startpunkt passiert und ob und wie man
lokale Minima vermeiden kann. Globale negative Aussagen erhält man, sofern Situationen als NPschwierig nachgewiesen werden können. Hier stellt sich, genau wie beim einfachen Perzeptrontraining auch, das Training eines einfachen sigmoiden Neurons als schwierig heraus. Allerdings
benötigt man schon hier etwas diffizilere Argumentationen als einfache Standardreduktionen.
Neuronale Netze, WS 99/00
45
Ç
Satz 3.6 Es ist NP-schwierig zu entscheiden, ob eine vorgegebene Trainingsmenge aus , 1 5
, 1 mit einem Netz :0x ) mit sigmoider Aktivierung und quadratischem Fehler ŒTÛ trainierbar
ist. Û und 0 sind dabei variabel.
Beweis: Das Hitting Set Problem hat folgende Eigenschaft: Gegeben eine Boolesche Formel in konjunktiver Normalform und eine Konstante õ
. Dann findet man in polynomieller Zeit
ein Hitting Set Problem und eine Konstante ê , so daß, falls erfüllbar ist, es ein Hitting Set der
Größe ê gibt, falls nicht erfüllbar ist, jedes Hitting Set mindestens die Größe õ/ê hat.
Sei jetzt eine Formel gegeben. Reduziere diese zu einem Hitting Set Problem mit obiger
Eigenschaft und Konstante ê zum Faktor õË A . Dieses Hitting Set Problem kann zu einem
Loading Problem für ein einfaches Perzeptron reduziert werden, das mit ê Fehlern lösbar ist, falls
erfüllbar ist, und sonst mindestens Aê Fehler macht, wie wir schon gesehen haben.
Betrachte jetzt dieselbe Trainingsmenge, die mit einem sigmoiden Netz J0x ) und quadratiŽT
schem Fehler maximal ê
trainiert werden soll. Falls erfüllbar ist, kann man ein Perzeptron
mit nur ê Fehlern finden. Dasselbe Netz mit sigmoider Aktivierung hat für große Gewichte asymŽW
ptotisch den quadratischen Fehler ê , für geeignet skalierte Gewichte maximal den Fehler ê
.
Ž-
Ist umgekehrt eine Lösung mit quadratischem Fehler ê
gegeben, dann klassifiziert dasselbe
Žƒ
Netz mit Perzeptronaktivierung maximal ¤':ê
) Punkte falsch, da jeder falsch klassifizierte
Punkt mindestens .]A Ù zum quadratischen Fehler beiträgt. Das ist aber kleiner als Aê , d.h. das
Perzeptron macht weniger als Aê Fehler, also ist erfüllbar.
é
Man würde jetzt erwarten, daß sich auch alle anderen Ergebnisse vom Perzeptronfall auf die –
scheinbar – kompliziertere Situation der sigmoiden Aktivierungsfunktion übertragen. Mathematisch ist das allerdings nicht ganz so offensichtlich, da sigmoide Netze eine größere Mächtigkeit
haben, die die Suche nach Lösungen evtl. einfacher machen könnte. [Es gibt Beispiele, wo das
der Fall ist: Etwa Lernen einer konjunktiven Normalform mit 0 Variablen und Û Literalen pro Disjunktion ist NP-schwierig, Lernen einer disjunktiven Normalform mit 0 Variablen und Û Literalen
pro Konjunktion aber nicht, obwohl letztere Formeln alle ersteren darstellen können.] Tatsächlich
erweisen sich die Beweise in diesem Gebiet als äußerst schwierig – zufriedenstellende Aussagen
für die Komplexität des Trainings von sigmoiden Netzen zu finden, ist aktuelles Forschungsgebiet.
Es gibt bisher keine Aussagen für Netze mit mehr als nur einer verborgenen Schicht. Für Netze
mit einer verborgenen Schicht gibt es etwa die Aussage [Hammer]:
vW
Satz 3.7 Seien ×
,.]A feste positive Zahlen. Es ist NP-schwierig zu entscheiden, ob eine
Ì
Patternmenge mit einem Netz :0x
š ) mit sigmoiden Knoten in der verborgenen Schicht, Perzeptronaktivierung in der Ausgabe, betragsmäßig durch × nach oben beschränkten Ausgabegewichten
und betragsmäßig durch - nach unten beschränkter Mindestaktivierung der Ausgabeeinheit auf allen Trainingspattern trainiert werden kann. 0 ist dabei variabel.
Schwierig macht es die Situation, daß hier Netze zur Klassifikation eingesetzt werden. Betrachtet
man stattdessen Netze, die Interpolieren sollen, d.h. die Aufgabe, den quadratischen Fehler zu
minimieren auf einer Patternmenge mit reellwertigen statt nur binärwertigen Zielvorgaben, dann
kann man die Funktionsweise des Netzes durch die vorgegebenen Werte festlegen und quasi das
Problem des zwei Knoten Perzeptronfalls als Teilaufgabe erzwingen. Ebenso schwierige Beweise,
wie es der Beweis zu obigem Satz wäre, belegen die Komplexität des Trainings von sigmoiden
Netzen mit einer verborgenen Schicht, so daß der quadratische Fehler kleiner als eine vorgegebene
von der Anzahl der hidden Neuronen abhängigen Größe wird [Jones (für den zwei Knoten Fall),
Vu (für den allgemeinen Fall, allerdings unleserlich)].
In der Praxis versucht man, diesen Problemen durch eine geeignete (z.B. unäre) Repräsentation
der Daten, an die Problemgröße adaptierte Architekturen und die Möglichkeit der Architekturände-
B. Hammer
46
rung auch während des Trainings zu begegnen. Allerdings stoßen auch Methoden wie Eingabepruning schnell an ihre Grenzen. Unabhängig davon, ob man mit neuronalen Netzen oder einem
anderen Mechanismus lernt, erhält man nämlich die Aussage: Eingabepruning ist NP-schwierig‘
’
oder genauer:
Ç
Satz 3.8 Gegeben sei 0 , eine endliche Menge von Punkten J´|;Ò Ã ;J)ßCc, 1 5ˆ, 1 und eine
Zahl Û . Dann ist es NP-hart zu entscheiden, ob es Û Indizes ] , . . . , ]Ú gibt, so daß die auf diese
Koeffizienten reduzierten Punkte nicht widersprüchlich werden, d.h. keine ´ ; und ´Ê= existieren mit
J„Ê;Õ;Lí"..I.I„Ê; ; ° )BP…„=ª;Lí.../„=ª; ° ) und à ;io à = .
Beweis: Dieses folgt sofort durch eine Reduktion vom hitting set Problem. Eine Instanz von
Punkten ¶+,3?...IÇ1 und Teilmengen ݁,{õ .I..IõÜÄ1 besitzt ein hitting set der Größe Û
Ç
dann und nur dann wenn folgende Punkte mit Eingaben im E
sich auf Û Eingabekoeffizienten
reduzieren lassen, ohne widersprüchlich zu werden:
.../ ž
) È
2
e µœ I. ..I ...? .I../ ...? )BÈ
wobei der ] te Koeffzient von e2 µ
für alle õª=
ist dann und nur dann, wenn ;NC7õª= gilt.
é
4 Exkurs in die COLT-Theorie
Das allgemeine Vorgehen ist also so, daß man eine geeignete Architektur auswählt und die Parameter anhand der Daten optimiert. Es ist offensichtlich, daß der empirische Fehler in der Regel
kleiner ist als der Generalisierungsfehler. Daher wählt man als Gütekriterium eine Schätzung des
Generalisierungsfehlers auf Daten, auf denen nicht gelernt wurde. Hier stellt sich jetzt die Frage,
welchen Grund man zur Annahme hat, ein kleiner empirischer Fehler führe auch zu einem kleinen
Generalisierungsfehler. Schärfer formuliert: Warum ist sichergestellt, daß die Daten genügend
über das zugrundeliegende Modell aussagen, so daß man – möglichst nach einer vorher abschätzbaren Menge an Beispielen – aus Daten lernen kann. Diese Frage ist nicht auf neuronale Netze
beschränkt, sondern stellt sich im Zusammenhang jedes Algorithmus, der aus Beispielen lernt. Eine mathematische Präzisierung von Lernbarkeit‘ bietet die statistische Lernbarkeitstheorie, von
’
der wir jetzt einige grundlegende Ideen erläutern. Die Abkürzung COLT steht dabei für COmputational Learning Theorie.
4.1
PAC Lernbarkeit
Die mathematischen Gegebenheiten seien charakterisiert durch
ë
Ì
einen Datenraum mit einer Verteilung , gemäß der Beispiele „Ê; unabhängig und identisch verteilt (kurz i.i.d.) gezogen werden,
einen Bildraum ² , der hier immer in » ½ enthalten sei,
eine approximierende Funktionenklasse Ø
Netzarchitektur gegeben sein kann,
von Funktionen xVS
ë
²
, die etwa durch eine
eine unbekannte zu lernende Funktion Q , von der wir annehmen, daß sie auch in Ø
ist.
enthalten
Neuronale Netze, WS 99/00
47
Die letzte Forderung ist nicht unbedingt realistisch, denn häufig ist die Funktion Q fehlerbehaftet,
Ž
statt Q zu tun hat; häufig ist Q zudem komplexer als die Funktionen
so daß man es mit Q
w
in Ø und nur ganz gut durch diese approximierbar. Diese allgemeineren Fragestellungen fallen
unter den Terminus des agnostischen Lernens, der von Haussler eingeführt wurde. Er ist etwas
schwieriger zu handhaben, aber viele der Ideen sind dieselben. Insbesondere sind hinreichende
Bedingungen für agnostische Lernbarkeit unter realistischen Bedingungen auch durch eine endliche Überdeckungszahl bzw. VC-Dimension von Ø gegeben, das heißt durch die Charakteristika,
die wir auch in dieser einfacheren Situation erhalten werden. In allem Folgendem muß von mathematischer Warte aus darauf geachtet werden, daß die betrachteten Funktionen und Mengen meßbar
sind. Das ist in konkreten Fällen gegeben, daher gehen wir darauf nicht weiter ein.
Ein Lernalgorithmus lernt anhand von Daten eine Funktion, das heißt ein Lernalgorithmus ist
eine Abbildung
w
w
r™
S
;As w
ë
5²*)
;
ÙØ.
w
w
Wir schreiben ÜO…´ž¿x) für J„ à .I..I„ÊÜ^ à ܹ) und D
Ü J´ž"Q|) für J„ "QxJ„ )?I...?„ÊÜQ›J„Êܹ)) .
Der empirische Fehler zwischen zwei Funktionen auf ´ ist
Ü
Ú
ܬQ'Œx€´N)ž
‡
Ï
©
;As }>QxJ„Ê;J)x
x …„Ê;J)} .
Der tatsächliche Fehler zwischen zwei Funktionen ist
´
‡
[
Q€Œxu)›
}Q›J„z)x—x|J„z)}^‡
[
J„z)?
wobei die Notation ‡ …„z) bedeutet, daß man entsprechend der Verteilung
[
ë
auf allen „FC
mittelt. Es wird jetzt in der Regel gelten daß
Ú
w
Ü D
Ü J´ž"Q|)?"Q )ۈ
Ì
über die Unterschiede
‡
gilt. Die Hoffnung ist allerdings, daß auch
w
z D
Ü …´ž"Q )""Q )܈
‡
zumindest für genügend großes Ï gilt. Ferner würde man gerne eine Schranke für die Anzahl der
Beispiele Ï wissen, so daß der tatsächliche Fehler höchstwahrscheinlich etwa dem empirischen
Fehler entspricht. Diese Schranke sollte dabei insbesondere unabhängig von der unbekannten zu
lernenden Funktion Q sein!
Es wird sich herausstellen, daß Charakteristika der Funktionenklasse Ø dieses garantieren
können. Für beliebiges Ø ist diese Eigenschaft aber nicht gegeben.
Beispiel:
Sei Ø
die Klasse
,”Q7S'» ½€
,
1}ݚ¤<CE
H <ÄÅR…¤„z))BqQ›…„z)"1
der Funktionen, deren Verlauf durch Nullstellen einer Cosinusfunkiton bestimmt wird. Diese Klasse kann durch einen reellen Parameter beschrieben werden. Nichtsdestotrotz ist sie schwierig zu
lernen. Anschaulich kann man sich das wie folgt klar machen: Für jede Folge von Punkten „ , . . . ,
„ÊÜ im Intervall » ½ , die nicht rational abhängig sind (d.h. die nicht durch eine Linearkombination
mit ganzen Zahlen zu kombiniert werden können), ist die Menge
,šJ¤„ mod Ì
.I..I¤„ÊÇ mod Ì
)·}¤<CE^1
B. Hammer
48
Ì
Ü
dicht in » "
½ , d.h. allein durch Skalieren des Vektors kann man die Punkte in nahezu jede Position auf dem Definitionsbereich von ÄHÅ setzen, wenn man die Periodizität berücksichtigt (vgl.
z.B. [Mane, Ergodic Theory and Differentiable Dynamics]). Die Punkte können also durch geeig nete Wahl des Parameters ¤ beliebig nach , 1 abgebildet werden. Möchte man also eine dieser
verschiedenen Funktionen aufgrund der Punkte identifizieren, dann muß man den Wert auf allen
Ï Punkte betrachten. Das heißt aber, da man dieses für beliebiges Ï erreichen kann, daß man zur
Identifikation gewisser Funtkionen beliebig viele Punkte benötigt. Das ist natürlich kein formaler
Beweis dafür, daß Lernen schwer ist, wir werden diesen später bekommen.
Zunächst wollen wir formal fassen, wann eine Funktionenklasse lernbar ist.
Definition 4.1 Eine Funktionenklasse heißt PAC lernbar (probably approximately correct learw
nable), falls es mindestens einen Algorithmus gibt, so daß für alle Ì Ü
Å~ÍÎ
Þ
€
…´ç}‡
K
Ó
[
w
D
Ü …´ž"Q )""Q )
%)i
-
JÏ
`)
j
gilt. Ist ein konkretes - angesprochen, so heißt dieses Genauigkeit. Ist obiger Term explizit durch
beschränkt, so heißt dieses Konfidenz.
Eine Funktionenklasse heißt verteilungsunabhängig PAC lernbar, falls es mindestens einen
w
Algorithmus gibt, so daß für alle ŌÍÎ
[
Ì Ü
ŌÍ#Î
Þ
€
K
J´m}‡
[
w
Ü J´›"Q )?Q )
)B
-
:Ï8
`)
j
gilt.
Eine Funktionenklasse ist UCED (uniform convergence of empirical distances), falls für alle
-
Ì Ü
Ú
…´ç}vÅ~ÍÎ } ‡Ün¬Q€~xz¥„z)xT‡
3 K Þ
€
[
¬Q'Œxu)R}
%)i
-
JÏ
`)?.
j

Eine Funktionenklasse ist verteilungsunabhängig UCED, falls
Å~ÍÎ
[
Ì Ü
Ú
J´m}ßŌÍÎ } ‡èÜQ€Œx€„z)x.‡
3 K Þ
€
[
Q€Œxu)}
)B
-
:Ï8
`)".
j

Der Begriff der PAC Lernbarkeit wurde von Valiant eingefürt. Original faßte er auch Effizienzaussagen, die wir hier entkoppelt haben. PAC Lernbarkeit ist eine Mindestanforderung, so daß man
von der unbekannten Funktion unabhängige Schranken für die Anzahl der Beispiele finden kann,
die Generalisierung gewährleistet. Es ist klar, daß man nicht notwendig PAC Lernbarkeit für alle
, sondern je nach Gegebenheit etwa nur für ein bestimmtes - verlangen muß. Verteilungsunabhängige PAC Lernbarkeit fordert darüberhinaus eine Unabhängigkeit der Schranken von der den
Daten zugrundeliegenden, evtl. unbekannten Verteilung. Beide Formulierungen sichern lediglich
die Existenz mindestens eines guten Algorithmus.
Die UCED Eigenschaft hingegen stellt sicher, daß der empirische Fehler jedes Algorithmus
eine aussagekräftige Größe darstellt, denn der empirische Fehler des Algorithmus weicht nicht
w
sehr vom tatsächlichen ab für genügend großes Ï . In der Definition taucht der Algorithmus
w
nicht explizit auf, sondern ist implizit, da ja nur eine spezielle Funktion x darstellt, umgekehrt
aber auch jede spezielle Funktion x Ausgabe des Algorithmus sein könnte. Insbesondere ist bei
einer Funktionenklasse, die UCED ist, jeder Lernalgorithmus mit kleinem empirischem Fehler gut.
Die Frage stellt sich jetzt natürlich, wie man diese einzelnen Bedingungen testen kann. Wir
fangen mit einer ganz einfachen Situation an:
Satz 4.2 Die Funktionenklasse Ø
sei endlich. Dann ist Ø
verteilungsunabhängig PAC.
Neuronale Netze, WS 99/00
49
ë
ë
Beweis: Sei Ø­e,”Q I...IQRÇ1 und ;>=De,„ }Q;£…„z)à¶
o Q/=”J„z)1 . Auf der Menge ;>= unterscheiÌ ë
den sich also QR; und Q?= . Möchte man nur mit Genauigkeit - lernen, dann kann man ;>=?) ‡ƒannehmen. Ansonsten sind nÄmlich beide Funktionen bei der hier geforderten Genauigkeit gleich.
w
w
Definiere einen Lernalgorithmus daurch, daß auf den Daten irgendeine Funktion aus Ø wählt,
die keinen empirischen Fehler macht. Da die zu lernende Funktion in Ø ist, gibt es so eine Funktion. Dann ist
Ì Ü
w
;
J´m}‡ ¬Q; ÜJ´žQR;J)¥)
-)
[
̀ Ü
w
Œ
Ð ;
… ´y}‡ QR;¬ ÜD…´ž"Q;J))
-)
[
Ì Ü
ë
Œ
Ð ;
…´y} Ý_ es wurde kein Beispiel aus ;>= gezogen )
ë
Ì Ü
Œ
J´y} es wurde kein Beispiel aus ;>= gezogen )
Ð ; Ð =
Ì ë
Ü
Œ
Ð ; Ð = ;>=?))
Ü
Œ
0 Ù —
-)
:Ï8 j`)
Ì
Da diese Abschätzung für jede Verteilung gilt, ist sie auch für das Supremum korrekt. Setzt
Ì ë
man in der letzten Zeile das Minimum über ;>=?) statt - ein, erhält man eine Abschätzung für
beliebige Genauigkeit.
é
ŌÍÎ
Endliche Funktionenklassen sind also PAC lernbar. Insbesondere gilt dieses etwa für Funktionenklassen auf binären Daten. In der Regel hat man es jedoch mit unendlichen Funktionenklassen zu
tun. Was ist dann? Im Hinblick darauf, daß man die Funktionen nur bis auf den Faktor - lernen
muß, charakterisiert folgender Begriff ein Äquivalent zur Endlichkeit:
Definition 4.3 Sei ¹ eine Menge mit Pseudometrik ‡ . Dann ist die Überdeckungszahl Î0-I¹œ‡)
die kleinste Kardinalität von Punkten „ , . . . , „ 7 , so daß die Menge à ; ,„7}†‡€…„#„Ê;J)Œá-/1 ganz ¹
überdeckt. Die Packzahl KG<-I¹œ‡) ist die größte Kardinalität von Punkten, so daß ‡z…„Ê;„=?)
für ]^À
o _ gilt.
Die Packzahl wird aus technischen Gründen benötigt. Wegen der Abschätzung
G¬
,-/¹œ‡)œŒ4Î0-IE¹ÄE‡š)¹ŒKG<-I¹œ‡)
K
sind die beiden Begriffe im Wesentlichen austauschbar.
In unserem Fall ist ¹ die Funktionenklasse Ø , - wird sich aus der Genauigkeit des Lernalgorithmus ergeben und ‡ ist die Pseudometrik ‡ , die den Abstand zwischen zwei Funktionen
[
mißt. Dieses ist keine wirkliche Metrik wie etwa der euklidische Abstand, da verschiedene Funktionen durchaus den Abstand 0 bzgl. ‡ haben können, wenn sie sich nur auf einer Menge mit
[
Wahrscheinlichkeit unterscheiden.
Satz 4.4 Falls j0-/ŒØFE‡ ) endlich ist, ist Ø mit Genauigkeit ,- PAC lernbar. Falls Î0-IŒØ‡
[
für alle endlich ist, ist Ø PAC lernbar.
[
)
Beweis: Es wird der sogenannte Minimum Risk Algorithmus konstruiert: Wähle eine - -ÜberÜ
deckung Q , . . . , QRÚ von Ø . Für gegebene Daten …„Ê;"Q›…„Ê;J)¥) ;As wähle dasjenige Q; als Ausgabe, das
den minimalen empirischen Fehler hat.
Dieser Algorithmus ist PAC mit Genauigkeit ,- : Sei dazu Q zu lernen, evtl. nach Umnumme
+
+ Ž
rieren ‡ Q€"Q;:)
,- für ]g
.I../ , ‡ Q€"Q;J)VŒ­
,- für ]g
I...IÛ , ‡ ¬Q'"Q{Ú)[ŒÂ- . Es
[
[
[
ist
Ì Ü
w
J´m}‡ Ú Q€ ÜDJ´ž"Q|))
[

J´m} ‡Ú ܬQ€Q{Ú¥´N)
Ì Ü

J´m} ‡Ü¬Q€Q{Ú¥´N)
ÜÛã î œ4ä + ŽT
Ü ã î œ4ä
å
e
)¹ŒTÛ e Œ
Œ
Œ
Ì Ü
-)
Ú

+
™gâÝu]BCj, ...? Ú 1 ‡èÜQ€"Q;Ò´N)<Œ- )
Ì Ü
Ž

)
J ´m} ‡ÜDQ€"Q;Ò´#)¹Œ,- )
Ð ;
B. Hammer
50
Dabei wurde in der letzten Zeile die sogenannte Hoeffding Ungleichung benutzt:
êðïBñÈòôó
é ê9ëí
æßç¢
è ìåî
e õ÷öø8ù~ú6û
èÛü
ê
falls
ç
ê
êzò
ò
i.i.d.
ç aus ý9þkÿ{ÿ ç mit
Erwartungswert stammen. Wählt man jetzt für
, dann erhält man
þ
ò
ò
êî ò
z
þ
ó
ç
æ
ç
è
æ
ó
ç
ç ç
ç êyò
þ
è
e õ&%
òôó
ç
da ja ø è
ç ç
ó
æ
ç
æ
è
è
ç
!
þ
ò
#"$
*
þ
ò
ç
ó
ò
êyò
ç þ
êyò
ç òŒò
+
ç
ò
,#"$
e õ&%˜ø è ù('
ò
ç
òŒò
die Zufallsvariable
ó
gilt. Ferner ist für )
ó
da ('
ù
ê<ò
î
-
gilt. Insbesondere ist die Konfidenz maximal . für
ï
/
02143
"
.65
û
Falls die Überdeckungszahl für jedes endlich ist, erhält man für jede Genauigkeit einen gesonderten Algorithmus, die man jetzt nochì zu einem einzigen Algorithmus zusammenfassen muß:
*
*
*
Für besitze der Algorithmus zur Genauigkeit ÿ die Konfidenz ÿ auf
Eingaben von mindestens
ó
"87
"87:9 ;"87
"
Eingabedaten. Dabei ist o.B.d.A.
. Man ruft jetzt einfach für Eingabedaten den
*
*
"87
"
<
Algorithmus zur Genauigkeit ÿ für dasjenige mit dem größten
auf.
ê
ê
ê
Zur Anmerkung:
besagt allgemeiner für unabhängige Zufallsvariaî
Die Hoeffding-Ungleichung
=
ê ïñÈòôó
blen
ý?>
A@ :
î
æßç é
e õ÷û8öø8ùB ú:CDzõ&EFD ü ø
5
Wir bemerken noch einmal, der Minimum Risk Algorithmusò benötigt also maximal
/
ï
ç 0216G
#HI
"
.
û
J
Muster zur Genauigkeit und Konfidenz . . Dieses liefert jetzt eine hinreichende Bedingung für
PAC Lernbarkeit, ist sie auch notwendig? Wir unterscheiden zwischen Funktionenklassen und
Konzepten welche Funktionenklassen mit Werten in KL{ÿM sind.
ò
ò
Satz 4.5 Für Konzepte H benötigt jeder Algorithmus mit der Genauigkeit und Konfidenz . we0N 2OQP ç ç
RHS Beispiele.
nigstens ÿ¢þ.
ì
7TJ
U berechnet man
Beweis: Seien , . . . ,
separierte
Funktionen. Fürê jeden Algorithmus
òŒòôó
ò
ê
ì
WVXZY\ê [R]
^\_ æ è ç ç U ò ç R` ò ]i
]V
WVQbc
è
ç
ç
aó
_
ÿedFf
R` _
h
ú
\
g
D
:
ú
j
%
V a ü ük ü
ÿ
è
Neuronale Netze, WS 99/00
51
da die Funktionen den Abstand voneinander
haben. Andererseits
istò aber für einen PAC Algoò~òôó
ì
rithmus
WVXZY\[R]
ï
^ _ æ è ç ç òŒòôlUó çò R`
è æ
ç
ç ç
ï
lU
è
è
ÿ¢þ.m
ï
also
ò
ç
P
.
ÿ™þ
è
ò
ç
#HI
5
<
Jeder noch so komplizierte Algorithmus benötigt also eine durch den Logarithmus der Überdeckungszahl gegebene Anzahl an Beispielen, sofern man mit Konzepten umgeht. Für Funktionenklassen gilt eine analoge Aussage, sofern die Funktionswerte endlich, oder die Daten fehlerbehaftet sind [Vidyasagar, Bartlett et.al.]. Für Daten mit beliebiger Genauigkeit kann dagegen
Lernen auf Funktionenklassen mit unendlicher Überdeckundszahl aufgrund von Kodierungstricks
möglich sein.
Beispiel: Die Funktionenklasse
êpo
ê
ò
n
q
r
s
ç
ý?THÿ
ýT{ÿ
a
ò
ê
õ
ì
ê
ç ò
a
n
=ut a
ÿ
sonst
ûD
õ
ê
)
ç
ò
)
+
ÿ
ê
v
ò
æßç
æ T{ÿ a Gleichverteilung PAC lernbar, hat aber unendist bzgl. der Verteilung mit a ÿ ,
æßç
ist,
liche Überdeckungszahl, denn: Der Wert in bestimmt die Funktion eindeutig. Da ist die Eingabe bei unendlich häufigem Ziehen mit Warscheinlichkeit ÿ anzutreffen. Auf dem
N .
Rest unterscheiden sich zwei Funktionen je um die Distanz 5:w
5hw
In diesem Beispiel ist die gesamte Funktion in den Funktionswert der kodiert worden. Solche Kodierungstricks können allerdings in der Praxis aufgrund begrenzter Rechengenauigkeit nicht auftreten, so daß man unter realistischen Bedingungen PAC Lernbarkeit mit endlicher Überdeckungszahl gleichsetzen kann. In diesem Fall hatten wir einen (den Minimum Risk) Algorithmus erhalten,
der die Klasse lernt. Im Falle neuronaler Netze würden wir aber gerne eine Form von Backpropagation anwenden. Keine Rücksicht auf den speziellen Algorithmus (außer, daß er den empirischen
Fehler minimiert) muß man nehmen, wenn die UCED Eigenschaft nachgewiesen werden kann.
Diese zeichnet sich dadurch aus, daß sie, genau wie die Charakterisierung von PAC durch die
Überdeckungszahl, nicht auf einen speziellen Algortithmus referiert und also nur aufgrund der
Funktionenklasse getestet werden kann. Dennoch kann man noch adäquatere Charakterisierungen
von UCED finden. Zunächst soll auch hier gezeigt werden, daß jede endliche Funktionenklasse
UCED ist.
ì
Zy
Satz 4.6 H a K
M ist UCED.
5e5x5
ê
ò
ê
ò
ò
Beweis:
ó
T
z
{
ê
ò
ò
ê
ò
ò
æ
ç
ç
ê2} ç
,
|)
þ
è
ê2} æ
# 7 ç ç 7 ò è - ç 7 - ,ò R"
ç
ç ó
þ
þ
è
q
q €
ç
ç "
e õ&y% ø è ù4û a~ ~ þ`ÿ e õ&y% ø è ù4û
<
Für unendliche Funktionenklassen würde man gerne eine analoge Abschätzung machen. Dazu
muß man für die Summenbildung die Funktionenklasse durch ein endliches Objekt ersetzen. Dieses ist ein wenig trickreich und verlangt zusätzliche Überlegungen.
B. Hammer
52
Satz 4.7 Eine Funktionenklasse H
ist UCED dann und nuròŒdann,
wenn
ò
ç 0‚O
ç 0‚2ƒ
G
_
RH
a è
"
腄‡†‰ˆ
gilt. Man erhält die expliziteò Abschätzungò
ò ó
ò ò
cŠ#‹Œ ç ’
æ
ç
ç ç ] ŽX
 Z R‘ þ ç R‘r G
ÿZ“LRH
`” û eõ
_
è
û è
ø
è
g
ˆ
Dabei bezeichnet H
die Einschränkung der Funktionenklasse auf die Eingaben .
è
% ø ù(•8û
5
Beweis: Ein vollständiger Beweis kann etwa in [Vidyasagar] nachgelesen werden. Es soll lediglich skizziert werden, wie man die Distanz des empirischen zum tatsächlichen Fehler abschätzen
kann, da diese Beweismethodik in der Lernbarkeitstheorie häufig in der einen oder anderen Form
angetroffen werden kann.
Es wird nicht die UCED Eigenschaft, sondern
die sog. UCEM
Eigenschaft betrachtet, die die
ò
ò
ò
Größe
rŠR‹TŒ ç ,
æ
ç
ç X

þ
è
è
g
ˆ
ˆ
untersucht. UCEM bedeutet uniform convergence of empirical means‘; man beachte, daß hier ja
’
gerade der Erwartungswert mit der empirischen Erwartung verglichen wird. Zur UCED
Eigen—
=
a
schaft kommt man, wenn man die UCEM Eigenschaft der Klasse –8H
K
þ‘
R‘
HSM
untersucht. Die Überdeckungszahl der Klasse –8H zum Parameter ist maximal quadratisch
im Vergleich
zur Überdeckungszahl der Klasse H zum Parameter
, daher übertragen sich die
ï
Schranken entsprechend.
"
Sei
û . In einem ersten Schritt schätzt man die Abweichung der empirischen von der
ò˜
ò
ò
êyò
ò
ê
tatsächlichen
gegen
die Abweichung zweier
empirischer Erwartungen voneinander ab.
bc ç Erwartung
ç
ç ç
ç
J" a
a
o
,
. Seiò
Es sei
ò
è
ˆ ™ o a K šŠR‹Œ X- ç ˆ þ ò ç ,ò M
rŠR‹TgŒ X- ç ç › a
è
`
R` þ
M
ò ó
ò K
ˆ
g ˆ è
5
è
î
òž
ò òæ
æ
ç ™
眛
æ
ç î
ˆ
ˆ
þ
Dann ist î è
:
Mit
der
Tschebychev-Ungleichung,
die
besagt,
daß
û
è
î
î
çŒç
þ
gilt, folgert man
û
û für eine Zufallsvariable
ò
ò
ò ó
Ÿ
ó
ˆ
ç ,
æ
ç
ç ÿ
ˆ
ˆ
þ
è
" ï
è
û
/
ˆ
ˆ
"
für
abweicht,
û . Für jede Funktion, deren Erwartung von der empirischen Erwartung um
weicht die empirische Erwartung also mit Wahrscheinlichkeit mindestens ÿ
von einer auf einer
neuen Menge gemessenen
empirischen Erwartung um mindestens
ab. Daher bekommt man
ò
æ
硛
ï
ò
ò
ò
ò
ó
ò~ò
û è
ï
ò
—
z
æ
ç
ç
ç
ç
ç
ç
£¢
`
þ
R` þ
û è
æ
ç ™
è
è
ò
è
ˆ
ˆ
ˆ
ˆ
5
æ
硛
Als nächstes kann man û è
abschätzen, indem man sogenannte swapping Permutationen
auf den Daten
betrachtet.
Swapping Permutationen sind Permutationen, die maximal einige Koef{
" +¤{
ì
fizienten mit
vertauschen,
und also zwischen den beiden
Samples
swappen. Es ist
ò
ò
ò
ì

¦
¥
e
b
§
æ
硛
ç©rª ò
ç©rò ª
ò
a
_
_ ÿZ¨
_
û è
ø
beû §
¥
ç©rª
眪
a
a ç(«
_ _ ø ÿZ¨
_
ø
û
ø
Neuronale Netze, WS 99/00
53
©
wobei die swapping Permutationen repräsentiert, ÿZ¨ ist die charakterischische
Funktion zur Menê
›
/
ge .
{
ª
Für festes kann man den Integranden beschränken: Sei durch ( a ÿ
) eine
Überª
©rª
› 5e5e5
in , falls
deckung der auf eingeschränkten Funktionenklasse gegeben. Dann ist
é ê9ëí
è ì
ê
ò
ç ª ¥
ê
ò
þ
çª ¥ 9
ú ü
J"¬,
ú
Aufgrund der Überdeckungseigenschaft gibt es dann ein
é ê9ëí
è ì
- ç ª ¥
ê
ú ü
ò
ê
þ
5
èÈü
aus der Überdeckung, so daß
ò
- ç ª ¥ 9
ú
"¬’
èÈü
Ÿ
5
) kann man aber die
Für jeden festen Index
Anzahl der
swapping
Permutationen, für die obige
ê
òŒò
ê ò
ê
Ungleichung gilt,î beschränken. Dazu
benutzt
man
¥ 9 Hoeffding-Ungleichung für unabhängige
- çª die
ç
眪 ¥
þ
Zufallsvariablen
mit Werten in ­
und erhält die Schranke e õ÷û è % ø ù\®A¯ ® ø
ª
ú ü
ú
èÛü
für die Wahrscheinlichkeit einer solchen swapping
Permutation.
Also ist für jedes feste die
Anzahl der swapping Permutationen, so daß es ein mit obiger
Ungleichung gibt, maximal
ò
/
ª ç A
RH
e õ è % ø ù(8• ûlG
è
5
è
ò
ò
ó
/
Damit ist aber
e
b
§
ç
ª òŒò
ç|«
_ e õ è % ø ù(8• û G / RH
ç
ç ª ûè
ø
a
G
e õ è y% ø8ù(8• û
#H
û è
5
ò~ò
/
Daß die Abweichung der empirischen von
der
tatsächlichen
Distanz
gegen Null geht,
wird alˆ
ª q
òŒò
02O
ç
ç J"
G
RH
sichergestellt, wie man aus obiger
so durch die Eigenschaft
ç 0‚O
ç ª
û
" q
G
#H
Abschätzung nachrechnen kann. Es folgt dann è aus der Eigenschaft
ˆ
è
die UCEM Eigenschaft, dadann die interessierende Größe abgeschätzt werden kann
gegen die
ˆ
Wahrscheinlichkeit für Pattern , wo der Logarithmus
der empirischen Überdeckungszahl geteilt
q
02O
J"
"
G
durch
größer als ein . ist (wegen
ist das klein) und den sich für die übrigen
Muster ergebenden Term. Da hier die Überdeckung beschränkt ist, wird auch dieses klein. Es
ˆ
folgt die behauptete Aussage.
<
Es stellt sich allerdings weiterhin die Frage, wie man die Überdeckungszahl einer Funktionenklasse abschätzen kann. Ein fundamentaler Begriff in der Lernbarkeitstheorie, der einerseits häufig zur
konkreten Abschätzung der Überdeckungszahl und damit einhergehender konkreter Schranken,
andererseits für die Charakterisierung verteilungsunabhängiger Lernbarkeit verwandt wird, ist die
nach Vapnik und Chervonenkis benannte VC Dimension. Sie mißt in gewisser Weise die Kapazität einer Funktionenklasse, oder, anschaulicher, die maximale Anzahl an Punkten, auf denen man
mithilfe der Funktionenklasse auswendig lernen kann.
ì
î
von
Konzepten.
Ein
Menge
von
Punkten
in
wird
Definition 4.8 Sei H eine Klasse
K
M
ì
5e5e5 è
durch
H geshattert, falls
- ÿ -wertige Abbildung auf den Punkten eine Abbildung
=
es für jede
a
H gibt mit K
M . Die Vapnik-Chervonenkis Dimension (VC Dimension)
€
5e5x5 è
von H ist die Kardinalität einer größten
Punktmenge, die von H geshattertì wird. Sie kann evtl.
werden.
ï
Sei
H
eine
Klasse
von
Funktionen
mit
Werten
in
ý?L{ÿ . Ein Menge K
M von Punkten
î
ì
5e5x5 è
in wird durch H ge-fat-shattert mit Parameter
, falls Folgendes gilt: Es gibt reelle Werte
° , . . . , ° (nur von den Punkten, nicht von abhängig) und für jede - ÿ -wertige Abbildung auf
è
54
êzò
ê
B. Hammer
ï
ê
ç
{ êkï
êzò
ê<ò
=
° den Punkten eine Abbildung
für
alle
(d.h. es wird ein Abstand von
H mit
þ
î
ç
ç
° gewahrt) und es gilt °
a ÿ genau dann, wenn
þ
ist. Die -fat shattering
Dimension von H ist die Kardinalität einer größten Punktmenge, die von H mit Parameter ge
fat-shattert wird. Im Fall a spricht man einfach von shattern und der Pseudodimension.
Für Konzepte reduziert sich die Pseudodimesnion zur VC Dimension. Diese Größen sind einerseits (manchmal) handhabbar, andererseits erlauben sie, die verschiedenen Überdeckunszahlen
abzuschätzen. Zunächst soll aber eine Beobachtung stehen, die als Sauersò Lemma bekannt ist.
ï
òôó ç
der VC Dimension und ±
Satz 4.9 Sei H eine Konzeptklasse
mit
a~
ç
. Dann ist ±
RH
schiedenen Funktionen in H
. Sei
ò
RH
sei die Anzahl der verç
~e d .
òfó³²
ò´o
ê ë
y ê(¶ werden
Beweis: Wieder interessiert uns nur der für die Lernbarkeitstheorie typische
Teil,
daher
Q
[
µ
ò
ç
ç
d
~ a
RH
nachzurechnende Abschätzungen weggelassen. Es wird ±
gezeigt.
ç
d
~
Jenen letzten Ausdruck kann man (mit doppelter Induktion) gegen e abschätzen. Er hat eine
ò
ï
natürliche Interpretation als die Anzahl der Teilmengen von mit maximal Elementen.
ò ó
ó
ç
a ÿ . Ist a ÿ , Ist a , dann ist die Funktionenklasse
einelementig und also ±
RH
,
ç
. Für
dann ist ±
RH
ist offensichtlich nichts zu zeigen. Wir nehmen jetzt an, die
Behauptung gelte für Punkte und
Konzeptklassen,
wo entweder weniger als ~ Punkte vorhanden
ò
ò
sind oder die VC Dimension kleiner als ist. Die Aussage wirdì für ~ Punkte
und VC Dimension
ì~ò
ç
ç
a ±
von H gezeigt. Es ist ±
RH
RH
. Betrachtet man einen y Punkt aus , dann bestehen
· a ç
für jede Abbildung maximal zwei Möglichkeiten.
Seiò
. Dann ist also
ò
ò
õ
5x5e5
a
· +
·
ç
ç ·
ç ·
±
RH
±
RH
±
#H´¸
òu¹
ò
s· a
s· ç y a
H´¸ nur die Funktionen darstellt, die ein Pendant ‘ besitzen mit
‘
wobei
,
y
òvó
ç
·
ì
‘
. Im ersten Term werden also alle verschiedenen
Funktionen
auf
aufgesammelt,
der
zweite
·
y
ç ·
ê ë
y 꺶
fügt
diejenigen
hinzu,
die
sich
nur
auf
unterscheiden.
Nach
Voraussetzung
ist
±
RH
d [ µ
·
·
õ
. Die VC Dimension von H‡¸
ist maximal Z
Abbildung in H´¸
þBÿ , denn für jede
y
ì Wert bzw. ÿ auf
gibt es in H‡¸ sowohl die entsprechende Abbildung mit
. Damit erhält man
òôó
±
ç
RH
éê ë
d
[¼»
~
þ
{
ÿ
½
+
d
é ê9ë õ
[8»
~
þ
{
ÿ
½
a
éê ë
d
~
[¼» {½
5
<
Eine analoge Abschätzung ist für Funktionenklassen möglich. Man ersetzt die VC Dimension
dann durch die Pseudodimension.
ò
ò o
Â
êQÃ
ê<ò ç
¿
±
¾ RH
Satz 4.10ï Sei H eine Funktionenklasse
mit
der
Pseudodimension
und
òôó
q
ç ò
q
ç ç
K
À
þÁ
ýT{ÿ
þ,Ä
der
verschiedenen
Funktionen
in
H
H
a~
ç
ç
d
~
. Dann ist ±¿¾ RH
e .
ê<ò
sei
Anzahl
Z die
=
HSM . Sei
Beweis: Dieses folgt sofort, wenn man die durch die VC Dimension gegebene Schranke für die
Überdeckungszahl obiger Konzeptklasse anwendet.
<
Man kann also die Anzahl der Konzepte anhand der VC Dimension abshätzen. Bemerkenswert ist,
daß diese a priori exponentiell wachsende Zahl nur noch polynomiell wächst, sobald die Anzahl
der Punkte die VC Dimension überschritten hat und Auswendiglernen auf den Daten nicht mehr
möglich ist. Dieses Resultat soll jetzt zur Abschätzung der Überdeckungszahl dienen.
Neuronale Netze, WS 99/00
55
ò
Satz 4.11 Es ist
G
ç
RHIA
wobei die VC bzw. Pseudodimension von H
ó
»
e 021
e
d
½
darstellt.
ò
ò
Beweis:
Wieder steht hier nur eine Idee, einige Rechnungen werden weggelassen. Sei Å eine
ò
ç
ç
ç
þ
maximale
-separierte
Menge in H . Für festes und Á sei genau wie eben ±¿¾ RH a K H
- =
Á
H$M . Es ist
ò~ò
] ç ç
ï
ò
òǹ
ò
ò¿È
ò
]j ¾ ç ±¿ ¾ = RH ò ç ç ò˹
ç ò¿È
= ò
ò ç
a H
H
¾ K
Å
þÆÁ
‘
þ!Á
‘
ŔÉLK MM
ˆ j XeÊ æ ç ç ç
òŒò
a
a H ç ‘ ç ò þÁ ò ‘ = ŔÉLK ò M
H
þÁ
ˆ g XeÊ
ç ç
æ
ç z
=
a
a H ç ‘ ç þ!Á
ÿ¢þ
‘
ŔÉLK M H
þ!Á
g
ê
ê
Da sich alle Funktionen in Å um unterscheiden, ist die Wahrscheinlichkeit, eine Komponente
Wert
von ò und òŒ‘ ò auf einem
Ä zwischen dem
ò
ò
zufälligen ò ó zu erwischen, mindestensæ ç .z Bei
=
y
y
zufälligem
Ziehen von Á und und festem ergibt
sich also
die
Wahrscheinlichkeit
‘
ç
ç ç
ç
ç
a H ‘
als
Å e õ % , da ja alle Komponenten
þÁ
þÁ
ŔÉLK M H
maximal Å ÿ þ
von Á nicht zwischen dem Wert von undòŒòô
einem
‘ liegen dürfen.
Insgesamt kann man daher
ó
ò
y
abschätzen
] ç ç
ç
¾ ±¿¾ RH
Å ÿ¢þ Å e õ %
j
5
In diese Ungleichung setzt man
ˆ jetzt für die linke Seite die durch die VC bzw. Pseudodimension gegebene Abschätzung
für die Funktion ± ein. Eine längere Rechnung ergibt dann eine obere
Schranke für Å , d.h. die Größe jeder -separierten Menge, und damit auch eine obere Schranke
für die Überdeckungszahl.
<
ò
æ
Da diese Abschätzung
gilt, ist sie insbesondere für die empirische
für jede Wahrscheinlichkeit
ç Erwartung G
RH
für jedes korrekt. Das heißt also, daß eine endliche VC bzw. Pseudodiè
mension sowohl die UCED Eigenschaft als auch PAC Lernbarkeit unabhängig von der jeweiligen
Verteilung garantiert. Aufgrund der fundamentalen Bedeutung dieses Ergebnis rechnen wir die
sich aus obigen Sätzen ergebende Schranke explizit aus: Für eine Funktionenklasse mit Pseudodimension bzw. eine Konzeptklasse mit VC Dimension gilt
mit der Wahrscheinlichkeit ÿôþÌ. für
æ
beliebige Verteilungen und Funktionen bzw. Konzepte und beliebige Lernalgorithmen U
ò~ò
ò
ò
ó
Ÿ
ç
ç
021
ç
ç
e 0‚1
e + 021
½
lU
þ
lU
» " » ½
.
5
è
è
è
Folgender Satz zeigt, daß eine endliche VC Dimension sogar notwendig für verteilungsunabhängige PAC Lernbarkeit ist.
ó
Satz 4.12 Sei die VC Dimension der Konzeptklasse
H gleich . Dann gibt es eine Verteilung
ò ï
[RÍ Î
so daß für alle
P ç d
5 w
#HI
eûŒú õ÷û|% ü ø
æ
,
gilt.
Beweis: Auf einer Menge von Punkten , die geshattert werden, betrachtet man die Gleichveræ
teilung . Der Abstand zwischen zwei Funktionen ist dann genau durch ÿ multipliziert mit der
¶
Anzahl der Punkte aus , auf denen sich die Funktionen unterscheiden,
µ d gegeben. Die Funktionen,
J
die sich weniger als unterscheiden, können durch die Zahl
abgeschätzt werden. Die
d
k û|%
B. Hammer
56
Anzahl der übriggebliebenen Funktionen kann man mithilfe der sogenannten Chernoff-Okamoto
<
Ungleichung aus der Statistik gegen die gewünschte Größe abschätzen.
Damit erhält man die frappierende Konsequenz, daß die VC Dimesnion verteilungsunabhängige
PAC Lernbarkeit äquivalent charakterisiert und man die verteilungsunabhängige UCED Eigenschaft frei Haus bekommt. Für Funktionenklassen ist die Situation aufgrund von Kodierungstricks
etwas komplizierter. Auch hier kann es Funktionenklassen mit undendlicher fat shattering Dimension geben, die lernbar sind. Allerdings ist dieses bei verrauschten Daten unterbunden und die
UCED Eigenschaft wird äquivalent durch endliche fat shattering Dimension charakterisiert. Genauer konnte in [Alon et.al.] eine Verallgemeinerung von Sauers Lemma für mehrwertige FunkòŒò
tionenklassen und die fat shattering Dimension erzielt werden. Die Ungleichung
Ÿ
ò ó
0‚1 ç "$ ç "
e
ŠR‹TŒ
ç ½
G
#H
» è
û
Ÿ
j
mit als der fat shattering Dimension zum Parameter
erlaubt, die Distanz des empirischen
und tatsächlichen Fehlers auch gegen die fat shattering Dimension abzuschätzen. In [Alon et.al.]
wird zudem gezeigt, daß einerseits endliche fat shattering Dimesnion eine notwendige Bedingung
für die verteilungsunabhängige UCED Eigenschaft ist, es aber andererseits Funktionenklassen mit
Ë
unendlicher Pseudodimension, aber für jedes
endlicher fat shattering Dimension zum Para
meter gibt.
Die hier hergeleiteten Begriffe sind ausreichend, die Situation, daß man eine feste Architektur
trainiert, zu modellieren. Berücksichtigt man allerdings den Prozeß der Architekturauswahl mit,
dann hat man es a priori mit einer Funktionenklasse mit unendlicher Kapazität zu tun: Man wählt
ein Netz aus der Klasse aller Netze aus, die, wie wir gesehen haben, approximationsvollständig ist.
Um diese allgemeinere Situation zu modellieren, kann man das sogenannte Luckiness Framework
anwenden: Man bewertet je Trainingslauf a posteriori, wie gut denn das jeweilige Ergebnis ist, d.h.
etwa wie groß die konkrete Netzarchitektur bzw. die Kapazität derselbigen geworden ist. Es wird
also gemessen, wie
˜ê glücklich der konkrete Tainingsverlauf gewesen ist. Dieses Maß darf dabei
durchaus auch von den konkreten Trainingsdaten abhängen. Zusätzlich wählt man a priori Wahrscheinlichkeiten , die sich zu ÿ summieren und je angeben, wie sehr man mit diesem glücklichen
Verlauf gerechnet hat. Schließlich erhält man für die Abweichung des empirischen vom tatsächlichen Fehler dieselben Schranken, die man auch bisher in einer (a priori) entsprechend glücklichen
Situation erhalten hätte – einzige Änderung: Sie sind um einen der a priori Wahrscheinlichkeit
entsprechenden Term ergänzt. Für eine exakte Ausführung sei auf [Shawe-Taylor et.al., Hammer]
verwiesen.
4.2
Anwendung für feedforward Netze
Um die Resultate auf Neuronale Netze anwenden zu können, fehlen als erstes Abschätzungen für
die VC bzw. Pseudodimension realistischer Netze. Sofern gute Schranken für die Pseudodimension existieren, können diese auch als obere Schranken für die fat shattering Dimension benutzt
werden. Sobald diese aber etabliert sind, kann man den Generalisierungsfehler jeder trainierten Architektur anhand des Trainingsfehlers abschätzen. Insbesondere ist dann gewährleistet, daß überhaupt je der Testfehler, der ja üblicherweise zur Schätzung des Generalisierungsfehlers verwandt
wird, gegen geht. Von der Idee her sollen die Schranken sogar das Betrachten eines Testfehlers
überflüssig machen, da ja der Generalisierungsfehler durch den empirischen Fehler und das durch
ò~òôó Risiko beschränkt
ò ist,
ò formal:
die VC Schranken abschätzbare strukturelle
ç
ç
ç
ç
+ U
lU
R‘
è
ˆ
è
ˆ
è
Neuronale Netze, WS 99/00
57
mit Wahrscheinlichlkeit . und dem sich aus dem letzten Abschnitt ergebendem strukturellen Risiko
. Allerdings sind die Schranken für im Allgemeinen schlechter, als es eine Abschätzung durch
den Testfehler wäre, insbesondere, da hier ja ein worst case Szenario betrachtet wird. Daher ist
durchaus ein Betrachten des Testfehlers angemessen.
Wie fangen, wie sollte es auch anders sein, mit einem einfachen Perzeptron an.
+
Satz 4.13 Ein Perzeptron mit Eingabedimension ~ besitzt die VC Dimension ~
ÿ .
y
+
+
~
~
ÿ , denn man kann jede
ÿ Punkte im Ï
Beweis: Die VC Dimension ist mindestens
in
y
allgemeiner Lage shattern. Dabei bedeutet der Term in allgemeiner
Lage‘ genau, was man sich
’
darunter vorstellt: Die Punkte liegen in typischer Situation im Ï , d.h. keine ~ + Punkte liegen schon
ÿ Punkten genau,
auf einer ~ þ ÿ dimensionalen Hyperebene. Algebraisch bedeutet das bei ~
ì
ì
daß für die Determinante der erweiterten Matrix
¹
NZNZN y 9
½ a det »
NZNZN ÿ
ÿ
ê
gilt (die Punkte sind affin unabhängig). Möchte man die Punkte jetzt beliebig nach KT{ÿM abbilden,
=
dann wählt man Ð
K>þ ÿ{ÿJM entsprechendì der gewünschten
Ausgabe und löst das Gleichungssyì
stem
ÑcÒ
NZNZN y 9
½ a `Q
» ÿ
NZNZN ÿ
Ñ
ì
um die Gewichte
(Bias als On-Neuron) zu erhalten.
ê
ò~òê
"
Ñ
Ñ êÒ
Ñ ê Dann gibt es Seien umgekehrt
Punkte , . . . ,
, die geshattert
werden, gegeben.
è
ç
ç
è
Gewichte
(inklusive
Bias),
so
daß
der
Vektor
{ÿ
für
geeignetes
beliebige
Vorzei{
ê
ò
"
Ñ êÒ Die Werte
chen
hat.
für
variierendes
und ) seien in eine èÔÓ
-Matrix Õ geschrieben, d.h.
a
ç ì
Ñ
Ò
Õ
{ÿ
oder
ì
ÙxÚ
.
a
Ø
×
Ö
Ñ ..Ò Û »
½
Õ
5e5e5
è
ÿ
ÿ
5
_
¹
5e5e5
û
Falls diese Matrix keinen vollen Rang hätte, gäbe es einen Vektor ` aÝÜ in Ï è , so daß ÕÞ` a gilt. Es gibt aber unter den Zeilen der Matriz Õ eine Zeile, deren Komponenten dasselbe Vorzeichen wie
die Koeffizienten in ` haben, d.h. multipliziert man diese Zeile mit ` , erhält man
ì
"
garantiert
einen
positiven
Term. Widerspruch. Daher hat die Matrix also vollen Rang , d.h.
ó
½ hat ebenfalls mindestens den Rang " . Aufgrund der Dimension folgt
aber
5e5e5
» ÿ
è
ÿ
"
~ + ÿ . 5e5e5
<
Als Konsequenz benötigt man für eine gute Generalisierungsleistung eines Perzeptrons eine Anzahl von Beispielen, die linear mit der Eingabedimension wächst. Die Generalisierungsleistung ist
dann aber auch unabhängig von der konkreten Verteilung – es gibt natürlich spezielle Verteilungen, wo die Generalisierungsleistung besser ist, etwa wenn nur ein Teilraum des Eingaberaumes
benötigt wird. Als unmittelbare Folgerung erhält man eine Schranke für die Pseudodimension
eines sigmoiden Neurons:
+
~ die EingaSatz 4.14 Die Pseudodimension eines einzelnen sigmoiden Neurons ist ~
ÿ , wenn
bedimension darstellt.
+
Beweis: Offensichtlich ist die Pseudodimension wenigstens ~ ÿ , da man ja Perzeptronen approximieren kann. Um eine obere Schranke zu erhalten, beachte man, daß bei der Pseudodimension
58
ò
ï
ï
ì
B. Hammer
ò
ç
ç
° ßcà
statt mit mit Referenzwerten ° verglichen wird. Es ist sgd
sgd õ ° , day des sigmoiden Neuronsì auch die Pseudodimension des
ì
her kann man statt der Pseudodimension
o
ìŒò
ò
y 9
ì
Raumes der affinen Abbildungen y im
gleich der Pseudodimensi9 Ï betrachten. Diese ist maximal
œ
ç
ç
"
a K
y 9
on der linearen Abbildungen in Ï
. + Für
feste
Punkte
im
hat
Ï
á
ê
5e5x5
è
ist linear M maximal
die Dimension ~
die
ÿ , da der lineare Vektorraum der Funktionen auf Ï
+
~
Dimension
geshattert werden, gibt es also einen Vektor â , so daß der
ÿ hat. Falls die Punkte
um diesen Vektor verschobene Raum á alle Orthanten des Ï è trifft. Es gibt aber keinen weniger
"
als -dimensionalen Raum, der das tut. Für den
Nullvektor â wurde das oben schon gezeigt. Ist â
+
Ü
nicht , dann bezeichne ` einen zum Raum â á orthogonalen Vektor ungleich Ü , der auf einer zu
·
á senkrechten Gerade durch den Ursprung mit Richtung
auf
+ zum Ursprung liegt. â sei der Vektor
+
á hat. Es gibt keinen Vektor in â
á , der
dieserï Gerade durch den Ursprung, der die Spitze in â
`
dieselben Vorzeichen wie ` hat. ò Denn für so einen Vektor würde
das
Skalarprodukt
mit
einen
· + Ò
Ò
liefern, allerdings + kann man so einen Vektor als â
Wert
mit einem zu ` orthogonalen
·
ç ·
a
Vektor schreiben mit ` â
` â
.
<
Allerdings sind nicht alle Aktivierungsfunktionen so zahm, wie es sich die Perzeptronaktivierung
oder die sigmoide Funktion und damit auch der hyperbolische Tangens oder andere im Wesentlichen äquivalente
Aktivierungen erwiesen haben. Wie wir schon gesehen haben, erlaubt die
Š
Funktion ã
ä , beliebige rational unabhängige Punkte auf der Zahlengerade auf ein gewünschtes
Vorzeichen abzubilden. Man erhält
Š
Satz 4.15 Die Pseudodimension eines Neurons mit der Aktivierungsfunktion ã
ä ist unendlich.
Dasselbe gilt für die fat shattering Dimension zu Parametern kleiner als .
5:w
Solche Netze sind also unter realistischen Bedingungen nicht zum Lernen geeignet, da zumindest
bei einigen Pattern und unbeschränkten Gewichten Auswendiglernen möglich ist.
Wir wenden uns jetzt größeren Architekturen zu. Für feedforward Netze mit der Perzeptronaktivierung kann man die VC Dimension ebenfalls abschätzen.
Satz 4.16 Die VC Dimension eines feedforward Netzes mit der Perzeptron Aktivierungsfunktion
0 O
und å Gewichten ist von der Ordnung å ä å .
Beweis: [Maass, Sakurai] haben Netze mit å Gewichten und einer VC Dimension der angegebenen Ordnung konstruiert. Maass betrachtet dabei Netze beliebiger Tiefe mit mindestens zwei
verborgenen Schichten, Sakurai betrachtet Netze mit einer
verborgenen Schicht.
ê
ê
Eine obere Schranke kann mit den hier schon bewiesenen
Mitteln hergeleitet werden: Jedes
einzelne Neuron des Netzes berechnet eine Funktion auf einem Raum der Dimension ~ , die
ì
durch die Anzahl der Vorgängerneuronen
gegeben ist. Die Anzahl der verschiedenen
Abbildunê
ò~ò
ê
"
y 9 auf verschiedenen Eingaben berechnen kann, ist nach Sauers
gen, die so ein einzelnes+ Neuron
ç "$ ç
~ ì
Lemma durch
e
gegeben.
Ordnet
man
die
Neuronen
so
an,
daß
nur Vorgänger
ÿ
D
ì
òŒò
{
"
yJæ ÿ 9 , . . . , þ ÿ hat, dann findet
ì
unter den Neuronen
man bei Eingaben also bzgl. dem ersten Neu+
ò~ò
ç "$ ç
"
~
y 9
ron e
verschiedene
Abbildungen,
für jede Menge der sich ergebenden Werte
ÿ
+
ç
ç
"$ ~
für das Neuron wieder e
ÿ
verschiedene Abbildungen, . . . . Das gesamte Netz
ø
û
"
berechnet also auf verschiedenen Eingaben maximal ì
y 9
ê "
ç ê
,
D
e
½
» ~ +
ÿ
òFè
ò è
ç
"$ó verschiedene Funktionen. Das kann durch G e å
nach oben abgeschätzt werden. Es kann
ç
"
"$
G e å
maximal eine Menge der Kardinalität mit è
geshattert werden. Dieses ergibt
Neuronale Netze, WS 99/00
ó
die obere Schranke
"
å
59
ò
0 O ç
ä eG
.
<
[Bartlett et.al.] haben gezeigt, daß sich die Ordnung auf die Ordnung å verbessern läßt, falls
man die maximale Tiefe der Netze beschränkt. Bei realistischerweise maximal zwei bis drei hidden layern gilt also auch die Daumenregel, daß die Anzahl der Beispiele linear mit der Anzahl
der Gewichte wachsen sollte. Verbesserungen sind möglich, falls die Gewichte sehr klein gehalten werden oder die Eingaben nur aus einem endlichen Alphabet stammen. Auch hier gibt es in
Spezialfällen mitunter bessere Schranken [Bartlett et.al.].
In der Praxis verwendet man differenzierbare Aktivierungsfunktionen wie die sigmoide Aktivierung oder auch, der Effizienz wegen, stückweise lineare˜ Näherungen
derselben. Für
ò
˜ feeforward
Netze mit stückweise polynomieller Aktivierung erhält man eine Schranke, indem man die Netzç
für Polynome schreibt, die
funktion als Boolesche Formel in Ausdrücken der Form
unter anderem die Gewichtsvektoren als Parameter besitzen, und die Anzahl der verschiedenen
möglichen Wahrheitswertbelegungen abschätzt, wenn man die Gewichte variiert. Dieses ergibt
eine Schranke für die Pseudodimension.
ï
G einzustellenden Gewichten (die evtl.
Satz 4.17 Sei ein feedforward Netz mit G Neuronen, å
é , stückweise polynomiellen Aktivierungsfunka priori festen Gewichte werden
gezählt),ò~òŒTiefe
ò
è nicht
ò
Ò
/
tionen mit je maximal ê Stücken
und+ maximalem Grad gegeben. Dann ist die Pseudodimension
+
0 O ç ç
ç
ç
a
ÿ ê
é þ`ÿ
Û
maximal å ä
e å
ò
òŒò
ò
ò
û
Ò
/
+ 0 O ç + ç
+ 0 O ç
+
+
0 O
ç 0 O
ç
å
ä
e
ä
é þ`ÿ
Û
ä
å
ÿ
å
ä
ê
û
û
û
û
5
ò
Ò konkrete Eingabe des Netzes berechnet sich die Ausgabe als Polynom vom
Beweis: Für jede
+ ç
é þ'ÿ in den Gewichten(!), denn in jeder Schicht wird der bisherige Ausdruck
m
Grad maximal mit ë multipliziert und von diesem Wert die Aktivierungsfunktion mit maximalem Grad berechnet. Betrachtet man die verschiedenen Bereiche der Aktivierungsfunktionen, dann erhält man bei
Für eine konkrete
variierenden Eingaben und Gewichten
maximal êì verschiedene Polynome.
ò
˜
ò
° kann man das Vorzeichen der Netzausgabe
Ñ verglichen
Eingabe
und
Referenzvektor
mit ° als
˜
ó
ò
ç
ç +
°
Ñ
Ò
Boolesche Formel in G
verschiedenen
Ausdrücken
der Form
ÿ ê ì
formulieren,
+ ç
wobei ein Polynom vom Grad é þÿ in ist: Die Ausgabe berechnet sich, wie oben
t
gesagt, als eines von ê ì möglichen Polynomen (° subtrahiert); welches dieser Polynome auf die
ì
Eingaben und Gewichte zutrifft,
testet man, indem man den Bereich jeder einzelnen Aktivierung
ì
jedes Neurons testet. Dessen
Aktivierung berechnet sich ebenfalls je nach Vorgängeraktivierungen
o
ò
als eines von maximal ê ì õ möglichen Polynomen. Man führt also zur Bestimmung der + Ausga
ç
ÿ ê ì
also maximal í a ê G
be maximal ê N ê ì õ ê N G Vergleiche durch. Insgesamt treten
ê
Ñ ò Eleverschiedene Ausdrücke { in der Booleschen
Formel
auf.
Wie
nummerieren
die
Booleschen
ç °
ì
ê
lí , das in der Formel î vertretene Polynom sei
mentarausdrücke mit î , a ÿ
.
5e5e5 Ñ °
Man nimmt jetzt an, die ê Punkte
, ...,
seien mit Referenzwerten ê geshattert. Dann
òŒò8ê
è
findet man mindestens è Gewichte
,
so
daß
die
sich ergebenden Vektoren in KL{ÿMï è mit den
ç
ç Ñ
Wahrheitswertbelegungen î
, die das Vorzeichen der Netzausgabe auf eindeutig charakterisieren, für unterschiedliche verschieden sind. Die Anzahl der möglichen Wahrheitswertbelegungen läßt sich abschätzen gegen die Anzahl der möglichen Vorzeichenwechsel der beteiligten
Ñ
Polynome: Eine Wahrheitswertbelegung ist höchstens
verschieden, wennò wenigstens eines
è dann
Ñ
Ñ
der auftretenden Polynome für verschiedene unterschiedliches
Es muß also
ez xz—Vorzeichen
mð ç ° besitzt.
a
die Anzahl der Zusammenhangskomponenten von Ï
ÉLK
LM beschränkt
werden, denn innerhalb dieser Komponenten ist der die Wahrheitswertbelegungen bestimmende
Vektor konstant. Man braucht hier eigentlich noch ein Argument dafür, daß man im Fall eines
Polynoms exakt gleich auch analoge Situationen mit echt positivem bzw. negativem Vorzeichen
60
B. Hammer
findet. Dieses folgt aus formalen Gründen. Etwa in è[Warren] ist die Zahl der ZusammenhangsŸ
komponenten durch die Größe
·
"
e ím
½
» ò
ò è
ï
å
Ò
Ÿ

·
· a ò + ç
ç
"
mit dem Grad der Polynome Ÿ é þÿ abgeschätzt. Der Ansatz e íZ å
führt
è
0 O ç
·
"
zur Schranke
å
ä
ò
òŒòŒò
e íZ oder
Ò
û
/
+ ç
0 O ç ç +
ç
"
å
ä
e G
ÿ ê ì
é þ ÿ
Û
û
5
<
Betrachtet man allerdings die sigmoide Aktivierungsfunktion, dann steht man vor zwei Problemen: Eine Komposition der Netzfunktionen führt zu einem nicht mehr handhabbarem Ausdruck,
und man benötigt Schranken für Nullstellenmengen von Funktionen, die auch die Exponentialfunktion beinhalten. Dem ersten Problem kann man durch Einführen neuer Variablen, die die
Aktivierung der Neuronen repräsentieren, begegnen. Mit einem etwas komplizierterem differentialgeometrischen Ansatz kann man dann auch hier die Anzahl der Zusammenhangskomponenten
bestimmen. Ein Beweis für den sigmoiden Fall wurde von [Karpinski, Macintyre] gefunden.
Satz 4.18 Sei ein feedforward Netz mit G Neuronen, å einstellbaren Gewichten und der standard sigmoiden Aktivierungsfunktion gegeben. Dannò ist die Pseudodimension maximal von der
ñ
Ordnung
ç
å û G û
&
5
Interessant ist dabei, daß durchaus nicht alle Funktionen, die der Sigmoide ähnlich sehen, sich
auch so schön verhalten. Der wichtige Punkt ist, daß sich die Nullstellenmengen der Funktionen schön verhalten, d.h. die Anzahl der Zusammenhangskomponenten des Komplements endlich
ist. Insbesondere ist genau dieses für den Cosinus nicht der Fall. Es gibt Funktionen, wo dieses
Verhalten nicht so offensichtlich
ist, wieò beim Cosinus.
Etwa die Funktion
ò
ò
ò~ò
Š ç ç ç + +
ò ç a
ç
+
±
ãxä
ÿZ
ÿ
û
ÿ
arctan
sieht der sigmoiden Funktion sehr ähnlich und hat auch schöne Eigenschaften, sie ist etwa analytisch und unendlich häufig differenzierbar, sie ist eine squashing Funktion, d.h. monoton mit
Limites bzw. ÿ . ò Aber es gilt:
ò
ç
Satz 4.19 ÿ {ÿ feedforward Netze mit der Aktivierungsfunktion haben eine unendliche Pseuò
ò
ò
ò~ò
dodimension.
Š ç ç ç +
ò ç + ò ç þ‡é
þÿ ergibt ãxä
é
ÿ
é û û . Der Nenner
Beweis: Die Linearkombination é
w
dieses Ausdrucks ist positiv, daher kann man für beliebige rational unabhängige Eingaben Werte
é finden, die diese Werte auf Zahlen mit
beliebig
wählbarem
Vorzeichen abbilden. Wäre also in der
ò
òŒò
òŒò
Ausgabe die Identität, dann könnte
man dieses
Eingaben shattern. Die Identität kann
aberò~ò durch
ò
ò ç
$ó ç ò ç ç ò z· ç
þ
den Differenzenquotienten
für kleines beliebig gut
angenähert
werò ç ç ò y· ç
den. D.h. Skalierung der Ausgabegewichte und Vergleich mit der Referenz þ
führt
für kleines zum selben Ergebnis.
<
Das heißt: Eine auch durchaus auf den ersten Blick nicht sichtbare Oszillation in der Aktivierungsfunktion kann Lernen verhindern.
Interessant sind natürlich auch hier untere Schranken für die Kapazität, da man zumindest
unter realistischen Bedingungen in einigen Situationen eine durch diese Kapazität nach unten beschränkte Anzahl an Beispielen für die Generalisierungsfähigkeit benötigt. Etwa für die sigmoide
Neuronale Netze, WS 99/00
61
Aktivierung kann man dieselben unteren Schranken wie für die Perzeptronaktivierung erhalten, da
ja die Perzeptronaktivierung durch die Sigmoide approximiert werden kann. Eine bessere, aber
von der oberen Schranke noch weit entfernte Schranke, findet sich in [Koiran, Sontag]:
Satz 4.20 Die fat shattering Dimension von sigmoiden Netzen mit å
ist mindestens von der Ordnung å û .
veränderbaren Gewichten
ì
ê
ê
Beweis:
Es wird ê ein Netzê mit zwei
Eingabeneuronen
betrachtet.
Die Punkte, die geshattert werò
ì
~
Ñden, sindÑ die
Ñ
y Punkte
der Punkte nach KL{ÿM seien Gewichte
K>ÿ
M û . Für eine
ç Abbildung
{
y
a ë 5e5x5
, ...,
mit
ë ,ë a
|) gewählt. { å ist der Gesamtvektor der Gewichte.
{
5
5x5e5
Es geht jetzt also darum, mit einem Netz bei Eingabe von und ) die entsprechende Stelle im ten
Gewicht zu berechnen. ì
ì
ê
ê
ì
y
ò
ò
ò
Sei
Ñ
Ñ
Ñ
è
é
ê
ë
ç
+
{š+
ç
ç
Ð a
þì
õ
HÐ þ
ì
ò
ó
ó
5hw 5
Ñ û
ò
ç
~ .
) a
)
Offensichtlich
gilt
für ÿ
kann mit einem Netz
mitò ~ þBÿ ì Perzeptronneuò
+
ì
ò
ç
Ñ ~
Ñ
ronen,
þ
ÿ
ÿ Gewichten und einem linearen Neuron berechnet werden.
ç
ì
êç
ê
ì
y aò ç
y
berechne die
. Eine
ë
Aë
û
Ziffern der Koeffizienten inç , d.h. û 5 ë 9 5e5e5 ë
y
5eê 5x5 ì
ê
ì
ê
ì
ò
ê
ê
ì
Netzkonstruktion für û ist induktiv möglich: Aus ë
erhält man
Aë ë
ë
5e5xy 5
5
5e5e5
y
y
9 aõô ç
9
9
9
9
ë
ë
ë þ! ÿ
ë
ë a ÿZ N ë
ë þÆë
Ÿ 5
û 5e5e5
5
5e5e5
5
5
5
5e5e5
~
~
Insgesamt ergibt
dieses ein Netz mit Perzeptronneuronen, linearen Neuronen und ~ Gewichò
Ñ
Ñ
ten. ç
berechnet die te Komponente
von . Als Netz ist das etwa
•
y
ì
ê
ò
ê
ì
òŒò
Ñ ò
é
ê
ë
ç
{
{
ç
ç
ç
a ë +
•
ë H þ
þ
þÆë
H þ
þ
õ
5hw
5hw
ò
û
ò
+ ò
ç
=
KTHÿM durch H >
@ þB
ÿ
wobei man jedes Ÿ Produkt >@ für >—@
ersetzen
kann.
• besitzt ein
+ ~ 5hw
ç
ç ~ì
~
þ
ÿ
þŠÿ
lineares Neuron,
Perzeptronneuronen
und ÿ
Gewichte.
òöÃ
òŒòŒò
è
Das Netz
q ç ç ç
ç
RÐ
•
û
Ð
+ shattert also die angegebenen Zahlen bei geeigneter Wahl von å und besitzt ~
lineare Neuro
nen, “ ~ þ
Perzeptronneuronen und ÿZ÷ ~ þWÿ Gewichte. Man kann die die Perzeptronaktivierung
w
beliebig gut mit der sigmoiden Aktivierung annähern, die lineare Aktivierung beliebig gut mit dem
Differenzenquotienten (der zusätzliche Term kann jeweils zum Bias folgender Neuronen gezählt
werden), und erhält so ein sigmoides Netz, das dieselben Eingaben mit jeder Genauigkeit 5hw
shattert.
<
Diese Ergebnisse etablieren zusammengenommen die prinzipielle Lernbarkeit einer festen neuronalen feedforward Architektur, wie sie in der Praxis vorkommt. Allerdings sind die konkreten
Schranken in realistischen Fällen häufig sehr konservativ, da ja der – in der Regel nicht vorkomende – schlechteste Fall mit abgeschätzt wird. Nichtsdestotrotz sind die nachgewiesenen
Ergebnisse
Š
prinzipiell beruhigend, sagen sie doch, daß im Gegensatz etwa zum ã
ä realistische Netze sich
prinzipiell gut verhalten.
Es soll hier noch eine Abschätzung folgen, die zu einem konkreten alternativen Lernverfahren, der Support Vektor Maschine geführt hat. Die VC Dimension eines Perzeptrons wächst bei
wachsender Eingabedimension. Das ist allerdings nicht der Fall, wenn man sich auf bestimmte
Perzeptronen beschränkt, die die Daten nicht irgendwie, sondern mit einem gewissen Mindestabstand zur Trenngerade trennen.
62
B. Hammer
ó
y
=
›
Satz 4.21 Sei H die Menge der linearen Funktionen von K
Ï
M nach Ï , so daß der
Gewichtsvektor maximal die Länge Õ hat. Dann ist die fat shattering Dimension zum Parameter
maximal
›
û Õ û
5
û
[
ø
Beweis: Sei die endliche Menge ø geshattert mit Parameter
.
Dann
gilt
für
jede
Teilmenge
ï
in ø :
é
é
ø
Õ
XZù-ú þ XeùJû|ù-ú
5 ê
ì
¸
¸
Ñ
{
ê
ê¸ï
ê
ê
a
Um dieses
zu
zeigen,
sei
durch
die
Parameter
geshattert,
je
nach
gewünschø
K
M
ê
ê
XZù-ú °
XZùû|ù
ú °
5e5eêü
5 ¹ è
° . Falls Ñ
ter Abbildung
in
K
T
{ÿM è , Referenzvektoren seien
sei @ a ÿ ,
¸
¸
[
[
ê
êQ¹
ê ï
ê
ê ó=
ê
=
D
D
Ñ Ò
Ñ Ò
falls
ø , und @ a , falls
ø . Es gelten dann für dieses
die Ungleichungen:
C
° + falls = ø [ und ° þ falls = ø [ , also
ï
ê
C
C Ò
Ñý
é
é
ê
° +³ ø [ XZù-ú
XZù-ú
C ¸
5
¸
D
ó
ê
ÑýÒ
Analog folgt
é
é
ê
° þ ø”Éø [ ú
ú
Z
X
ù
|
û
ù
e
X
ù
|
û
ù
C ¸
5
¸
D
Also gilt
Ù ï
ÑýÒ
é
é
Ø
Ö Xeù ú þ XZùû|ù ú Û
ø
C ¸
5
ó
¸
Mit ë
Õ und der Cauchy-Schwartzschen Ungleichung
erhält man
ï
A ø
Õ
5
¸
¸ ê
êÜó
ê
ê ¹
þ
ê
ê
[
[
XZù ú °
XeùJû|ù ú °
a ÿ , falls = ø , und @ a , falls = ø , und
Falls ¸
wählt
man
@
¸
ì
D
D
erhält mit einem analogen Argument dieselbe Abschätzung.
[‡ÿ
›
d M von
Ferner gibt es für alle Menge ø a K
Punkten
maximal
der
Länge
ein
ø
ø
ó
5e5e5
mit
é
é
›
ø
Xeù
ú þ XZùû|ù
ú
5
¸
¸
é
Xeù
ú
é
Xeùû|ù
ú
þ
ê
ê
=
d
Um dieses
sei
@
K>þ ÿ{ÿJM zufällig gezogen. Dann gilt für die ebenfalls zufällige
[ zu zeigen,
=
Menge ø a K
ø @ a ÿM die Rechnung
Ù
ê ê
d ì
é
é
é
ê
í
ë
Ø a
Ö
û
@
XZù-ú þ Xeùû|ù
ú û Û
¸
¸
ê
ê
ê
ê
ˆ
ˆ d
¶
Ò ò
é ê ëíì
é ë#ê
µ
+
ç
a
@ @
@
û
a
ê ˆ ê
¶
µ û
@
d
é ê ëíì
ó
› ˆ
ø
û
5
ˆ
Neuronale Netze, WS 99/00
ê
63
ê
êzò
ò
ê
ê
Ò ò
Ò @ unabhängig mit Erwartungswert gezogen werden.
Diese vorletzte Gleichung
folgt,
da
die
ç
a
ç
ç a
Daher ist
@ @
@
@
. Mit dem Erwartungswert muß auch[ mindestens
eine Ausprägung kleiner als die angegebene Größe sein. Dieses liefert das gesuchte ø .
ˆ
ˆ
ˆ
Kombiniert man die beiden Ungleichungen, dann erhält man
ó
ó
›
› à ø
û Õ û
ø
ø
û
Õ
5
û
<
Beschränkt man sich bei gegebenen Daten also auf die Perzeptronen, die Gewichtsbeschränkung Õ
und Minimalgüte haben, dann ist die VC-Dimension nicht gleich der Eingabedimension, sondern
durch obigen Term gegeben, der bei hochdimensionalen Daten mitunter wesentlich kleiner sein
kann. Statt der Gewichtsbeschränkung
und der Mindestgüte kann man auch einen Abstand der
ò
©
Ñ
Trennhyperebenen von den Daten von mindestens a Õ
verlangen. Der Abstand eines Punktes
ò
ç
von der durch
gegebenen Hyperebene berechnet sich nämlich wie folgt: Der Punkt auf
der Hyperebene, der auf dem Schnittpunkt mit derÑ durch laufenden Normalen liegt, ist
Ò
ò
Ñ
Ñþ Ò Ñ
+
5
Der Abstand von zur Geraden berechnet
Ñ Ò sich also als ï
ò
Ñ
Ñþ Ò Ñ
a Ñ
ÕÝ5
Fazit: Trennt eine Hyperebene die Daten mit einem gewissen Mindestabstand, dann ist die Generalisierung umso besser, je größer dieser Abstand ist. Die Generalisierung skaliert dann nicht mit
der Eingabedimension.
Dieses ist allerdings mathematisch nicht korrekt, da man ja seine betrachtete Funktionenklasse wählen muß, bevor man Daten sieht. Der Abstand wird allerdings im Hinblick auf die Daten
gemessen und festgesetzt. Formal muß man zu einer exakten Begründung der verbesserten Lernbarkeit bei großem Abstand zu den Daten das schon erwähnte Luckiness-Framework heranziehen.
Dieses erlaubt in diesem Fall, a posteriori den Ausgang des Lernens auch in Bezug auf die konkreten Daten zu beurteilen und die dann resultierenden Schranken (ergänzt um a priori Wahrscheinlichkeiten) anzuwenden. In obigem Fall führt das zu um konstante Faktoren erweiterte Schranken
für die Lernbarkeit, die statt der Eingabedimension den Abstand zur Geraden und den Betrag der
Eingaben verwendet.
4.3
Support Vektor Maschine
Die Tatsache, daß die VC Dimension eines Perzeptrons mit Abstand zu den Daten wesentlich
besser und insbesondere unabhängig von der Eingabedimension sein kann, hat Vapnik
zu einer zu
o
feedforward Netzen alternativen Lernmethodik inspiriert: Der Support Vektor Maschine
q (SVM).
Ï è
KT{ÿJM
Wir betrachten hier die SVM lediglich als Klassifikator, d.h. sie soll Funktionen
lernen.
Die lineare SVM ist im Wesentlichen
nur ein einfaches
Perzeptron,
d.h. berechnet eine Funko
Ã
ò
Ñ Ò
tion
q
ò
q
ç
ó
H
Ï è
KT{ÿMQ
þ
5
›
›
Wir nehmen an, daß die Daten immer eine durch beschränkte Länge haben, d.h.
. Wir
ò a
. Eine analoge Herleitung mit Bias
nehmen hier der Einfachheit halber an, der Bias sei , d.h.
B. Hammer
64
(oder vermöge On-Neuronen) ist möglich. Das Ergebnis mit explizitem Bias ist im Allgemeinen
verschieden zum Ergebnis mit On-Neuronen, da sich der Abstand zur Gerade verschieden berechnet. Der Knackpunkt ist jetzt, daß zu gegebenen Daten nicht irgendeine,
sondern eine bezüglich
ê
êzò
der Generalisierungsfähigkeit optimale Trennhyperebene gesucht wird, ldie
mit maxi{ a Hyperebene
ç
"
malem Abstand zu den Daten. Gegeben eine
Trainingsmenge
K
RÐ
ÿ
M ist also ein
ê
5e5e5
Ñ Ò ê ï
Gewichtsvektor gesucht mit
ßýà
Ð a ÿ
5
ï
ê
Ò ê Trennhyperebenen liegt
Man kann annehmen, daß kein Vektor exakt aufÑ der
und also durch Ska
lieren des Vektors erreichen, daß der Ausdruck
betragsmäßig immer ÿ ist. Wählt man `
in >
K þkÿHÿM statt in KTHÿM , dann schreibt sich
dieses
als
ê
ï
Ñ Ò ê
Ð
þ
ÿ
5
Ñ Ò zu den Daten minimiert
Ñ
Ñ Ò
Ñ ò Abstand eines
Gleichzeitig soll der Abstand der Gerade
werden.
Der
‚
+
ç
a läßt sich als é a berechnen,
Ñ Ò
Ñ
é
Punktes zur Geraden
Gleichung
mit
mit
d.h. der Abstand ist
. Der minimale Abstand zur Trennhyperebenen liegt für Punkte vor,
für die in obiger Ungleichung die exakte Gleichheit gilt. Man maximiert also den minimalen
Abstand der Punkte zur Trenngeraden, wenn der Ausdruck
für neue Variablen
ZD
ƒ
ö
ë
ê
maximiert wird. Man möchte ë
Das bedeutet,
ƒý‚1 ƒ
ñhê
ÿ
û
ZD ö
Ñ Ò
unter der Bedingung Ð
ñhê
ê
Ñ
ÑýÒ
é
ç
ÿ
[
ûÜþ
Ð
» zu bestimmen, denn
ñhê
ê
Ñ
ÑcÒ ê
é
ç
ÿ
[
ûÜþ
Ð
þ
» ê
ï
{
für alle minimieren.
þBÿ
ê
ò
þ`ÿ
½
ê
ò
a
½
ÿ
n
ۄ
û
falls Ð
sonst.
Ñ Ò

ê
þ
ÿ
Diese Aufgabe kann man
weiter vereinfachen, dazu brauchen wir aber eine Anleihe an die Optio
mierung.
q
ò
ò
ò

ò ò· ó
alle ,
die Strecke
beiden
Ï è
Ï heißt konvex, falls
 Eine Funktion
ç für
+ ç durch
ò Ò ç die
ò ó
·
+ ç
·
ç
Funktionswerte
oberhalb des Graphen verläuft, d.h. é
ÿQþËé
é
ÿQþËé
ç · ç für
ò
ò
·
é
ÿ . Stellt man um und läßt é gegen Null gehen, erhält man die Ungleichung
þ
ç·
ê
òTï
ê
ç
. Die
sogenannten
Kuhn-Tucker-Bedingungen
sagen,
daß
ein globales Minimum
þ
ê
ò ï
ñhêfï
ñhê
ò
ò ·
ç
einer
konvexen
Funktion
mit
Nebenbedingungen
,
konvex,
genau
dann
in
‘
þ‡‘
ñðê
ê
ò
{
ç ·
ç ·
a für alle { , ç · þ
vorliegt,
wenn ‘
für alle gilt und es
gibt mit
çs·
a .
6‘
der Konvexität
[’ ß ’ ò Es ist aufgrund
ñ
ê
ò ï
ò
ò
ò
ñ
ò
ñ
ê
ò
ò
Ò
Ò
é
é
ç
ç · +
ç · ç
ç
· + é
ç ·
ç ·
ç
·
þ
6‘
þ
þ
6‘
þ
Die letzten beiden Terme fallen aufgrund
der Bedingungen
weg,
d.h.
òôï
ò
ñ
ò
ç ç · +
ê
Also ist
·
global optimal für alle Werte mit ‘
ò
ç
é
ç
5
ï
.
Neuronale Netze, WS 99/00
ê
ò
ê
ò
65

ê
ê
ò 
ç ·
·
a oder ‘ ç ·
’ à ’ Für ein Optimum
gilt
entweder
.
Der
Gradient
von
ist in
‘
ê
ò
ç ·
Bezug auf alle Richtungen
wo ‘
, die kein ‘ betreffen oder nur solche,
gilt.ê Betrachtet
ê
ò™ï
ç ·
a
man die Gleichungen
,
so
besitzt
der
Gradient
von
einen
positiven
Anteil
in
Richtung
‘
ê
ê
òž
ñ
ò ç
des Gradienten
von
,
da
eine
weitere
Minimierung
von
nur
unter
Verletzung
von
‘
‘
in
ñ
ò
ñ
ê
ò
ç·
· a
a
Richtung ‘ möglich
für ‘
den Wert
und für ‘
einen
D.h. mançfindet
çwäre.
·
· a
ú
Wert
mit
þ
6‘
.]
ñ
ê
ò
Ñ
ÑcÒ ê
Man berechnet also
é
ç
ÿ a ñ
ê
ûÜþ
Ð
þ`ÿ
Ñ
d.h. a
. Einsetzen in obige zu
optimierende
Funktion
liefert
ñhê
ñhêyñ
ê
ê
Ò
é
é
ÿ
þ
Ð Ð
ñðê ï 5
ñhê ê
ê
ñhê
Ñ
Dieses ist unter der Nebenbedingung
zu
maximieren.
Gibt
es
überhaupt
erfüllende
Be€
a ì
setzen,
gibt
es
keine
Lösung,
explodieren
die
gegen
.
legungen,
kann
man
Ð
ñðê˜ñ
ê
ñðêÈï
ñðê
ê
Ò
Die lineare
SVM
daher
besteht
lediglich aus etwa einem Gradientenauftstiegsverfahren der Funk
tion
unter der Bedingung
Ð Ð
. Da es sich um eine zu optimierende
þ
û
quadratische
Funktion
handelt, sind
in der Regel hierfür optimierteê Verfahren,
etwa ein konjuñhê ê
ê
ñhê
ñhêÞ¹
Ñgierte Gradientenverfahren,
vorzuziehen. Der Klassifikator selber ergibt sich anschließend durch
a ist, nennen
a Ð
, sobald adäquate
gefunden wurden. Diejenigen , für die
Ñ
sich auch Support Vektoren. Es sind Punkte mit geringstem Abstand zur Trennhyperebenen. Sie
legen durch die Bedingung, daß die Aktivierung hier ÿ bzw. þkÿ sein soll, den Lösungsvektor
eindeutig fest. Im Prinzip bestimmen die Punkte mit minimalem Abstand zur Trennhyperebenen
das Ergebnis des Trainings, löschte man alle übrigen Punkte, erhielte man immer noch dasselbe
Ergebnis.
Nur im linear trennbaren Fall ergibt sich so ein adäquater Klassifikator, der je nach Abstand
der Punkte zur Trennhyperebenen eine wesentlich bessere Generalisierungsleistung als ein einfaches Perzeptron zeigen kann. Möchte man zulassen, daß nicht notwendig alle Punkte korrekt
klassifiziert werden müssen, – etwa weil die Menge nicht linear trennbar ist oder der Abstand zur
Trennhyperebenen zu klein würde – so modifiziert
man wie
folgt: Die zu erfüllenden Ungleichunê
êzò ï
ê
ý
Ñ
Ò
gen werden zu
ç
êðï
êð
ê
ê
Ð
ÿ¢þ
êðï
= . Für
ÿ bedeutet das, daß
T{ÿ>ý der minimale
mit Variablen
korrekt ist, wobei für
ÿ liegt der Punkt entweder direkt
Abstand
zur Trennhyperebenen unterschritten wird. Im Fall
ê
auf
oder auf der falschen Seite der Trennhyperebenen. Die Anzahl der Fehler kann also durch
beschränkt werden. Minimiert wird jetzt
ê
+
ÿ ë û
é
, die die Gewichtung der Fehler bestimmt. Inklusive
mit einer zu wählenden Konstante
Lagrangemultiplikatoren ist also die Funktion
ê
ñhê
ê
êzò
ê ê
Ñ
ÑcÒ ê
é
é
é
+
+
ç
ÿ û
þ
Ð
þ
ÿ
þ
ñhêåï
êðï
Ñ
mit
êðï
a ñhê
ê
ê
ñhê
ê
ê ê
ñhê
ê
êzò
ñðê ó
Ñ Ò ê
, ê ¹ zu betrachten.
Die
Kuhn-Tucker-Bedingungen
führen also zu den Gleichungen
h
ñ
ð
ê

ê
+
a ,
a , çÐ
a . Es ist notwendig
Ð
þ
þÿ
, þ
für
, für a , d.h.
ist a ñðê . Man erhält
also
als
zu
minimierende
Funktion
wieder
ñhêyñ
ê
Òê
é
é
ÿ
þ
Ð Ð
66
óBñhêåó
ñhê
Ñ
ê
B.ê Hammer
mit Nebenbedingung . Ein Lösungsvektor berechnet sich als a
.
Ð
Neben der Möglichkeit von Fehlern legt es die SVM nahe, lineare Trennbarkeit einfach durch
Abbilden der Daten in einen hochdimensionalen Raum zu erzwingen. Statt der ursprünglichen Daten betrachtet man also künstlich um verschiedene Merkmale erweiterte Daten, die, sofern man die
Dimension nur groß genug wählt, linear trennbar werden. Bei einem einfachen Perzeptron würde
sich dieses Vorgehen verbieten, da mit wachsender Eingabedimension die Generalisierungsleistung sinkt. Bei der SVM hängt die Generalisierung nicht von der Dimension, sondern² nur vom
Abstand der Daten zur Trennhyperebene ab – es können sich also wesentlich bessere Schranken
in einen
ergeben. Das prinzipielle Vorgehen ist also, zunächst die Daten vermöge einer Funktion
²
òŒò
Ñ
Ò
hochdimensionalen Vektorraum abzubilden und anschließend im Bildraum eine lineare SVM zu
ç
ç
trainieren. Klassifikation erfolgt anschließend, indem man Eingaben nach sgn
abbildet.
Hier besteht allerdings ein Problem: Skalarprodukte in einem hochdimensionalen
Raum zu
²
berechnen, ist aufwendig. Das Training erfordert
aber häufiges Berechnen
der Skalarprodukte.
²
²
ò ²
ò
ò
Ò
taucht nur im
Hier bedient man sich eines kleinen Tricks, des sogenannten kernel-Tricks:
ç
ç
ç
Zusammenhang mit Skalarprodukten auf. Ist so definiert, daß
` a 3
#` für eine
3
einfach zu berechnende Funktion gilt, dann ist Training effizient möglich. Man optimiert
ñðê
ñhêyñ
é
ó
þ
ñðê
ê
é
ÿ
ê
ò
ç
Ð Ð 3
²
ñhê
Ñ
ê
êzò
ñðê ê
ê
ò ç
unter der Bedingung . Der Gewichtsvektor ist dann a
. Um die Ausgabe
Ð
ç
eines beliebigen Vektors zu berechnen, ²ist also lediglich
Ð 3
zu bestimmen. Dieses
ist zumindest bei einer in der Regel geringen Anzahl von Support Vektoren effizient zu bestimmen.
Man benötigt nicht die explizite Funktion , sondern nur den Kern 3 . Was kommt als solches 3 in
Frage?
ò
Ò ò
Ein Beispiel ist die Abbildung
ç
ç
3
R` a
` ûe
diese berechnet das Skalarprodukt
²o zu
Ï
oder auch
²o
Ï
oder auch
²
²
ì
q
Ï •
ç
Ã
q
û
û
Ã
q
o
ÏÉû
q
Ïö®&
û
ò
Ã
ÿ
ç
û
û
ì
û
þ
ç
û
ì
û
+ û
û
ì
ò
ì
û
ì
q
û
ì
q
Ï •
ì
û
û
ò
û
û
5
Man sieht, es ist nicht eindeutig vorgegeben, sogar die Dimension des Bildraumes kann variie-o
ren.
²
y Allgemeiner
y
y
gilt
die
Mercer-Bedingung:
für
eine
stetige
und
symmetrische
Abbildung 3
q
ò
²
ò8ê²
ò8ê
Ï
Ï , den sogenannten Kern, gibt es eine Abbildung
von Ï in einen evtl. unendlich
Ó Ï
ç
ç
ç
a
3
dimensionalen Vektorraum
und eine Darstellung
#`
`
(das ist eine Darstelo
ò

y in einem evtl. unendlich dimensionalen Bildraum) genau dann, wenn für
lung als Skalarprodukt
q
b ç
€
Ï mit ‘
alle Funktionen ‘ Ï
die Bedingung
û 3
ò
ç
#`
ò
‘
gilt.
Mögliche und häufig verwendete Kerne sind:
ç
û
ò
ç
‘ `
û
ï
`
Neuronale Netze,
WSò 99/00
ò
Ò
ç
ç

a
3
#`
` ê , denn
êzò
ò
ò
b ç ç
 ç
Ð
‘
‘ ` `
67
a
a
b µ b Ð æ 5e5e 5 y y Ð y ‘ ¶
@
‘
5e5e5
ì
@
æ
ì
ì
æ
ò
ç
ç
ò
ò
ï ç
û
‘ `
`
˜
ó˜
mit sich aus geeigneten Binomialkoeffizienten
ergebenden
positiven
Faktoren
@ ergibt. Man
ò
ò
Ò
bildet hierbei alle Polynome vom Grad + . Alle Polynome vom Grad
erhält man durch
ç
ç

die modifizierte Version 3
. Je nach sich ergebender Anzahl von Support
#` a
`
ÿ
Vektoren hat der endgültige Klassifikator
also
die êForm ò
Ã
ñðê ê
Ò
é
q
ç
+

H
Ð
ÿ
5
Ã
Dieses entspricht einem neuronalen q Netz mit einer verborgenen Schicht. Die Neuronen be

sitzen die Aktivierungsfunktion
. Die Anzahl der verborgenen Neuronen richtet
sich nach der Anzahl der Support-Vektoren. Insbesondere ist diese Anzahl nicht a priori
bestimmt, sondern wird automatisch mit passenden Gewichten während des Trainings er²
mittelt.
"!
Man sieht, daß sich für homogene Polynome die ì zugrundeliegende Abbildung
æ
ë
é
y
æ 9 ÍÍÍ9
5e5e5

ì
%
$
¶
y
. Die Dimension
mit geeigneten Binomialkoeffizienten
des Raumes der zugehörigen liµ 9 
˜
õ
nearen SVM wäre dabei
, denn die Anzahl der möglichen Faktoren ergibt sich als

˜
die Anzahl der Möglichkeiten, ~ Zahlen, die sich zu summieren, zu wählen. Das entspricht
ì
æ
dem Zuordnen
von Einsen auf ~ Stellen mit Mehrfachbelegung. Die einzelnen Funktio
y
nen
sind linear unabhängig, daher erhält man auch genau diese Dimension. Für
5x5e5
inhomogene Polynome sieht das ähnlich aus. ò
V
ç
a
R`
Eine andere Möglichkeit ist die Wahl 3
e õ "j õ ø ù~ú]û ø ü . Der zugehörige Raum ist
sogar unendlich dimensional, denn bei genügend vielen Support-Vektoren mit großem Abstand voneinander bestimmt der jeweilige Vektor das Verhalten in seiner Nähe eindeutig. Die
entstehende Architektur entspricht einem Netz, das zunächst ähnlich zu einem Kohonennetz
die Ähnlichkeit zu den Support Vektoren bestimmt und anschließend gewichtet über die
Abstände aufsummiert.
ò
Ò
1 ç 
Ein sigmoiden Neuronen entsprechender Kern ist die Wahl
` þ¤. , welches zu ei
nem einschichtigen sigmoiden Netz führt. Dieses stellt allerdings nur für bestimmte Wahlen
von und . einen Kern, der die Mercer-Bedingung erfüllt, dar.
#
als
'& & )(
* ,+ -
-
Man kann die SVM auch für eine Klassifikation für mehr als eine Klasse adaptieren. Dazu trainiert
man mehrere SVMs jeweils darauf, eine gegebene Klasse von den restlichen zu unterscheiden. Im
Betrieb ergibt dann eine Eingabe die Ausgabe derjenigen Klasse, wo die zugehörige SVM den
maximalen Abstand berechnet.
Um die SVM zur Regression einzusetzen, minimiert
manò
ê
ê
Ñ
é
+
+ ·
ç
ÿ û
ê ó
ê ê
ê
ê
ê ï
Ñ Ò ê
Ñ Ò ê ó
+
ê
+
·
·
mit der Bedingung
þýÐ
,Ð þ
,
. Das entspricht einen Schlauch
vom Durchmesser um die Funktionswerte Ð zu legen, in dessen Bereich die zu prognostizierenden Werte sein sollen.
.
B. Hammer
68
4.4
Alternativ: Bayesianische Statistik
Eine Alternative zum PAC-Ansatz stellt die Bayesianische Statistik dar, die hier nur kurz angedeu
tet werden soll. Es soll wie üblich eine Gesetzmäßigkeit von Eingaben und Ausgaben Ð gelernt
werden, die etwa durch eine unbekannte Funktion, aber auch (insbesondere bei Bayesianischer
Statistik nahegelegt) durch eine unbekannte gemeinsame Verteilung der Daten Ó Ð gegeben sein
kann. Es wird eine durch å parametrisiertes Modell der Daten gebildet, etwa eine Netzarchitektur,
æ
eine SVM mit Parametern å oder eine Verteilung bestimmter Form. Eine Beispieldatenmenge
liege vor. Zu einem Wert soll eine wahrscheinliche Ausgabe Ð bestimmt werden. Im Bayesiani
æ
schen Ansatz wird eine Verteilung für Ð gegeben und die Daten bestimmt wie folgt:
˜
ò
˜
ò
æ a
æ ç
ç
Ð
Ðrlå
&å
d.h. die Wahrscheinlichkeit für Ð kann man durch Mittelung über die gemeinsame Wahrscheinlichkeit mit allen möglichen Parametern
ermitteln.
Es ist nach
˜
ò
˜
ò
˜ Definitionò
æ a
æ ç
ç
N ç å æ Ðrlå
Ð
lå
5
æ
Ist aber å bestimmt, hängt die Ausgabe Ð nicht mehr von den Daten ab, da ja å das Modell
vollständig beschreibt. Bei einem Netz ist dieses etwa die Verteilung, die der bei Einagbe von
mit Parametern å berechneten Ausgabe die Wahrscheinlichkeit ÿ zuweist. Die sogenannte BayesFormel aus der Statistik besagt
˜
ò
˜
ò
˜
ò
ç<æ
˜ ç
Nò å
æ a
ç
å
ç0æ
å
5
ê
êyò
Wir nehmen an, daß die Eingabe alleine nicht von den konkreten Parametern å abhängt. Weiæ
ç
terhin besteht die Trainingsmenge aus Beispielen
AÐ , die wir genau wie beim PAC-Ansatz
auch als unabhängig und identisch˜ verteiltò voraussetzen.
D.h. es
gilt
˜
ê
êyò
ò
ç
ç0æ
çŒç
a
å
AÐ å
5
Der Nenner berechnet
sich˜ als ò˜
˜
ò
·
ç0æ
a
ç
å
ò
ç0æ
å
·
&å
· a
0/
˜
ç
ò
å
· ç
˜
ê
çŒç
êzò
AÐ
ò
å
·
&å
·
5
Im Prinzip kann man jetzt die uns interessierende
Verteilung
als
˜
ò
˜
ê
êyò berechnen
ò˜
ò
˜
ò
ç
˜
ê ç~ç
ê˜ò
ò˜ òç
æ a
ç
Ð lå
AÐ å
å &å
b
· ç ·
Ð
ç~ç
·
å êyò &å ò
˜
ò RÐ
˜å
ê
˜ ê ê
ò
˜
ê
ò
˜ ê ê
ò
˜
ê<ò
ç
çŒç
ç ò a˜
a
N ç å
AÐ å
Ð
lå
wobei
Wahrscheinlichkeiten Ð lå
und
die beiden
ç
ç
ç
N
aufgrund des gewählten Modells zugänglich sind. å
ist eine zu wählende
Ð
lå
a priori Verteilung der Parameter, die angibt, in welchem Bereich die Parameter erwartet werden,
wenn man keinerlei Daten zur Verfügung hat. Dieses kann etwa eine Gauß-Verteilung sein, wenn
wir ohne Vorwissen erwarten, daß die Gewichte in einem Netz sich symmetrisch um Null verteilen
und nicht zu groß werden.
Allerdings sind in der Regel obige Integrale nicht analytisch lösbar und müssen genähert werden. Eine Näherung durch Monte-Carlo Methoden, d.h. Auswertung an genügend vielen Einzelwerten, kommt nur für einen niedrigdimensionalen Parametervektor å in Betracht. Es gibt je nach
/
Neuronale Netze, WS 99/00
69
Annahmen über das Modell verschiedene mehr oder weniger effiziente Näherungen, auf die hier
nicht weiter eingegangen werden soll. Es soll nur ein Spezialfall erwähnt werden, der˜ vomò konkreten Vorgehen her wieder auf das übliche Procedere bei neuronalen
Netzen
führt:
Falls
man wenig
˜
ê
ê˜ò
ò˜
ò
ç
a priori Information über die Parameter besitzt, ist die Dichte der a priori Verteilung å
vorausç~ç
ç
sichtlich flach. Bei genügend vielen
eine Spitze im
AÐ å
å
Daten besitzt die Dichte
Bereich des tatsächlichen Wertes å , falls es nur einen solchen gibt. Gibt man nun dasjenige Ð als
das wahrscheinlichste aus, wo die Dichte obigen Ausdrucks zentriert ist, erhält man die Ausgabe
Ð zu dem Parameter å , der die Fehler für die gegebenen Daten minimiert. D.h. bei vielen Daten
und wenig a priori Information entspricht die Ausgabe Ð der Ausgabe mit einem den empirischen
Fehler minimierenden Parametersatz.
˜
ò
Bei wenigen Daten oder genauem a priori Wissen kann das Ergebnis allerdings anders ausç
fallen, als beim üblichen ˜ Vorgehen.
Der Term å
sorgt für eine automatische Regularisierung
ò
des Modells. Wendet man die Bayesianische Vorgehensweise
etwa auf die SVM an, dann können
ç
bei geeigneter Wahl von å
Vektoren mit kleinem å û präferiert werden und so die Generalisierungsleistung verbessert ˜ werden.
Bemerkenswert ist, daß man durchaus nicht auf ein Modell
ò
beschränkt ist; es können mehrere Netzarchitekturen simultan betrachtet werden, die alle zum Erç
gebnis beitragen – der Term å
sorgt dabei für eine Gewichtung der einzelnen Arcghitekturen,
d.h. eine automatische Regularisierung.
Der
Bayes Ansatz stellt zunächst eine exakte Berechnung der vorliegenden Wahrscheinlich˜
ò
keiten dar und ist also per se konsistent. Problematisch ist dabei die Wahl der a priori Verteilung
ç
å , die eigentlich immer über alle möglichen Modelle erfolgen müßte – eine schlechte Wahl
der a priori Verteilung hat eine schlechte Generalisierungsleistung zur Folge, andererseits wird
das kanonische Einbinden von Vorwissen leicht ermöglicht. Eine weitere Schwierigkeit stellen
die in der Regel notwendigen Näherungen der Integrale dar – im Einzelfall muß die Gültigkeit
der jeweiligen Näherungen verifiziert werden. Da dieses der Knackpunkt ist, noch einmal: Die a
priori Verteilung stellt eine implizite Regularisierung der Modelle dar, so daß eine gute Generalisierungsleistung gewährleistet ist. Insbesondere sind daher Bayesianische Methoden für den Fall
von relativ wenigen Daten gut geeignet.
5 Partiell Rekurrente Netze
Partiell rekurrente Netze dienen zum überwachten Lernen von Vorgängen, wo Zeit eine Rolle
spielt. Sie können im Gegensatz zu einfachen feedforward Netzen Sequenzen beliebiger Länge
einlesen. Damit können sie sowohl für Zeitreihenverarbeitung und -prognose, als auch zur Simulation von sich zeitlich entwickelnden Systemen verwandt werden. Durch ihre Möglichkeit, Sequenzen beliebiger Länge verarbeiten zu können, stehen sie an der Schnittstelle zu symbolischen
Systemen der KI. Die Daten der symbolischen KI zeichnen sich nämlich im Gegensatz zu den für
Netze gebräuchlichen Vektoren durch häufig rekursive Strukturen, die a priori unbeschränkten Darstellungsplatz benötigen können, aus. Tatsächlich kann man die Dynamik von rekurrenten Netzen
so erweitern, daß sie in gewisser Weise symbolische Terme als Eingabe verarbeiten können.
5.1
Jordan und Elman Netze
Jordan und Elmannetze sind spezielle sehr einfache rekurrente Netzstrukturen. Sie wurden von
gleichnamigen Herren zusammen mit einem einfachen Trainingsalgorithmus vorgeschlagen, um
Probleme in der Sprachverarbeitung zu lösen. Hauptsächlicher Unterschied zu allgemeinen partiell
rekurrenten Netzen ist die Betrachtungsweise und die Art der Darstellung.
B. Hammer
70
ò
ò
Die Dynamik eines einfachen rekurrenten
Netzes kann wie folgt beschrieben werden: Eingaben
‰ç
tç á ê ò vorgegeben.
sind durch eine Sequenz ý Die
Aktivierungen
zum Zeitpunkt é sind
ê
ò
ê
5e5e5
é
ç
ò
ç
net é a
é þ
ë
21
für alle bis auf die Eingabeneuronen. Die Eingabeneuronen kopieren einfach die Elemente der
Sequenz und setzen dieses als ihre Aktivierung
und Ausgabe.
Die Ausgabe der anderen Neuronen
ê
ò
ê
òŒò
ist
+
ç
a ç net ç é
é
ÿ
5
Man startet dabei bei einem Initialkontext ` und betrachtet als Ausgabe des gesamten Netzes
die Ausgabe geeigneter Neuronen, die sich nach Einlesen der kompletten Sequenz berechnet hat.
Dieses kann man als dynamisches System sehen, dessen Zustand durch den Zustand der Neuronen
beschrieben ist und das seinen Zustand je nach Eingabe ändert. Die Übergangsfunktion ‘ von
einem Zustand zum nächsten ist durch ein einschichtiges Netz beschrieben. Die Ausgabe ergibt
sich durch Projektion auf die Koeffizienten, die
darstellen. Formal berechnet so
o Ausgabeneuronen
ò
ein Netz also eine Funktion
V ç
q
U À ‘
Ï è
Ï
1
43
65
5
mit einer Funktion U , welches die Projektion
auf die Ausgaben
ist, und ‘ , welches durch ein
V
ò
einschichtiges Netz gegeben ist, und ‘ , welches die durch die Übergangsfunktion ‘ induzierte
ç
rekursive Abbildung auf Sequenzen ist, die
hier durch Ï è
bezeichnet werden, d.h.
ò
V ç ò
ì ò
a
‘ ý
`
V ç [
V
[
ç
ç a
‘ ý
‘
‘ ý
õ
5e5x5
5x5e5
5
Der zweite Teil der Eingaben an ‘ , der sich durch die rekursiven Verbindungen ergibt, wird häufig
durch zusätzliche Neuronen, die je die Ausgaben des vorherigen Schritts kopieren, deutlich gemacht. Die so dargestellten Zellen heißen Kontextzellen. In dieser Notation bietet es sich an,
komplexere Funktionen als ‘ und U zuzulassen, die sich z.B. durch mehrschichtige feedforward
Netze berechnen lassen. Tatsächlich ist das keine echte Erweiterung, da komplexere Funktionen
in obiger Notation dadurch simuliert werden können, daß man ein Time-Delay in der Eingabe
einführt, d.h. bevor ein neuer Wert der Sequenz eingelesen werden darf, wartet man einige rekursive Schaltschritte, währenddessen das Netz eine komplexere Übergangsfunktion ausrechnen kann.
Formal folgen also auf jede echte Eingabe einige Dummy-Eingaben.
Nichtsdestotrotz wird die Notation einfacher, wenn komplexere Funktionen ‘ und U zugelassen
werden. In dieser Notation stellen Jordannetze den Spezialfall dar, daß U die Projektion auf die
ersten ~ Koeffizienteno ist und ‘ die Form
o
ì
òöÃ
ì~ò
ì
ì
ò
y
9 y q
q ç * ç
+
ç
‘ Ï è û
Ï û
R` R`
R` ì
`
`
û
û
û
ì
ò
*
=
a
und
ýT{ÿ>ý . In diesem Fall
mit einem Netz mit einer hidden Schicht hat. Häufig
ist
ò
ò
ç ò
‰
û
bedeutet das, daß in ` zusätzlich zur Eingabe é die
gewichtete Historie
+ exponentiell
+ abfallend
ç
ç
ç
der nach einem Schritt berechneten Ausgaben é
zur Verfügung
é þ&ÿ
t
é þ
É
û
5e5x5
steht. Diese Sichtweise zeigt die mögliche Beschränkung des Ansatzes: Etwa bei Zeitreihenprognose sind die gewünschten Ausgaben nach jedem Zeitschritt festgelegt. Ein Jordannetz ist dann
nur eine etwas umständliche Art, das zusätzliche Merkmal des zeitlich gewichteten Kontexts zur
Verfügung zu stellen. Das Netz hat wenig Möglichkeiten, sich stattdessen die relevanten Merkmale
der Zeitreihe in den Kontextzellen zu merken.
Demgegenüber propagieren Elmannetze die Aktivierungen einer verborgenen Schicht zurück,
so daß das Netz selbsttätig die relevante Information extrahieren kann. Formal ist ein Elmannetz
3
3
3 ,7
:
,7 3
,7
80:
8
98
8 :
8
8
Neuronale Netze, WS 99/00
71
ein rekurrentes Netz in obiger Schreibweise, wo ‘ und U je ein feedforward Netz ohne verborgene
Schicht darstellen. Die Ausgaben von ‘ und Eingaben von U , quasi die verborgene Schicht des
Elmannetzes, beschreibt damit die vom Netz herauszufindenen Zustände des entstehenden dynamischen Systems.
5.2
ê
Trainingsverfahren
ê
ê
ò
ç
Eine Trainingsmenge besteht aus einer Anzahl von Pattern
R` , wobei jetzt die Eingaben
Sequenzen beliebiger Länge sein können. Bei Zeitreihenprognose oder der Simulation eines dynamischen Systems ist zusätzlich gegeben, daß die Eingabesequenzen Anfangsstücke voneinander
darstellen, welche die Eingaben an das System bis zum Zeitpunkt ÿ , bis zum Zeitpunkt , . . .
ê
ê
darstellen. Der quadratische Fehler eines Netzes
kann genau
wie bei feedforward Netzen als
ò~ò
é
ç
ç
a
û
` þ
Ñ
ˆ
definiert werden. In
sind die Gewichte
des Netzes aufgesammelt; Biase werden durch OnNeuronen simuliert. Der Initialkontext ` wird meistens nicht trainiert, sondern z.B. als Ü festgelegt. Je nach Fragestellung sind unterschiedliche Trainingsmethoden adäquat:
Backpropagation Through Time (BPTT): Wir formulieren das Verfahren für die ursprünglich vorgeschlagene Dynamik. Analog zu Backpropagation kann man den Fehler durch
Gradientenabstieg minimieren. Dazu benötigt man denê Gradienten
. Dieser kann anaˆ
log zu Backpropagation durch eine Vorwärts- und eine Rückwärtswelle berechnet werden,
ˆ
berechnet sich die Ausgabe durch
bedenkt man folgendes: Für jede einzelne
Sequenz
, wenn á die Länge der Sequenz darstellt. Anaá -fache Komposition der Netzfunktion
ò
G
log kann man ein feedforward
Netz
betrachten,
das sichê durch á -faches Hintereinanò
ç
derhängen des Ausgangsnetzes G ergibt. In diesem feedforward Netz G ê , das
aus á
ç
identischen Netzen G é besteht,
kann man dieò Ausgaben und Fehlerterme . im é ten
ê
—ë
Netz durch normales Backpropagation
in G berechnen. Die Ableitung
ergibt sich
ç
dann, da ja das Gewicht ë
in jeder Kopie G é vorkommt, als Summe über die Produkte
ˆ
dieser Terme.
1
; ;
1
†ê
ò
ê
ò
Natürlich muß bei einer konkreten Implementation nicht das Netz á { mal kopiert werden, es
ç
ç
reicht, die jeweiligen Aktivierungen é und Fehlersignale . é des ten Neurons in je einer
zum Neuron gehörigen Liste zu speichern. Eine besondere Situation tritt weiterhin auf, falls
die Sequenzen Anfangsstücke voneinander sind,ì da dann für die unterschiedlichen Sequenzen die Aktivierungen
und Fehlerterme großteils übereinstimmen,
also nicht komplett neu
ò
ëíì
berechnet
werden
müssen.
Für
eine
Sequenz
ý
ist
dann
der quadratische Fehler
ç
5e5e5
a Ò
é , mit
ò
n
ò
ò
ò
ç
falls
im
ten
Schritt
keine
Ausgabe
verlangt
ist,
é
ˆ
ˆ
a
ç
ç
ç
é
N
ò
é þÆ` é û ò fallsò im é ten Schritt die Augabe ` é verlangt ist.
5:w
ç ˆ
ç
ç
é sei die lineare Differenz ê é þËÐ é für das ) te Neuron, falls dieses existiert, und sonst
.ê Faltet
man das Netz entsprechend
der Eingabesequenz aus, erhält man einige identische
ò
ê
ˆ
ë
Kopien,
wo
jedes
Gewicht
an
verschiedenen
Stellen
identisch
auftritt.
Wir
schreiben
ç
ê
ò
ë
é für das Gewicht an der é -ten Stelle des Netzes. Möchte man eine Größe nach ë
ç
é (Ketableiten, so ergibt sich das durch die Summe über die Ableitungen nach allen ë
ò
tenregel). Man erhält also
ò †ê
ò
ê
ê
ò
ò
ê ç ò
é
é
é
ç
ç
net
é
a
a
ç a
ç
ç
Ò
Ò
. é
é þ ÿ
Û
net
—ë
—ë
é
é —ë
é
ˆ
ˆ
ˆ
7
7
1
;
:
;
;
;
;
;
;
;
<1
B. Hammer
72
mit den Fehlersignalen
ò
1
.
ç
a
é
ò~ò
n
ç
sgd· net é
ç
ç
sgd net é
·
òŒò
ò~ò ç
ç
ò
ç
çé
ç
ˆ
é a á
sonst
òŒò
+
é
F ç +
ë
. é
ÿ
†ê
ò
ˆ
Der Aufwand des Verfahrens ist für Sequenzen
der Länge á von der Ordnung á å . Um die
ç
Signale é zu speichern, benötigt man für jedes Neuron Speicherplatz für eine Liste der
Länge á .
Jordan/Elmantraining: Bei Jordannetzen steht für hinreichend gute Netze die Aktivierung
der Kontextzellen fest; ebenso ist bei Elmannetzen zu erwarten, daß sich die Aktivierung der
Kontextzellen nach genügend langem Training nicht mehr stark ändert. Dieses kann man
als Anlaß nehmen, so zu tun, als ob die Aktivierung der Kontexzellen konstant sei und nicht
von den Gewichten abhängig. Gradientenabstieg stoppt also, nachdem die Fehlersignale
einmal
durch das Netz ‘ propagiert worden sind, ohne eine explizite oder implizite zeitliche
ò
Entfaltung zu betrachten. Dieses Verfahren ist zwar effizient, man benötigt pro Muster nur
ç
O å
Rechenschritte, die Konvergenz ist aber nicht gewährleistet, wenn man mit schlechten Netzen startet. Daher sollte man bei Jordannetzen evtl. sogenanntes Teacher-forcing
verwenden, d.h. in die Kontextzellen nicht den tatsächlich prognostizierten, sondern den zu
prognostizierenden Wert einsetzen. Bei Elmantraining sollte man evtl. mit BPTT vortrainieren, um die Kontextzellen zu stabilisieren.
Real Time recurrent Learning (RTRL): Für sehr lange Sequenzen oder Situationen, wo
man online trainieren muß und die maximale Länge der Sequenz a priori nicht weiß, ist
RTRL geeignet. Wir formulieren dieses für die ursprünglich definierte Netzdynamik rekurrenter Netze. Der Fehler für Eingabesequenzen, dieò je Anfangsstücke voneinander darstellen, setzt sich zusammen aus
é
ç
a
ò
ò
é
ç
ê
1
ò
òŒò
1
ç
ò
ê
ˆ Zeitschritt
ˆ
é ten
` é gegebenen
wobei é den durch den nach dem
Fehler
Ò verlangten
Wert
ç ç
ç
ç
—ë
é
!
þ
Ð
é
é
—
ë
darstellt. Die Ableitung
ergibt sich als
.
Es
gilt
ò
ˆ
çê
ˆ
a
¿ë
; ;
;
ç
für alle Eingabeneuronen 3 . Wegen
die Rekursionsgleichung ò
;
ç
;¿ë
é
+ê
ÿ
a
·
;1
çê
é
é
ò a
†ê
sgd net é
.
ò
ç
sgd
1
ç
1
a
ÿ
òŒò
ç
;
;
ò
;
1 ;¿ë
+
und
1
1
ç
òŒò
7 ë 7 7 ç é
ç
ò
é
+
é
7
ë
7
;
1
ergibt sich für den Rest
7
ò
;¿ë çê
é
die es ermöglicht, mit dem Aufwand O å û in den Gewichten die Änderung zu berechnen. Obwohl langsamer als BPTT ist diese Variante interessant, da sie eine online Version
nahelegt: Die im Zeitschritt é induzierten Änderungen hängen nur von den Ausgaben und
Änderungen des vorigen Zeitschritts ab. Damit kann man sie auch sofort vornehmen, ohne
die Fehlersignale stark zu ändern, und also Sequenzen, deren Länge a priori nicht bekannt
ist, trainieren. Der benötigte Speicherplatz hängt nicht von á ab.
Neuronale Netze, WS 99/00
73
V
Kombination von RTRL und BPTT: Betrachtet man die Dynamik in der Form U À ‘ ,
dann liegt es nahe, den Gradienten innerhalb von ‘ mit effizientem Backpropagation zu
berechnen, bei Propagierung durch die Zeitschritte aber mithilfe von RTRL. Damit wäre
der Speicherplatzaufwand durch å beschränkt, und der aufwendige RTRL Schritt wäre nur
nach jedem Durchlauf durch ‘ durchzuführen. Allgemeiner kann man bei einem rekurrenten
Netz, das für eine Eingabe der Länge á trainiert werden soll, den RTRL Schritt nur alle
U Schritte durchführen und dazwischen die Fehlersignale durch Backpropagation Through
ê
ò
ì
ò
Time propagieren.
Wir verwenden zur Herleitung wieder obige Notation.
{
ì
ç
ç
é
é ê Ré
Es sei ò é der lineare Fehler des Neurons
zum
Zeitpunkt
,
falls
er
existiert,
und
ê
ò
û
é bis zum Zeitpunkt é . Der Gesamtfehler ist also
der quadratische Fehler vom Zeitpunkt
ç
ç
û
ˆ
ˆ
LRá . Wie eben bezeichne —ë
é die Ableitung nach der Kopie des Gewichts ë
im
é -ten ausgefalteten Netz. Es ist
ò
ò
ò
ˆ
[
[
[
[
ç
ç ê
ç
ê +
ê +
+
LRé
é Ré
U
LRé
U a
—ë
¿ë
—ë
ˆ
ˆ
ˆ
=3
; ;
;
;
;
;
;
;
folglich kann man die Berechnung der Ableitungen in Summanden über je U Schritte zerlegen und, im online-Modus, wenn etwa die Maximallänge der Eingabe nicht bekannt ist, die
U Schritten durchführen.
Der zweite Summand
ergibt sich
Änderungen sofort nach jeweils
ò
ò
ò
Ò
Ò
ú
ú
i
9
als
[
ç [ ê [ + ò
ç [ ê [ + ò
ç [
ê +
ëíì
ë
ì
é
é
é Ré
U +
é Ré
U
é Ré
U a
ç
ç
Òú 9
—ë
—ë
—ë
ˆ
ˆ
ˆ
;
> ;
;
>
;
; @?
; ?
d.h. er zerlegt sich in Summanden, die sich auf Gewichte vor dem aktuellen Zeitschritt beziehen und daher RTRL-gemäß vorwärtspropagiert werden
müssen, und Größen, die sich auf
ó
den gerade betrachteten Bereich beziehen und analog zu[ Backpropagation berechnet werden
é
können. Genauer erhält man
für die Summe überò
ò
ò
Òú
Òú
ò ê
ò
[ + ò
[
ç [ ê [ + ò
ç [
ç
[
ê
ò
é ëíì
é
ç [
ç
é Ré
U a é
é Ré [ U é ëíì net é
a
ç
ç
ç
. é ê é
—ë
é
—ë
net
ˆ
ˆ
ò
[
ò ê
ò
é
und für
ç [ ê [ +ò
é Ré
U a ç
ç
ç
.
þ`ÿ
ò
—ë
ˆ
ç
mit der Backpropagation
ähnlich
berechneten Große . é a
ò
?
> ;
?
;
;
ˆ
;
[
ç
;
; @?
[ +
ò
é Ré
ç
net é
U
a
;
; @?
·ç
ç
sgd· net é
ç
ç
sgd net é
und
ê
ò
ò~ò
ç
ˆ
ê
éç
ç
ç
é
[ +
Òú
U
ò
a
> ; net é @?
;ë
—
é ëíì
çê
[ +
é
ç
U
.
ç
+
é
> ; net @? é
;ë
—
ç
ê
é ëíì
a
+
ò
|
ë
ÿ
ò
ò
ç
ò
ò
+
Ò
ê
ê
ò
é
ˆò
ê
ê
ò
ç
Es ist
und
; @?
61
? @?
ò~ò
n
> ;
5
ò
>
ç
a
Òú 9 i
ëé
Òú 9
ì
; net é ?
;ë
¿
çê
[ +
ç
ò
ò
U
falls é [ a
falls é
ó
é
[ +
é
U [ +
é
U
74
>
Òú
é ëíìíé
a
ò
[ +
ç
ò
ê
ç
7
ò
ëé
ç
Backpropagation ähnlich kann man berechnen
ò
7
[
ç + ò
ò~ò
.
net é
U a
·ç
7ç
7
7ç
sgd net
ë
net
;
; @?
ëé
ì
ò
ê
ç
BDCA
[ò
ç
ç
ò
a
; net é @? U ; @@? ?
; net1 ;
[ +
@?
é
U
?
; net é 7 [ U ; net 7 é? + > Ò ú
7
; net é ;—ë Ò ú 9 i 9
; net é 7 [ + [ U ê 7 é [ + > Ò ú ; net
9
; net é
; net
ç
é
B. Hammer
Òú 9 i
ò
@?
è
è
ç
ì
; net @é ?
; net
ç
ç
ò
[ +
+
U
ò
ò
[ +
ç
ò
ç
ò
ò
†ê
ç
ç
falls
1
?
þ
ÿ
ò
ò
ç
5
[
aó é +
?
ê
è
ç
ò
falls U
ÿ
ê net
—ë
ò
é
U
[ +
U
5
Insgesamt
berechnet
man also zunächst in einer Vorwärtswelle für die
ò
ò
ç neuen U Schritte
ç [ +
~
(Aufwand U û ), in zwei Rückwärtswellen über U Schritte die Größen . é und net é
7 çê
net (Aufwand U ~ û bzw. U ~ • ), die von einem Block zum nächsten propagierten[
U
~
Größen
[ + ê (Aufwand ® ) und letztendlich die Änderung+ für die Fehler vom Zeitpunkt é
bis é
U durch die angegebenen Formeln (Aufwand ~ •
U ~ û ). Dieses ist aber insgesamt
~
über U Schritte verteilt, so daß man einen Aufwand • erhält, wenn U mindestens
dieselbe
+
~
~
~
Größenordnung wie hat. Der Speicheraufwand ist durch die Ordnung • U beschränkt,
ê
insbesondere also von der Maximallänge
einer Sequenz unabhängig, da man sich über die
Schritte hinaus lediglich die Größen ê und die letzten Ausgaben merken muß.
; @?
;
Alle beschriebenen Verfahren stoßen auf numerische Schwierigkeiten, sobald das Problem der sog.
long-term-dependencies auftaucht. D.h. Bereiche der Eingabesequenz beeinflussen stark Bereiche, die erst nach einem langen Zeitraum folgen. Um adäquate Änderungen zu bewirken, müßten
die Ausgaben die weit zurückliegenden Stellen vermöge der Fehlersignale
erreichen. Betrach·
tet man in obigen Formeln die Fehlersignale, dann fällt der Faktor sgd auf, der in jeder Schicht
hinzukommt. Dieser Faktor ist im besten Fall , im schlimmsten Fall sehr klein, so daß die
5 w
Fehlersignale mit zunehmender Distanz zwischen Ausgabe und sie verursachender Eingabe exponentiell abnehmen.
5.3
Approximationseigenschaften
Es stellt sich auch bei partiell rekurrenten Netzen die Frage, ob sie in geeignetem Sinne approximationsuniversell sind, d.h. jede Gesetzmäßigkeit, die sie darstellen sollen, mit einer geeigneten
Architektur auch darstellen können. Einfach ist die Situation, sofern eine Funktion des Formates
UcÀ ‘ mit stetigem U ung ‘ approximiert werden soll, d.h. eine Funktion mit a priori rekursiver
Gestalt. Dann kann man die Funktionen U und ‘ einzeln durch je ein feedforward Netz ô und
auf Kompakta beliebig gut annähern, so daß die Komposition ô À
aufgrund der gleichmäßigen
Stetigkeit auf Kompakta die zu approximierende Funktion U À ‘ beliebig gut für Sequenzen einer
Maximallänge á mit Einträgen in Kompakta annähert. Es reicht eine verborgene Schicht in und
in ô .
Schwieriger wird die Situation, falls beliebig lange Sequenzen oder nicht a priori rekursive
Funktionen approximiert werden sollen oder man, etwa im Fall von endlich vielen Daten, obere
Schranken für die Anzahl der benötigten Neuronen herleiten will. Eine Funktion besitzt eine
[
lokale Linearität, falls die Funktion in der Umgebung
von
mindestens
einem
Punkt,
etwa
,
[
ì
stetig differenzierbar ist und die o Ableitung in nicht verschwindet.
ÿ
q
ê<ò
êzò
y =
Satz 5.1 Sei
endlich,
Ï è eine Funktion und{
. Dann kann man
ç
ç
5e5x5
a
ein rekurrentes Netz U£À ‘ finden mit U…À ‘
für alle . U ist ein Netz mit der Identität als
3 E
HI3 E
J LK
M3 E
J
5
M3 E
F
GF 3 E
J
F
5
Neuronale Netze, WS 99/00
75
"
Aktivierungsfunktion in der Ausgabe und einer verborgenen Schicht mit ~ Neuronen mit einer
squashing-Aktivierungsfunktion. ‘ besitzt keine hidden Schicht und nur ein Ausgabeneuron mit
einer lokalen Linearität.
Beweis:
dung
@ sei die Anzahl dero Dezimalstellen, dieò‡die
à Werte ò in
J
q
J
Ó Ï
ç
Ï´
ON
q
N
+
ç
maximal
benötigen. Die Abbilò
N ç
ÿ C
5
induziert die Abbildung ‘ , welche einfach nur die Dezimalstellen der Eingaben erweitert um
führende Nullen auf @ Stellen hintereinanderschreibt. Beginnt man mit einem Kontext Ð , der keinem Wert aus entspricht, dann ist also ‘ injektiv aus . ‘ kann mit einem Neuron mit der
Identität berechnet oder mit einer Aktivierungsfunktion
mit lokalen Linearität wegen
ò
ò
[
[
+ ç
ç
ò
óW
þ
[
· ç
3 E
‘
J
I3 E
P
P
P
QP
J
5
approximiert werden. Die zusätzlichen linearen Terme können dabei in die Gewichte integriert
werden. Auf den injektiven Bildern der Eingabesequenzen kann die gewünschte Ausgabe mit einem feedforward Netz aufgrund der schon nachgewiesenen Approximationseigenschaften exakt
<
berechnet werden.
Stammen die Eingaben nicht aus einem endlichen Alphabet, sondern aus einem reellen Vektorraum, muß man einen Diskretisierungsschritt vorschalten, da die Stelligkeit der Eingabe a priori
unbeschränkt ist.o
ò
ì
ò
7
7
q
êzò
ê<ò ç
y = ç
Ï
Ï è eine Funktion und
Ï
Satz 5.2 Sei
. Dann kann man ein rekur{
ç
ç
5e5e5
a
rentes Netz U À ‘ finden mit U À ‘
für alle . U ist ein Netz mit der Identität als
"
Aktivierungsfunktion in derò Ausgabe und einer verborgenen Schicht mit ~ Neuronen mit einer
squashing-Aktivierungsfunktion.
‘ besitzt ein Ausgabeneuron mit einer lokalen Linearität und eine
+
ç
hidden Schicht mit ~ ~
Neuronen mit einer squashing Aktivierungsfunktion.
ÿ
5
5
R3 E
S3 E
Beweis: Die Eingabesequenzen
unterscheiden
sich jeweils in mindestens einer Stelle voneinanì
ê
~
der. D.h. man findet
Zahlen, so daß, ersetzt man
alle bis auf diese ~ y Koeffizienten durch
ò
beliebige Zahlen, von allen anderen verschieden
bleibt,
von
,
.
.
.
,
verschieden bleibt,
+
ç
û
•
ê
ÿ
. . . . Insgesamt kann man also alle bis auf ~ { ~
Koeffizienten beliebigê ersetzen,
ohne daß Se*
ì
a
ÿ , ...,
quenzen identisch werden. Jeê Dimension
werden die jeweiligen Koeffizienten, die
ê
˜
y
an dieser Stelle zu einer Unterscheidung dienen, aufgelistet und Zahlen @ , . . . , @ zwischen den
ƒ
D
~ . Die Abbildung
Werten gewählt. Sei ê a
ê
ì
ê
y
ì
ò”Ã
ê
ò
7
é
9
ê
í
ë
ì
é
í
ë
ì
D
+
ç
7 q
ç
H
ÿ
ê õ þ@
5e5e5
7
ê
bildet die Koeffizienten
auf
Werte
in
>ÿ
K
Aê
M ab, so daß dieses einer Notation zur Basis ê der
€
5e5x5
@ , ý?@ @ û o , . . . ò”
der
Koeffizienten
entspricht. Die Abbildung
Intervallindizes þ
à einzelnen
˜
ò
ò
ò
7
q ç ç +
ç
N ç THÿ
‘
[
induziert eine auf den Eingaben injektive Abbildung ‘ . H kann durch eine squashing-Funktion,
die Linearität vermöge einer Aktivierung mit lokaler Linearität approximiert werden. Ein feedforward Netz U , daß die verschiedenen Bilder auf die gewünschten Ausgaben abbildet, vervollständigt
<
die Interpolation.
ê
ì
ê
ì
ON
N
3
@TDUWV)X#YZ
B. Hammer
76
Diese Ergebnisse liefern obere Schranken für jede konkrete Trainingssituation: Beim Training eines sigmoiden rekurrenten Netzes benötigt man lediglich eine verborgene Schicht im Teilnetz ‘
bzw. U mit größenordnungsmäßig maximal ~ û bzw. ~ Mustern. Für symbolische Daten kann ‘
sogar unabhängig von der konkreten Aufgabe gewählt werden, ein Neuron reicht dann.
Es ist eine interessante Frage, ob auch Funktionen als ganzes approximiert werden können.
Dazu sei eine Funktion von Listen in einen reellen Vektorraum dann und nur dann stetig bzw.
meßbar, wenn jede Einschränkung auf Sequenzen fester Länge stetig bzw. meßbar ist. Meßbar
bedeutet hierbei Borel-meßbar. Diese Eigenschaft besitzt so gut wie jede (nicht künstlich eben
ê
ê
o
ò
zum Zwecke eines Gegenbeispiels erdachte) Funktion. Dann gilt: ò
q
æ
ç
ç
Ï
Ï è meßbar und
,
Satz 5.3 Sei ein Wahrscheinlichkeitsmaß auf den Sequenzen Ï
þ
ò 
. Dann gibt es ein rekurrentes Netz U À ‘ ò mit ò
æßç
ç
ç
U À ‘
þ
5
U und ‘ besitzen je maximal eine hidden Schicht einer squashing Aktivierung bzw. einer Aktivierung mit lokaler Linearität, die Kodierungsdimension ist ÿ . Die Ausgabeneuronen besitzen je eine
lokale Linearität. Für symbolische Daten kann man U sogar ohne hidden Schicht wählen.
5
[I3 E
43 E
Beweis: Die technischen Details wurden schon gezeigt: Man kann nämlich durch allgemeine
Überlegungen das Problem auf eines von quasi endlich
vielen Eingaben reduzieren. Genauer:
Lange Listen sind unwahrscheinlich, daher reicht es, nur auf Listen beschränkter Länge mit
A
Konfidenz
zu approximieren. Meßbare Abbildungen
auf dem Ï è kann man beliebig gut durch
stetige Abbildungen approximieren, daher kann man als stetig annehmen. Ferner sind auch Listeneinträge mit groäsen Koeffizienten unwahrscheinlich
und müssen also nicht weiter betrachtet
werden. Auf den verbleibenden Eingaben ist sogar gleichmäßig stetig, so daß man die Eingabebereiche für die Koeffizienten in Intervalle einteilen kann mit folgender Eigenschaft: Kennt man
von jedem Koeffizienten lediglich die Intervallnummer, dann kann man die Ausgabe
von auf
ì
dem uns interessierenden Bereich bis auf
bestimmen.
˜
Damit ist die Aufgabe quasi schon gelöst: Die Intervallgrenzen werden mit @ , @ , . . . , @
û
aufsteigend durchnummeriert. Die Abbildung
ê
ì
ê
y
ì
òÃ
ê
ò
7
é
ê
í
ë
ì
é
í
ë
ì
D
+
ç
7 q
ç
H
ÿ
ê õ þ@
5e5e5
Y
@T\UWV)X]YZ
o
ò”à der˜ Intervallindizes.
ò
ò
ò Daher berechnet die durch
berechnet eine eindeutige Repräsentation
7
q ç ç +
ç
N ç T{ÿ
‘
N
N
induzierte Abbildung eine Repräsentation der gesamten Sequenz.
Auf den so berechneten (endlich vielen) Werten kann man jede gewünschten Ausgaben, die
bis auf
festgelegt sind, erhalten. Die Funktion U berechne diese. Man beachte, daß U als
Approximation einer stetigen Funktion in der Maximumnorm gesehen werden kann und also
leichte Störung der Eingaben toleriert. Die Identität in ‘ kann man durch eine lokale Linearität
gleichmäßig approximieren, die Perzeptronaktivierung kann außerhalb von Null durch eine squashing Funktion gleichmäßig approximiert werden. Für geeignete Wahl der Intervallgrenzen kann
man also ‘ bis auf eine Menge beliebig kleiner Wahrscheinlichkeit beliebig gut auf den uns interessierenden Bereichen approximieren.
<
3 E
Bei feedforward Netzen wurde ein in gewisser Weise schärferes Resultat erhalten, da Approximation in der Maximumnorm erreicht wurde. Bei rekurrenten Netzen ist dieses nicht möglich,
wenn
Neuronale Netze, WS 99/00
77
Eingabesequenzen beliebiger Länge aus einem einelementigen Alphabet und eine unbeschränkte Ausgabe zugelassen sind oder
Eingabesequenzen beliebiger Länge aus einem zweielementigen Alphabet und eine binäre
Ausgabe zugelassen sind oder
Eingabesequenzen beschränkter Länge aus einem reellen Vektorraum und eine reelle Ausgabe, aber nur eine unabhängig von der Maximallänge beschränkte Kodierungsdimension
zugelassen sind.
In allen Fällen kann man ein nicht in der Maximumnorm approximierbares Gegenbeispiel konstruieren [Hammer]. Allerdings ist Approximation in der Maximumnorm bei unbeschränkter Kodierungsdimension und beschränkter Länge trivial möglich: Der rekurrente Part ‘ schreibt lediglich
die Eingaben sukzessive in einen Vektorraum hoher Dimension, d.h. transformiert die Sequenz in
einen Vektor der Dimension a Eingabelänge, der Part U hat dann lediglich noch die Aufgabe, eine
stetige Funktion zwischen reellen Vektorräumen zu approximieren. Weiterhin ist eine Approximation in der Maximumnorm auf Sequenzen mit Elementen aus einem einelementigen Alphabet
und beschränkter Ausgabe möglich – ein Fall, der für die Praxis unerheblich ist, der allerdings die
sogenannte Super-Turing-Universalität von rekurrenten Netzen demonstriert. Wir kommen hierauf
nochmal zurück, wenn wir rekurrente Netze mit Turingmaschinen vergleichen werden.
5.4
Lernbarkeit
Auch hier soll zunächst die VC- bzw. Pseudodimension abgeschätzt werden. Sei dazu durch H
eine rekurrente Architektur mit å Parametern, G Neuronen und Aktivierungsfunktion gegeben. Zunächst nehmen wir an, die Länge der Eingaben sei durch á beschränkt. Man kann einige
Änderungen vornehmen: Biases können durch On-Neuronen simuliert werden, ebenso kann ein Initialkontext durch eine zusätzliche Eingabedimension, die nur zu Beginn ÿ und anschließend ist,
durch Gewichte ersetzt werden. Eingaben, die kürzer als á sind, kann man zu Eingaben der Länge
á mit den gleichen Ausgaben erweitern, indem man die Sequenz durch Nullen ergänzt. Damit
erhalten wir aber auch schon obere Schranken: Man kann einfach das rekurrente Netz formal für
die Maximallänge á ausfalten und die VC bzw. Pseudodimension des zugehörigen feedforward
Netzes abschätzen. Dieses Netz hat G á Neuronen und å verschiedene, åõá teilweise gleiche
Gewichte. Das ergibt als Schranke
für die Dimension
òŒò
P
B A^C
^
ç
021
å
O
ç
O
ç
O
ç
O
ç
ò
á G
021
ò~ò
åõá G
20 1 ç ò
å á
õ
å á
õ
å û G û á û
P
P
falls
falls
falls
falls
P
P
P
ï
linear ist,
ein Polynom vom Grad a H
a sgd
5
ist,
ò
+
0‚1 ç
Man kann durch ein Abzählargument für a H zu der Ordnung å G
å
å á verbessern
[Koiran, Sontag]. Bemerkenswert ist, daß in allen Schranken noch die Größe á vorkommt. Das
besagt, daß für beliebige Eingaben die Schranken unendlich werden. Als untere Schranken erhält
man jeweils durch konkrete Konstruktionen
[Koiran, Sontag; DasGupta, Sontag]
òŒò
B A^C`_
^ __
ç
å
ç
åõá
_
ç
ç
å
åõá
0‚1 ò
ç
0‚1 ò
ç
á
å
á
å
ò~ò
falls
falls
falls
falls
P
P
P
P
linear ist,
ein Polynom vom Grad a H
a sgd
5
ï
ist,
B. Hammer
78
Die Schranken sind also notwendig von á abhängig. Man behält sogar eine Abhängigkeit von á ,
wenn man die fat-shattering Dimension statt der Pseudodimension und beschränkte Gewichte und
Eingabesequenzen mit Einträgen aus einem beschränkten Alphabet betrachtet. Als unmittelbares
Korollar erhält man also:
Korollar 5.4 Eine feste rekurrente Architektur ist unter realistischen Bedingungen nicht verteilungsunabhängig PAC-lernbar.
Man muß also genauer hinsehen. Eine Möglichkeit bietet die Überdeckungszahl, die ja verteilungsunabhängige PAC Lernbarkeit charakterisiert.
7 î Ò
î
Ï
Satz 5.5
seien Sequenzen mit Einträgen
in
,
die Sequenzen der Maximallänge é ,î H
seien
˜
òôï
æ
/
sei eine rekurrente
Architektur mit Ò Ausgaben
sei ein Wahrscheinlichkeitsmaß auf ,
Ò in ýT{ÿ A,
æ
ç î
=
und é so gewählt, daß a
.
Dann
giltò ó
.
ý?L{ÿ
™
ÿ
þ
ò
ò
4ŠR‹TŒ ç ç
æ
ç
,
] ŽlX- R‘ þ R‘r
.
è
è
g
für
Ò ÿ ‚0 1
01 ÿ
ÿ 2
» ì ½ ½
ò
ò
û .
û
Ò
Ò
Ò
î
î
Î ç endlich ist. Ist a fat
endlich, gilt das auch für
H
H
%ù û
˜
Ò
Ò
•
+
‚
0
1
ÿ
ÿ
" a
O »
½
5
û .
û
û
"
falls ba'c
Ò
a
ç
H
î
ò
Ò
or
d'e
ç
a
+
ÿ
O» Beweis: Man kann die Abweichung des tatsächlichen
und empirischen
Fehlers abschätzen durch
ò
ò
ò
ç
ó
sŠ#‹Œ ] ŽX- ç ò
ò
æ
ç
’
= î
R‘ Ÿ þ R‘r
è
è
î
î Ò
æ
ç
ç
ò
ò
ò
g
=
"
è
maximal
Einträge
in
ÿ¢þ
/
Ò î Ò in sind
+ è æ Ò ç = è î Ò ýŠ#‹Œ ] ŽlX- ç î
ç #‘
þ
R‘r
ò
è
è
g
è
Ÿ
Ò
Ò
î
æ
æ
" · a " ç
wobei die von auf / induzierte Wahrescheinlichkeit Ÿ ist,
. Dieses gilt, da
ÿšþ
abweicht. Falls ein Bruchteil
in gestrichen wird, ändert sich von maximal
è
um maximal
. Die Tschebychev-Ungleichung
hilft,
˜
˜ ò den ersten Term durch
Ÿ Ò
Ò
ç
“
ÿ™þ
" gf
"i
hf
f
i
û
abzuschätzen. Wie wir schon gesehen haben, kann man den
ò ò zweiten Term durch
[
/
ç ç G
E _
ÿ
RH
û eõ è
% ø ù4û ® '
i f
f
f
û è
ø
beschränken. Die empirische Überdeckungszahl ist durch
mit Ò
a
d'e
ç
H
î Ò
ò
bzw.
akc
ç
H
î Ò
ò
ÿ
» w e 021
w »
oder
N w
û
“
û
" ·
d
½
ÿ
i UWl
ú
Î
e
ji
d
½
ì
û
e
gf d i %
è
ù~ú
ü ü
Neuronale Netze, WS 99/00
ò
ì
Ò
Ò
î
Î ç mit a fat
beschränkt.
Der
H
˜
˜ ò gesamte Ausdruck ist maximal . für
%˜ù û ï
Ÿ Ò
Ÿ
Ò Ÿ Ÿ /
n N
ç
Ò 0‚O
N
+
ƒ
021
“
ÿ¢þ
ÿ
e 0‚1 ÿ e
"
w
w
»
» ½ ½
v
.
û .
û
79
bzw.
ï
ƒ
n N
“
"
N ÿZ“
û
Ÿ /
Ò
»
021
˜
Ÿ Ò
˜
ç
û
ò
/
.
N 021
“
w
m
Ÿ /
N ÿ¢þ
e+
w Ò
ÿ
Ò
û
N /
021
.
û
û
û
Ÿ
Ÿ /
N û
N N 0‚1 » ÿZ“ ½
m
Ÿ /
û
Ÿ /
Ò
»
0‚1
»
e
ÿ
» w Ò ½
Ò 0‚1
N û
Ò
Ÿ /
»
021
+
e
Ò
w N 021 »
Ò
½ ½
´
0‚1
ÿ
%n
N “
w
û
½
û
N “
w
û
½´½
û
û
5
<
Folglich kann man Generalisierung garantieren, sofern die Wahrscheinlichkeit langer Sequenzen a
priori beschränkt werden kann. Genauer:
î Ò
ò ó
Korollar 5.6 H sei eine feste rekurrente Architektur.
seien die Eingabesequenzen der
MaxiÒ
î
î
æ
æßç
/
mallänge
é . sei ein Wahrscheinlichkeitsmaß auf den Eingaben. é sei so gewählt, daß
É
. Dann ist für jeden Lernalgorithmus U dieò~ò Ungleichung
ò
ò
ò ó
šŠR‹TŒ ç ç
,
æ
ç
ç
ç
X
 lU
þ
U
.
è
è
è
è
g
ò
po
q
ra'c
ò
gültig, falls dieò Anzahl der Beispiele
Die Anzahl
ist polyÒ ò gemäß dem obigen SatzÒ gewählt wurde.
Ò
î Ò
æßç î
ç
ì
a
õ
f
ÿ
’
þ
H
nomiell in ÿ î Ò und ÿ . falls
von
der
Ordnung
für
ein
und
Î ç î Ò
ç
H
H
bzw.
bzw. fat
ist.
%yù û
J
Beweis: Die Schranken
ergeben sich unmittelbar aus obigem Satz. Sie sind polynomiell in ÿ
ò ó
/
und ÿ . falls die
VC,
Pseudo-,
oder fat shattering Dimension polynomiell in ÿ
und ÿ . ist. Die
î Ò
æ
ç î
É
Bedingung
führt dann zu obigen Ungleichungen.
<
dke
Also ist zumindest die UCED Eigenschaft sichergestellt, und explizite, von der Verteilung abhängige Schranken für die Generalisierung existieren. Die Anzahl der Beispiele, die für adäquate Ge
neralisierung benötigt werden, kann allerdings auch mehr als exponentiell in ÿ
wachsen, sofern
lange Sequenzen eine zu große Wahrscheinlichkeit besitzen. Man kann hier explizite Beispiele
konstruieren.
5.5
Komplexität
Da das Training von rekurrenten Netzen als Spezialfall das Training von feedforward Netzen
enthält, wenn man nur Sequenzen der Länge ÿ betrachtet, ist das Training mindestens genauso
schwierig. Man erhält also bei der Perzeptronaktivierung in analogen Situationen, d.h. bei variierender Eingabedimension oder variierender Anzahl Neuronen in den ersten zwei verborgenen
Schichten NP-schwierige Situationen.
Es stellt sich zusätzlich die Frage, wie sich das Training fester Architekturen verhält. Dieses ist
evtl. schwieriger als das Training fester feedforward Architekturen, da ja eine zusätzliche Größe,
die Eingabelänge von Sequenzen, auftritt. Die Situation erweist sich auch hier als gutartig:
B. Hammer
80
Satz 5.7 Sei eine feste rekurrente Architektur mit der Perzeptronaktivierungsfunktion gegeben.
Gegeben eine Trainingsmenge, kann man in polynomieller Zeit entscheiden, ob es Gewichte für
die Architektur gibt, so daß das entstehende Netz die Daten korrekt abbildet.
Beweis: Falls eine Lösung existiert, dann gibt es auch eine Lösung, so daß keine Aktivierung
exakt Null ist, evtl. müssen die Biases leicht geändert werden, und also auch eine Löasung, so daß
die Aktivierungen betragsmäßig mindestens ÿ sind, evtl. müssen die Gewichte skaliert werden.
Betrachtet man jedes Neuron in der Architektur
einzeln, dannó ist sein Verhalten durch Gleichungen
ï
Ñ Ò
Ñ Ò
ò
ò
þ
ÿ oder
þ
þkÿ
Ñ
bestimmt, wobei je nach Gewichten nur einige der Gleichungen erfüllt sind und sich aus den
Eingaben ergibt. Genauer kann aus den Koeffizienten der Eingabesequenzen und den möglichen
Ausgaben der Vorgängerneuronen bestimmt werden. Es steht also zur Bestimmung geeigneter
Gewichte eine Anzahl von Ungleichungen zur Debatte, die polynomiell in der Eingabe ist (für
den Anteil an , der durch Koeffizienten der Eingabe bestimmt ist), allerdings exponentiell in den
Architekturparametern (für den Anteil an , der von den Vorgängerneuronen stammt, das kann
ein beliebiger binärer Vektor geeigneter Stelligkeit sein). Sofern man bestimmt hat, welche dieser
Ungleichungen gelten, kann man in polynomieller Zeit nachrechnen, ob sich für alle Eingaben
eine korrekte Ausgabe ergibt.
Für jede mögliche Auswahl von Ungleichungen, die gelten, gibt es maximal å a Anzahl der
Parameter Ungleichungen, für die exakte Gleichheit gilt und die die Gewichte eindeutig bestimmen. Damit kann man alle möglichen Auswahlen erhalten, indem man maximal å Ungleichungen
¶
è das zugehörige lineare Gleichungssystem löst, um die Gewichte zu erhalten. Es gibt
auswählt und
µ
a Anzahl der Ungleichungen solche Wahlen. Das ist exponentiell in å , aber
maximal
,
polynomiell in und damit auch polynomiell in der Größe der Trainingsmenge.
Der gesamte Algorithmus ergibt sich als: Aufstellen aller möglichen Ungleichungen, Für jede
Auswahl von å der Ungleichungen: Lösen des zugehörigen Gleichungssystems und Testen, ob
das sich so ergebende å alle Eingaben korrekt abbildet. Das ist polynomiell in der Darstellungsgröße der Trainingsmenge, allerdings exponentiell in den Architekturparametern.
<
s F
5.6
F
Automaten und Turingmaschinen
Einen Hinweis auf die Mächtigkeit von rekurrenten Netzen erhält man durch den Vergleich mit
klassischen Formalismen: Turingmaschinen. Durch das Einfügen von Rekurrenz ist es möglich,
Rechnungen beliebiger Länge durchzuführen. Zunächst wollen wir aber einen naheliegenderen
Zusammenhang untersuchen, denjenigen zu endlichen Automaten. Er bietet vom praktischen
Standpunkt aus gesehen die Möglichkeit, leicht Regelwissen zu integrieren, indem man nicht mit
einem beliebigen Netz startet, sondern mit einem Netz, das bekannte Automatenregeln bereits
implementiert.
t
ON Y
J Ou
ò
a
´lí A. von Eingabesymbolen
Definition 5.8 Ein
endlicher Automat ist
ein Tupel
y
o
=
a K>
a K
>
M
M
í o
,
Zuständen
,
einem
Startzustand
, einem Endzustand
=
q
5e5e5
5e5e5
und einer Übergangsfunktion .
. Rekursives Anwenden
von . auf eine
Ó
q
Eingabesequenz aus
mit Startzustand í definiert eine Funktion .
. Die von
ï
erzeugte Sprache ist die Menge
ò
J
u
ì
J
5
u
N
v
ç
t
ì
a
J u
K
=
5
ç
u
J .3 ï a
3 J
M
5
u5
u
t
5
Neuronale Netze, WS 99/00
J
81
J
bezeichnet dabei Wörter beliebiger Länge mit Elementen aus . Die Schreibweise deutet
schon an, daß die Dynamik eines partiell rekurrenten Netzes die Dynamik von Automaten imitieren
kann. Man findet folgendes Resultat:
Satz 5.9 Sei eine squashing
Funktion. Dann kann man für jeden endlichen Automaten ein
V
ò
ò
rekurrentes Netz U À ‘ finden, das simuliert.
ç a
ç a
ê
02‚ƒ
0‚2ƒ
Beweis: O.B.d.A. nehmen wir
¸ ò
ÿ ,
¸
an. Vor einem y Beweis muß
õ
y„þ†
gesagt werden, wasÑ simulieren‘ bedeutet.
Wir kodieren„ die† Buchstaben > unär in Ï . Zu einem
ç
’
Wort ë bezeichne den Code in Ï
. Für
vorgegebenes wollen
wir dann ein Netz finden, so
ï
ò
ò
daß
Ñ
n ó
ò
ç
=¹
V ç
falls ë
ÿ¢þ
ç
UÞÀ ‘
=
falls ë
43
t
t
5
v
v
43
gilt.
Wir betrachten zunächst die Perzeptronaktivierung. Sei
òÃ
ê ëíì
kodiert. Die Funktion o
y
y
q
q
ç
ª
ç
ç
a
‘ Ï
Ï
Ó Ï ê
ê ì
ê ò
{
a
ç
mit dem ten Einheitsvektor e , ~
Anzahl der Paare
w
$y z
w
N
t
t
a
u
xw
. Zustände werden unär in Ï
ò~ò
æ ¢ ª a ò
ò
e
e
D
Dø
æ ç æ
a
>
mit . > Aê
und
ç
D
Dø
D
Dø
) |)
allen Indizes solcher Paare berechnet
die kodierte Übergangsfunktion . . Man kann diese
ê
û
U als die
mit einem Netz mit{ einer hidden Schicht und der Perzeptronaktivierung implementieren.
ì
Projektion auf die te Komponente, sofern
der Finalzustand ist, vervollständigt die Simulation.
ò
È
ì
òž
È

Falls man eine squashing Funktion betrachtet, dann
gibt es Zahlen
und
mit
û
ç ç
÷
ÿ
û 5
5
5
Die Gewichte in obiger Simulation können so gewählt werden, daß die Aktivierung für die hidden Schicht in ‘ mindestens bzw. maximal þ´
beträgt. Tauscht man die binärwertigen,
5hw
5hw
die Zustände repräsentierenden Eingaben durch Eingaben aus, die mindestens die Aktivierung ÷
5
Ÿ
bzw. maximal ì die Ÿ Aktivierung ÿ
haben, so ergibt
sich für die verborgenen Neuronen
die Min
5
destaktivierung bzw. Maximalaktivierung þ´ , bei hinreichender Skalierung also dieï Mindest5
5
aktivierung
bzw. Maximalaktivierung , welche zu Ausgaben die ÷ bzw.
sind,
ÿ
ó
ï
û
5
Ÿ 5 oder
Ÿ
führen. Analog erhält man für die Ausgabeschicht
von
bei
unären
Eingaben
die
Werte
‘
ï
ì
ó
5:w
, bei bis auf ÷ bzw. ÿ
approximierten Ausgaben die Aktivierung bzw. þ´ ,
þ´
5
5
5
5:w
5
bei hinreichender
Skalierung
also
bzw.
.
Dieses
erlaubt,
in
die
Aktivierungsfunktion
‘
û
durch zu ersetzen, ohne die Ausgaben sehr zu ändern. Eine analoge Argumentation gilt für U . <
ON
N
N
{
{
N
N
N
{
{
{
{
{
N
{
Insbesondere kann man diese explizite Konstruktion dazu benutzen, Automatenregeln in ein rekurrentes Netz zu kodieren. Zu trainierende Variablitität wird etwa durch das Bereitstellen zusätzlicher
Neuronen, deren Gewichte mit kleinen Zufallszahlen initialisiert sind, ermöglicht. Im allgemeinen
wird während des Trainings die für den Menschen interpretierbare Struktur als endlicher
Automat
ê
ò
verloren gehen, die Aktivierungen nicht unäre Form haben. Dieses kann man bedingt erzwingen,
ç
þ
ÿ û zur Fehindem z.B. die Softmax Aktivierung verwandt wird oder ein Penalty Term
lerfunktion addiert wird. Damit summieren sich die Ausgaben von ‘ tendentiell zu ÿ , so daß die
Dynamik als (evtl. probabilistischer) Automat interpretiert werden kann.
Die Rekurrenz ermöglicht es, so etwas wie Rechnungen mit einem rekurrenten Netz beliebig
langer Zeitdauer zu definieren: Das Netz rechnet auf seinen internen Zuständen, indem es ‘ rekursive auf eine (evtl. leere) Eingabe anwendet. Durch die Aktivierung eines Neurons wird angezeigt,
ob
die Rechnung schon zu Ende geführt wurde. Sobald das der Fall ist, kann
9 die Ausgabe in einem
ï
spezifizierten Neuron gelesen werden. Formal (für ein Alphabet sind
die Wörter der Länmge
ÿ ):
J
8
J
o B. Hammer
9 q
o
ò
Definition 5.10 Ein rekurrentes Netz berechnet eine (evtl. partielle)
Funktion
K
T
{ÿM
V
q
ç
KT{ÿJM auf online Eingaben, falls das Netz eine Funktion U À ‘
Ï û
Ï û mit folgenden
Eigenschaften berechnet:
ò
9
ç ò
ì
ò =
ò
ò
ò ò
= ò ò
ë
KT{ÿM , wo y ë definiert ist, gibt es ein é
Für jedes
, die Berechnungszeit,
V ç Wort
ç
ç
ç
ç
ç
ç
ç
a
ë {ÿ
ë Hÿ
T Ò
T
ë {ÿ und für jedes kürzere
mit UöÀ ‘ ý ë Hÿ
û
ï
ò
5e5x5
5e5e5
mal
ç
ë ì gibt
das ò Netz TA aus.
Präfix dieser
Eingabesequenz der Länge
ò
ò
ò
ò
ò ò
V ç ç
ç
y
a
ç
ç
ç
ç
ë Hÿ
ë {ÿ
TA Ò
T
Falls ë nicht definiert ist, ist U8À ‘ ý ë {ÿ
û
ò
5x5e5
5x5e5
mal
ç
=
T für alle é
.
82
5
S3
x3
|
}~
K
€
R3
K
|
}~
€
Das heißt, es gibt jeweils zwei ausgezeichnete Ein- und Ausgabeneuronen. Je eins von diesen
beeinhaltet die Ein- bzw. Ausgabedaten, sofern es welche gibt. Das jeweils andere gibt durch den
Wert ÿ an, daß zur Zeit Daten vorliegen, durch den Wert , daß zur Zeit keine Daten vorliegen.
So wird es dem Netz ermöglicht, prinzipiell unendlich
lange zu rechnen. Eine Alternative ist, die
o
Eingabe nicht einzulesen, sondern in die Aktivierung eines
9 q ausgezeichneten Neurons zu kodieren.
Dazu wird eine Funktion Kodierungsfunktion Ä KL{ÿM
Ï spezifiziert, die injektiv und leicht
zu berechnen sein sollte. Die Eingaben können dann vermöge Ä in die Aktivierung eines Neurons
kodiert werden. Eine Rechnung benötigt dann keine zusätzlichen Eingaben mehr, um evtl. beliebig
viel Zeit für die Rechnung zur Verfügung zu stellen, erhält das Netz als Eingabe eine evtl. beliebig
lange Sequenz mit leeren
Eingaben, die durch notiert werden.
o
9 q
KT{ÿ] V M
KL{ÿM wird durch ein rekurrentes Netz offline berechnet, falls ein
Definition 5.11
rekurrentes Netz UÞÀ ‘
existiert, wo der erste Koeffizient des initialen Kontextes frei ist, so daß
ú
ü
das Folgende gilt:
ò
9
ç
=
=
Für jedes Wort ë
mit
KT{ÿM , so daß ë definiert ò ist, gibt es
é
ò ein
ò
]V ç
a ç ç
UÂÀ ‘
ý º
ë {ÿ
Ò
ú 4ú ü
5e5e5
ü

‚3
K
43 „ƒ „…
†|  }~ 9 €
mal
43 „ƒ „…
und für jedes
kürzere Präfix dieser Eingabe ist U À ‘
ò
ú 4ú
ç
Wenn ë nicht definiert ist, ist
ò
]V ç
a
UÂÀ ‘
ý º
Ò 5e5x5
ú 4ú ü
ü
für jedes é
=
K.
43 „ƒ „…
†|  }~ 9 €
ò
]V
ü
a
ç
ü
L .
ç
ò
T
mal
Ein klassischer Formalismus, der spezifiziert,
was berechenbar ist, sind Turingmaschinen. Um
9
Rechnungen auf Wörtern aus KL{ÿM durchzuführen, werden diese auf ein unendliches Band geschrieben und startend an einer definierten Position in einem definierten Zustand verarbeitet. Dieses geschieht, indem sukzessive das jeweils aktuelle Zeichen gelesen wird und je nach Zustand
und gelesenem Zeichen dieses geändert, eine Stelle nach links oder rechts gegangen und ein neuer
Zustand angenommen wird. Sobald ein Finalzustand angenommen ist, wird die Rechnung beendet
und je nach Finalzustand eine ÿ oder ausgegeben. Dieses kann formal definiert
werden:
ò
[
ç ™
Definition 5.12 Eine Turingmaschine ist ein Tupel á a
ö.ZAê
mit folgenden Bestandteilen:
9J O‡
Oˆ
Neuronale Netze, WS 99/00
83
™
ist eine endliche Menge von Zeichen, das Alphabet
der Zustände,
¹
=
ist eine endliche Menge von Zeichen mit <
, das Alphabet der Eingabezeichen, in
unserem Fall besteht dieses aus KTHÿM ,
=
ist eine endliche Menge von Zeichen mit
und <
, das Alphabet der Bandzeichen,
in
unserem
Fall
ist
dieses
immer
,
K
L
{ÿ
Z<
´
M
o
q ™
™
›
.
lø M ist eine totale Funktion, die Übergangsfunktion,
Ó
Ó
Ó K
[ = ™
ê
ist der Startzustand,
ÿ ™
sind die Endzustände, in unserem Fall immer KmÐr ~ M .
J
‡
‡
J
‡
JŠ‰‡
v
‡
ˆ
Eine Rechnung sieht
jetzt wie folgt aus: Man startet mit einem Band,
auf den das zu verarbeitende
9
[
ò
=
a
Wort ë ò KL{ÿM geschrieben ist. Man startet im Zustand ê
ê und die aktuelle Leseposition ist
ç
a
das rechteste Zeichen des Eingabewortes, das Zeichen sei . Je nach der Ausgabe von . ê&
ç ·
·
·
·
schreibt man das Zeichen ê an die aktuelle Stelle, geht in den Zustand und bewegt
ê
AÕ
›
die aktuelle Position um eines nach links, falls Õ a
ist, um eines nach rechts, falls Õ a
ist,
~ erreicht ist, terminiert die Rechnung und
Ð
oder
oder bleibt stehen. Sobald
einer
der
Zustände
o
es wird bei Ð die Zahl
ÿ , sonst
9 q ausgegeben. Entsprechend berechnet eine Turingmaschine eine
partielle Funktion
KT{ÿJM
KL{ÿM , die zu einem Wort obigen Wert oder ÿ ausgibt, sofern
die Rechnung terminiert.
v
ON
N
N
ON
Satz 5.13 Man kann Turingmaschinen durch rekurrente Netze mit der semilinearen Aktivierungs
funktion simulieren. Folglich kann jede durch eine Turingmaschine berechenbare Funktion durch
ein rekurrentes Netz online und offline berechnet werden.
Beweis: Eine detailierte Ausführung wird schnell sehr technisch. Daher sollen hier nur die weï
sentlichen Ideen skizziert werden: Die semilineare Funktion
berechnet

ò

ÿ
ÿ
ó
ç
a
ÿ
lin
Diese Funktion hat den Vorteil, daß sie im Bereich ýT{ÿ der Identität entspricht, außerhalb eine
ì
Perzeptronaktivierung darstellt.
Manê kann
also sowohl lineare Berechnungen
als auch
beliebige
9
êzò
ò
= òIÃ
Boolesche Verknüpfungen
realisieren.
Gegeben
eine
Eingabe
ë
K
T
{ÿM
,
wird
diese
in einem
ç + N
q
ç
ç +
ë ÿZ
ÿ
ÿZ
Netz als Zahl
kodiert. Die Funktion AÐ
induziert
õ õ
diese Kodierung und ist mit einem Netz mit der semilinearen Aktivierung berechenbar. Auf offline
ê
Eingaben kann man die Kodierung Ä entsprechend wählen.
ê
Das Netz simuliert jetzt folgendermaßen eine Turingmaschine: Die Aktivierung
zweier
Neuro
ì
nen repräsentiert den aktuellen Bandzustand, das eine Neuron repräsentiert dabei als ë ÿZ õ die
Hälfte links startend von der aktuellen Position mit (von rechts gelesen) ë , ë , . . . entsprechenû
den Buchstaben, das zweite Neuron repräsentiert analog die Hälfte rechts von der Leseposition
(von links gelesen). Der aktuelle Zustand wird unär in der Anzahl der Zustände vielen Neuronen
kodiert. Je nach Zustand (kann durch ein Perzeptronnetz getestet werden) und aktuellem Zeichen
(kann getestet werden, indem getestet wird, in welchem der Intervalle ý?TA ý , ý m
“ ý , ý “L{ÿ>ý
5
5
5
5
die der linken Bandhälfte entsprechenden Zahl liegt) muß der neue Zustand berechnet, der aktuelle Wert überschrieben und die aktuelle Position angenommen werden. Ersteres wird durch endlich
viele Vergleiche in einem Perzeptronnetz ermöglicht. Den aktuellen Zustand überschreiben kann
man, indem der Wert des der linken Hälfte entsprechenden Neurons mit ÿe multipliziert und je
B CA
& …‹&
B. Hammer
84
g(x)
I3
I2
I1
I1
I2
Ž‘
x
I3
Œ mit ‘
Abbildung 1: Kombination von squashing Funktionen zu ‘
ç
ò
Ûê
Œ
ê
.
nach Aktivierung in ýT ý , ý “mý oder ý“T{ÿemý die Zahl , oder “ subtrahiert wird, anstattdessen
entsprechend der neue Wert (für das Symbol < ), (für das Symbol ) oder “ (für das Symbol
ÿ ) addiert wird. Der so erhaltene Wert wird mit ÿ
ÿZ multipliziert. Geht man nach jetzt noch
nach rechts oder links, dann muß die erste Nachkommastelle des entsprechenden der das Band repräsentierenden Neuronen zum anderen Neuron verschoben werden. Das geht analog, indem man
die erste Stelle der einen Aktivierung popt und den berechneten Wert zur Aktivierung des anderen
Neurons dazuzählt.
<
Allerdings können rekurrente Netze dadurch, daß sie zumindest theoretisch mit unendlicher Genauigkeit auf irrationalen Zahlen arbeiten können, mehr berechnen als Turingmaschinen. Läßt
man ihnen beliebig viel Zeit, kann tatsächlich jede Funktion berechnet
werden.
o
9 q
KT{ÿM
KTHÿM offline berechSatz 5.14 Rekurrente sigmoide Netze können jede Funktion
nen.
“’ ’
Œ Œ Œ
Œ
ì
Beweis: Es soll wieder nur die Idee skizziert
werden. Eine stetige squashing Funktion kann man
ì
a ý? ÿ ,
/ (evtl. nach Verschiebung) das Bild der Intervalle
so linearŸ zu ‘ kombinieren,
daß
ê
ê
5 5 5
a ý
und æ a ý? A ÷ je
enthält (siehe Skizze). Gibt man eine beliebige
û
•
û
•
5 w
5hww
5
5
Folge von Intervallen , . . . ,
vor, dann ò kannê manÈ einen
geeigneten Startvektor Ð finden mit
ó
ç
=
~
‘
)
5
ê
ì
Da die Menge der möglichen Ð jeweils kompakt
ist, findet
man auch einen geeigneten
Startwert Ð
ò
o Ã
wenn man eine Folge von unendlich vielen Intervallen 9 vorgibt.
ç
· q a õ¦B ¸ D û D , dann
ì
induziert ‘
die Funktion
Startet man mit dem Initialkontext Ä
D
ò
9 9
· ç
a õ…B D ¸ D û D
‘ ¸
4ú ü
5
Die Identität kann durch die Sigmoide so gut approximiert werden, daß, ersetzt man die lineare
·
ê
Aktivierung in ‘ durch die Identität, immer noch

ê
ê
ê
ê ê
ò
~
Ÿ
ê
falls
ÿ
ê ê
· ç
= 5 w
I
~
a
ý falls
‘ ¸ ý6
y 5e5e5
8ú ü
5
5
falls ~
mal
5
ì
ê
gilt, wie man rekursiv nachrechnen kann.
Berechnet man simultan ‘ mit Ausgabe für ein
mit
ò Ð ensprechend
ç{ò a
ÿ
ç{ò
{ a
ç{ a
ÿ
Œ
Œ
Œ
Œ
Œz
3 E 
Œ
3 ƒ $”
ƒ \|  } ~ O €
3 E
BDCA
1
BDCA
m
–•
Œ
1
Neuronale Netze, WS 99/00
und ‘
3 ƒ· ¸
1
1
und schließtì die Booleschen
Tests
ò
Ÿ
ç
= ¢
÷
ý
û
5
5
5
ì
ò
ì 
òŒò
Ÿ
für die Ausgabe und
ç~ç
Wç
= ¢
÷
ÿ
ý
û
5
5
5
5
für das Neuron,
das
angibt,
ob
die
Rechnung
schon
beendet
ist,
an,
dann
berechnet dieses Netz die
<
Funktion .
4ú
mit Ausgabe
85
ü
û
1
y
1
1
6 Rekurrente Netze
Voll rekurrente Netze können startend von einem Anfangszustand sich mithilfe der schon definierten synchronen oder asynchronen Schaltdynamik über die Zeit hin entwickeln. Als solches sind
sie interessant, sofern Phänomene wie Gedächtnis, spontanes Assoziieren, . . . modelliert werden
sollen. Um sie allerdings konkret zur Funktionsapproximation oder Assoziation verwenden zu
können, müssen wir ihnen eine globale Funktionsweise zuschreiben. Da die Anzahl der Schaltschritte weder wie bei feedforward Netzen durch die Verknüpfungsstruktur, noch wie bei partiell
rekurrenten Netzen durch die Länge der Eingabesequenz vorgegeben ist, müssen wir uns hier etwas
einfallen lassen.
6.1
Hopfieldnetze
Hopfieldnetze stellen einen 1982 von Hopfield vorgeschlagenen Spezialfall dar, der sich dadurch
auszeichnet, daß die Dynamik sich immer irgendwann stabilisiert, als kanonischer Ausgabewert
zu einer Eingabe also der irgendwann (asymptotisch oder tatsächlich) erreichte stabile Zustand
ò
dienen kann.
Ñ
ñ
ñ
q
ê
ê ç
ê6êðï
a
a
G
G
mit
,
Definition 6.1 Ein Hopfieldnetz ist ein rekurrentes
Netz
a
{
{
a
ë
für alle .
der Perzeptronaktivierungsfunktion
H und ë
für alle |) , ë
9— ˜ Œ
Œ
Bezeichnet å die Gewichtsmatrix, so ist diese also symmetrisch bzgl. der Diagonalen und die
Einträge auf der Diagonalen sind positiv. Dieses ist essentiell, damit wir jetzt eine durch das Netz
berechnete Funktion definieren können. Wir betrachten zunächst eine asynchrone Schaltdynamik.
Bei dieser nehmen wir im Folgenden an, daß jedes Neuron, das aufgrund seiner Aktivierung den
Zustand ändern würde, in irgendeinem Schaltschritt auch ausgesucht wird. Das ist etwa der Fall,
sofern die Neuronen in einer festen Reihenfolge betrachtet werden oder je aus den Neuronen mit
gleicher Wahrscheinlichkeit eines ausgesucht wird.
Ein Zustand heißt stabil, falls kein Neuron seinen Wert ändern kann, d.h.
†ê
ê
ê
È
é
{
ò
aWô
þ
ë
5
:
1
21
Um auch hier die Rechnungen zu vereinfachen, sind alle Biase durch On-Neuronen realisiert.
[Falls man sich daran stört, daß das On-Neuron ja seinen Wert ändern könnte in der gegebenen
Schaltdynamik, versieht es mit einem hinreichend großen Gewicht zu sich selbst.] Zu einem Hopfieldnetz mit Zustand definieren wir die Energiefunktion
ò
†ê
ê
Ò
<
é
ê
ç
ÿ
ÿ
a þ
a þ
ë
]
å
5
ˆ
:
:
1 1
: ™:
B. Hammer
86
Die Minima der Energiefunktion entsprechen in gewisser Weise stabilen Zuständen des Hopfieldnetzes, wie wir gleich sehen werden.
:
Satz 6.2 Bei asynchroner Schaltdynamik wie oben beschrieben schaltet das Hopfieldnetz bei beliebigem Startzustand in einen stabilen Zustand.
Beweis: Da jedes Neuron, das seinen Zustand ändern könnte, auch irgendwann gewählt wird,
können wir dieò Schaltdynamik
derart verkürzen, daß in jedem Schritt ein Neuron { seinen Wert
ò
ändert, es sei
denn,
ein
stabiler
Zustand ist erreicht. Im Schritt é habe das Neuron geschaltet.
+
{
ç
ç
a
–
é
ÿ
þ
é sei der Vektor, der die Änderung angibt und also nur an der Stelle eine ÿ
ì
ì
oder þkÿ besitzt,
ò~ò sonst Null
òŒò ist. Man kann nachrechnen:
ò
ò
ò
Ò
Ò ì ò
ì
+
+
+
+
ç
ç ò
ç
ç
ç
ç
ç
ò
ò ç
ò
ò
ò
a
é
ÿ
þ
é
þ
é
ÿ
å Ò é ì ÿ
é å ì
é Ò
ì
ì
+
+ û ò +
û ç
ç ò
ç
ç
ç
ç
ò
ò
ò
a
Ò
Ò
Ò
Ò
þ
é
–
å
é
–
é
å
é
ˆ
ˆ
ì
+
û
û
ç
ç
ç
ç
ç
a
ê
ê
þ
é å
é þ ò –
å ê]ê
éê þ
–
å –
é å
é
é
û
û
û
û
ç
a
þ –
ë
é þ ë –[ û
Ò
û
S: :
:
Q:
1
:
†ê
ê
ò
:
:1
:
|
™:
: š:
S: : S: : ™:
™: 1 S: ™: 1 R: R:
}~ € | }~ €
D
net ó
yú
ï
: ™:
ü
ê
{
, daher ist obiger Term ; kann nur dann auftreten, wenn das Neuron
Es ist –
net é
von auf ÿ geschaltet hat, denn nur dann kann net a gelten.
Das bedeutet aber Folgendes: In jedem Schritt nimmt die Energie ab. Sie wird maximal dann
nicht echt kleiner, wenn ein Neuron von nach ÿ geschaltet hat. Da es nur endlich viele Zustände
gibt, ist die Energie nach unten beschränkt. Es können jeweils nur endlich viele Werte von nach
ÿ schalten. Daher muß irgendwann ein stabiler Zustand erreicht sein.
<
ç
:
&&
&&
:
Dieses ermöglicht es uns, einem Hopfieldnetz eine Funktionalität zuzuordnen. Für ein Hopfieldnetz sei ordnen wir einem Wert in KT{ÿM ì den Wert in KT{ÿM ì zu, der startend von als
stabiler Zustand erreicht wird. Dieses ist eine Zuordnung, die von der jeweiligen Schaltreihenfolge abhängt, denn von einem Startvektor ausgehend ist es durchaus möglich, zu mehr als nur einem
stabilen Zustand zu gelangen.
†ê
ò
ê
òŒò
Alternativ kann man natürlich
das Ergebnis unter synchroner Schaltdynamik betrachten, d.h.
+
ç
ç
ç
a H net é
é
ÿ
mit der Perzeptronaktivierung H. Das Ergebnis ist
in jedem Schritt ist
deterministisch, allerdings ist nicht gewährleistet, daß ein stabiler Zustand erreicht wird. Man
kann Zyklen bekommen, etwa das Netz
1
-1
-0.5
ò
ò
ò
-0.5
-1
q
q
q
ç
ç
ç
T
ÿ{ÿ
schaltet den Zyklus ÿ{ÿ
. Auch wenn
ein stabiler Zustand erreicht
ì 5x5e5
ê6ê
wird, braucht dieser nicht mit einem der
mit asynchroner Dynamik ò erreichbaren übereinzustimò
a þ ,ë
a ÿ und die Biase auf , dann
ë
men. Setzt man in obigem Netz die
Verbindung
ò
çò
ç
û
5:w
schaltet synchrone Dynamik von ÿHÿ in den stabilen Zustand T , asynchrone Dynamik aber
ç
ç
je nach gewähltem Neuron in ÿ oder THÿ . Man kann zeigen, daß die Zyklen bei synchronem
Schalten nicht beliebig lang werden können.
Satz 6.3 Bei synchronem Schalten eines Hopfieldnetzes gibt es maximal Schaltzyklen der Länge .
Beweis: Betrachte zu einem Netz mit Neuronen G das doppelt so große Netz mit Neuronen G
·
und G . Die Verbindungen im neuen Netz sind für Verbindungen innerhalb von G oder innerhalb
Neuronale Netze,
WS 99/00
ê
ê
87
ê
q ~ ·
ò
ò
·
· q ~ von G q und+ ë
für Verbindungen ~
und ~
. Ist in G ein synchroner ò Schaltschritt
ç
ç
é
é ÿ anzutreffen, dann kann dieser in folgendem Sinne im doppelt so großen Netz durch
ç
·
asynchrones
Schalten
simuliert
werden:
Die
Aktivierungen
werden
mit
Tupeln
bezeichnet,
ò
ò
ò
ê
ò
·
ê
die sich auf die Aktivierung der einen Hälfte G bzw. der anderen Hälfte G beziehen. Startet man
·ç
ç
ç
ç
mit
é Ü , dann ist die Aktivierung net é dieselbe wie net é im Originalnetz. Diese Tatsache
·
·
G
wird nicht geändert, sofern ein Neuron in Gò schaltet,
da
ja
keine
Verbindungen
innerhalb
òŒò
·
liegen. Schaltet man also der Reihe nach die Neuronen
in G , dann erhält man nach G Schritten
ì
+
ç
ç
ç
mit asynchronem Schalten den Zustand
é
é q ÿ q.
q
y
Wir nehmen jetzt an, es gebe einen Zyklus
mit ~
für G . Dieser führt
û
5e5e5
ì
ò
ì
ò
ò
ì
ò
im größerem Netz und asynchronem
Schalten
mit spezieller
Reihenfolge
zu den Aktivierungen
q
q
q
ç
ç
ç
ç
Ü
û
• û 5e5e5
û
ê
im vergrößerten Netz,
wobei jedesmal G
asynchrone Schaltschritte zusammengefaßt wurden.
ì~ò
~
(Ist ungerade, so muß man zweimal durch alle schalten, da man zunächst nur die vertauschte
ç
Reihenfolge
erhält.) Für ~
wäre dieses aber ein Zyklus, der bei asynchronem Schalten
û
ja nicht auftreten kann.
<
:
1 1
:
:
: :
: :
: .:
: .:
:
:
: :
:
: :
1
Allerdings sind die stabilen Zustände, die bei synchronem und asynchronem Schalten existieren,
†ê die Eigenschaft
ê<ò
identisch, denn sie sind in beiden Fällen È durch
{
ç
a H net
ê6ê
a , dann sind die stabilen Zustände eines Hopfieldnetcharakterisiert. Sind alle Verbindungen ë
zes genau die Energieminima mit einer maximalen Anzahl an ÿ , wie man sich wie folgt klarmacht:
In einem Energieminimum mit einer maximalen Anzahl an ÿ kann nicht geschaltet werden, da
jeder Schaltvorgang entweder die
Energie erniedrigt oder die Anzahl der ÿ erhöht. Daher sind alle
ì
solchen Zustände Minima.
ì
keine
maximale AnIst umgekehrt ein Zustand gegeben, der kein Energieminimum ist oder
{
zahl an ÿ besitzt, dann gibt es einen Zustand , der sich nur in einer Stelle von unterscheidet,
û
ò
ò
ê6ê
ê
ò
ê man
ìzê<nachrechnen,
ò
und der eine niedrigere Energie
oder ìŒmehr
Wie
eben
kann
daß
ÿ besitzt.
ê
ç
ç
a þ‡ë – û þ net ç ÿ ç
ì
þ
þ
û
û
{
für dieê Aktivierung
des ˆ Neurons ˆ in gilt. Ist die Energie gleich, dann ist die Aktivierung , d.h.
òŒò ¹ { %ìzê
auf ÿ ; ist die Energiedifferenz negativ, dann ist das
das Neuron schaltet in einem Schritt ê6von
ê
ç
ç
a
H net ÿ
, das Neuron schaltet also ebenfalls.
alle Energieminimaê]mit
Es ist offensichtlich, daß auch bei ë
einer maximalen Anzahl an ÿ
ê
stabile Zustände sind. Allerdings können zusätzliche stabile Zustände auftreten, da die Verbindung
zu sich selbst eine Selbstverstärkung zur Folge hat. Sofern nur ë groß genug gewählt ist, werden
tatsächlich alle Muster ê6stabil.
ê
Möchte man eine direkte Korrespondenz der Energieminima und stabilen Zustände erreichen,
a wählen und zusätzlich die Schaltdynamik zu einer synchronen oder
dann sollte man also ë
asynchronen Dynamik mit Gedächtnis modifizieren,
bei der ê fürò das/die schaltende/n Neuron/en
ê
ò
†ê
ò
gilt:
n
ê
ò~ò
ç
ç
+
ç
falls net é a é
a
ç
ç
é
ÿ
H net é
sonst
:
1
:
1
:
:
1
1
1
:
:
1
Mit der Hebb-Regel bzw. Perzeptronlernen sind Hopfieldnetze sehr schnell trainierbar. Dafür
kann aber sehr viel Zeit vergehen, bevor ein stabiler Punkt erreicht ist. Diese ist umso länger,
je verrauschter das Pattern ist. Die Relaxationszeit kann als Indiz dafür gelten, ob überhaupt ein
(verrauschtes) bekanntes Muster als Startvektor gegeben ist, oder ein gänzlich neues.
B. Hammer
88
6.2
Trainingsalgorithmen
Hopfieldnetze werden als Assoziativspeicher verwandt. Zu diesem Zweck sollten sie trainiert werden, daß die durch ein Hopfieldnetz gegebene Funktionalität die zu speichernden Muster auf sich
selbst abbildet und ein zu den zu speichernden Mustern ähnliches Muster auf das ähnlichste bekannte Muster abzubilden.
Die Lernaufgabe wird nicht in Form von Beispielen einer zu approximierenden Funktion gegeben, sondern die gewünschten stabilen Zustände werden präsentiert. Diese als stabile Zustände zu
erreichen, wird sich schon als teilweise schwierig erweisen. Man versucht, die intendierte Funktionalität dadurch zu erreichen,
indem so wenig andere stabile Zustände wie möglich entstehen.
ê]ê
Dann sollten unbekannte Muster gegen die jeweils ähnlichsten bekannten Muster konvergieren.
Wir setzen im weiteren ë immer auf , um Selbstverstärkung und damit unerwünschte stabile
Zustände zu verhindern. Da die Rechnungen einfacher sind, gehen wir im Folgenden von bipolaì
K þ ÿ{ÿM ì statt
ren Eingaben
aus, d.h. die Muster sind aus >
¹ KT{ÿM ì . Die Perzeptronaktivierung
wird durch
die bipolare
Aktivierung sgn ersetzt. Biases sind
durch On-Neuronen realisiert. Seien
î
î
{
Muster
gegeben. Die Hebb-Regel setzt für a )
5e5x5
ê
ê
a ÿ é ëíìî  î 
ë
G 
5
&&
&&
D.h. Verbindungen zwischen Neuronen, die den gleichen Wert haben, werden verstärkt, Verbindungen zwischen Neuronen mit unterschiedlichem Wert werden vermindert. Würde man die Biases explizit machen, so erhielte man die Summe über alle gewünschten Aktivierungen des betref˜ fenden Neurons.
Es ist nicht sichergestellt, daß hiermit alle Muster stabil sind. Genauer kann man für ein Muster
ausrechnen ê
ê
ê
ê
ê
î
î
é
é
é ë
î  a ÿ é
7 î 7 î  a î  + ÿ é
7 î 7 î 
 a
net
7
ë
7
G
G
5

Sofern der letzte Term betragsmäßig kleiner als ÿ ist, ist das Muster also stabil. Insbesondere ist
æ
a ÿ dieses eine Muster stabil. Sofern eine Eingabe um maximal die Hälfte der Pixel
im Fall
verrauscht ist, strebt sie gegen dieses Muster. Ist mehr als die Hälfte der Pixel verrauscht, strebt
die Eingabe gegen das komplementäre Muster, bei dem ÿ und þkÿ vertauscht sind. (Bei einer
ungeraden Anzahl an Pixeln ist der Fall, daß genau ein Pixel mehr als die Hälfte verändert ist,
nicht klar, da Neuronen die Aktivierung haben können.)
ê
¹
Satz 6.4 Für orthogonale Muster erlaubt die
Hebb-Regel die Speicherung aller Muster.
î î a
{ a
Beweis: Orthogonal heißt, daß
für alle
) gilt. Für solche Muster berechnet
sich für obigen Störterm
ÿ
G
é
é ë
7

ê
î
7 î 7 î  a
G
ÿ
é ë
7

ê
î
7
î
7 î 
é
| }~ [ €
ë
5
<
Sind die Muster noch hinreichend orthogonal, das heißt die Störterme hinreichend klein, dann
können sie auch gespeichert werden. Für zufällige Muster (d.h. jedes Bit ist zufällig und unabhängig voneinander) kann man in verschiedener Weise den Anteil an stabilen Mustern abschätzen. Wir zitieren hier lediglich einige Ergebnisse [Hertz et.al.].
Neuronale Netze, WS 99/00
89
˜
g›
{
˜
æ
Sei
die
{ Wahrscheinlichkeit, daß das Bit des ten Musters instabil ist. Diese ist offensichtlich für alle und gleich und man erhält die Abschätzung
h›
æ
a
ÿ
ÿ¢þ
±
&ì &
[
ù~ú]û
ü
¸ e õ øA
5
æ G der Muster
Je nach der tolerierten Fehlerwahrscheinlichkeit kann man also das Verhältnis
im Vergleich zur Neuronenanzahl wählen. Man erhält z.B. die Werte
æ
æ G
#
ÿ
ÿZ /
5 5 w
“ ÿ /
5
5
#
ÿ
ÿ
5
5 w
5 w
5
ÿ
#
“ ÿ
5
5
Fraglich ist trotzdem noch, was sich letztendlich ergibt, da ja die Fehler neue Instabilitäten hervorrufen und letztendlich das ganze Muster sich geändert haben kann, wenn man in einem sta/
bilen
Zustand
angelangt
ist. Man kann berechnen, daß dieser Lawineneffekt ab dem Verhältnis
a
æ G
ÿ
eintritt. Dann
sind mit einer Wahrscheinlichkeit von ÿ “ von initial “ die

5
5
5
Bits im stabilen Zustand falsch. Bei
einem schlechteren Verhältnis wird fast das gesamte Muster
æ
#
ÿ G erreichen, so daß mit einer Wahrscheinlichkeit von ÷÷
gelöscht. Möchte man
die
5
Pixel initial richtig und sehr wahrscheinlich auch asymptotisch stabil sind, dann benötigt man ein
Verhältnis von
æ
G
Ÿ
a
0 O ä G
q
q €
æ G
d.h.
für G
. Besser sieht
die Situation
aus, falls man sich auf dünn besetzte Muò
ò
óáñ
ê
ster beschränkt, dieî nur wenige ÿ enthalten. Dieses kommt in der Realität etwa bei Schriftzeichen
æßç
 a
a ÿ ç ~ ö mit ÿ
ÿ . Dann ist ist das Verhältnis, so daß mehr
vor. Formal sei
als ÷÷
der Pixel initial stabil sind, von der Ordnung
q €
G
æ G
0 O 5
ä G
w
Neben der Schwierigkeit, daß nicht alle intendierten Muster stabil sind, taucht das zusätzliche
Problem auf, daß es weitere stabile Zustände geben kann. Wir haben schon erwähnt, daß mit
einem Muster auch das komplementäre Muster stabil ist. Desweiteren sind Überlagerungen einer
ungeraden Anzahl an Mustern mit relativ hoher Wahrscheinlichkeit auch stabil, d.h. Terme der
æ
Form
î
î
î



­
­
­
ø
5
Desweiteren konnten auch stabile Zustände nachgewiesen werden, die nichts mit den zu lernende
Mustern zu tun haben. Allerdings ist dieses Problem nicht ganz so kritisch, da sich die Attraktorbecken um diese ungewollten Minima als relativ klein erweisen und die Energie noch relativ hoch
ist. Boltzmann Maschinen, die wir noch erhalten werden, umgehen genau diese Probleme.
Alternativ zur Hebb-Regel kann man den Perzeptronalgorithmus
verwenden, denn das
Proê6ê
ò
blem, Muster zu speichern, kann man
alsó Problem, die Neuronen auf eine Patternmenge zu trainieê
a gesetzt. Die G ç G þ ÿ + G
ren, auffassen. Um Selbstverstärkung
zu
verhindern,
wird
ë
{
ì
ì
ì
ò
verschiedenen übrigen Gewichte ë
(
) ) und Biasesy werden durchy den Vektor å y beschrieben,
ò
ò
ç
Aë
Aë
Rë
wir nummerieren die Koeffizienten durch ë
. Für jedes
û
|
û
•
û
5e5x5
5e5e5
5x5e5
5e5e5
g›
m
h›
#œ
%œ
I
ž
90
ê
B. Hammer
˜
ê
ê
ê
{
 a î 

ê
ê
Neuron ê und
Pattern
definiert
man
das
Muster
(mit
gleicher
Nummerierung
wie
)
å
{ î  a
˜
{ î  a î 
ÿ (On-Neuron für den Bias) und den restlichen Koeffizienten
für ) Ò î ,
für )
,
{

liefert genau die Aktivierung des Neurons bei Anliegen des Musters . Das heißt aber,
.å
daß alle Muster stabil sind, dann und nur dann,ê wenn
ò
È&˜
ê
Ò
î
î
{
ç

 a
sgn å
î
gilt. Das ist eine Trainingsaufgabe für ein einfaches Perzeptron. Die Gewichte des Netzes kann
man anschließend durch die Gewichte des Neurons wiedererhalten. Alternative zum Umschreiben
des Gewichtsvektors ist folgende Modifikation des Perzeptronalgorithmus (für bipolare Muster):
wiederhole
î
ê<ò˹

betrachte ein Muster
ç
ê
o
ê{
ê
für ein Neuron mitî sgn
net a
î
êpo a
…
+

ê
ê
ë
ë
î
î
o a ê + ê  
ê…
ë
ë
î
ò a ò

þ
Ÿ
Ÿ
Ÿ
¹
ê
{
ändere für a )

î
Es ist offensichtlich, daß aufê6ê diese Weise nicht alle beliebigen Muster gespeichert werden können,
sondern die Darstellungsmächtigkeit eines Hopfieldnetzes genau wie beim einfachen Perzeptron
beschränkt ist. Läßt man ë
zu, kann man natürlich durch Selbstverstärkung die Stabilität
jedes Musters erreichen. Eine Alternative stellt es dar, wenn man hidden Neuronen zuläßt, wie wir
später noch sehen werden.
6.3
Hopfieldnetze als Optimierer
Hopfieldnetze haben die schöne Eigenschaft, die Energiefunktion zu minimieren. Dieses ausnutzend kann man natürlich zu einem gegebenen geeigneten Polynom ein Hopfieldnetz konstruieren,
daß dieses Polynom als Energiefunktion besitzt, und Minima des Polynoms per Relaxation des
Hopfieldnetzes gewinnen. Tatsächlich kann man auch NP-vollständige Probleme so angehen, wie
Hopfield es für das TSP vorschlug. Unter anderem diese Tatsache führte zu einem wiedererweckten Interesse im Neurobereich – obwohl die Ergebnisse, wie nicht anders zu erwarten, insgesamt
eher mäßig sind.
Wir betrachten jetzt ein Hopfieldnetz, das mit Gedächtnis schaltet,
so daß eine bijektive Bezieê]ê
hung zwischen den Energieminima und den stabilen Zuständen besteht. Zunächst formulieren wir
a an:
die Energiefunktion nocheinmal mit explizitem Bias, wir nehmen ë
ò
ò
ò
ê ê
ê †ê
Ò Ñ
é
‚
ê
}
í
é
ê
ö+
ò
ç
ç
ÿ ç
þ
{þ
p{ÿ a þ
ðHÿ
ë
ò
Ñ
:
ç
1 1
¡— :
¡—
¡—
wobei
die Matrix mit letzter Spalte und Zeile
{þ
beliebiges quadratisches Polynom
ê
ê
ê
é
>
î
î
¦+
éíê
@
1
und Diagonalelement ist. Soll ein
þ
ê
î
+
Ä
ê
î
mit Elementen
aus KT{ÿJM minimiert
werden,
so kann manê dieses
inê der Form
ê
êyò
ê
ê6êzò
é ê2}
î
î î ö+ éíê ç +
ç
þ
þ
>
þ
>
@
>
Neuronale Netze, WS 99/00
ê
91
ê
î
schreiben, da û a
netz mit Gewichten
î
gilt und Konstanten zur Minimierung nichts beitragen. D.h. ein Hopfieldê
ê
a
ë
ê
>
þ
>
þ
ê
ê
ò
a
ê]ê
+
@
>
minimiert obiges Polynom.
Als erstes Beispiel betrachten wir das Acht-Türme-Probem: Auf einem Schachbrett sollen acht
Türme so angeordnet werden, daß sie sich nicht gegenseitig
bedrohen. Dazu definiert man Neuroò
ê
nen
n
ç {
î
a
auf Feld () steht ein Turm
ÿ
sonst
Es muß dabei in jeder Zeile und Spalte genau
eine Turm ê stehen. Das heißt:
ê
a
î
éíê
a
î
é
ÿ
Dieses ist für die Minima der Funktion
é
ê
éêî
þ`ÿ
erfüllt. Ausmultiplizieren ergibt dasê Polynom
ê
Ÿ éyê î
ézê
î
…+ + û þ
]
]
ê
éíêé
}
î
mit
ê
û
ê
î
é
ê
5
ê
é
î
éê
ê
}
é
þ
ÿ
û
ê
î
+
î
ê
‚}
é
éê
î
+
î
î
(
5
ê
î
Konstante Terme weglassend und
+
û
ÿ
identifizierend erhält man
é
ê
2}
éê
ê
î
|
î
éyê
þ
]
î
5
Ein zugehöriges Hopfieldnetz hat also Biases þ und laterale Verbindungen mit Wert þ zwischen
je allen Neuronen einer Zeile bzw. je allen Neuronen einer Spalte. Leider besitzt dieses Netz noch
unerwünschte lokale Minima, es können zwei Neuronen in einer Zeile bzw. Spalte den Wert ÿ
besitzen. Abhilfe schafft, wenn wir den Bias auf þ ÿ statt þ setzen. Das würde einer Änderung
der zu minimierenden Funktion auf
é
ê
éíêî
þ`ÿ
û
+
éíê
ê
é
î
þ
ÿ
û
+
ê
é<ê
]
î
û
/
entsprechen. Die absoluten Minima dieser Funktion sind dieselben, denn sind weniger als Neuronen ÿ , dann erhält man vom ursprünglichen Polynom für jedes Neuron, das nicht ÿ ist, den
Fehler/ , da ja mindestens eine Spalte und Zeile unbesetzt sind. Absolute Minima haben also den
Wert , der nur durch den zusätzlichen Term belegt wird. Der zusätzliche Term sorgt aber für eine
Streckung der ursprünglichen Fehlerfunktion, so daß unerwünschte lokale Minima verschwinden.
Man sieht,
daß die Wahl einer guten Fehlerfunktion durchaus nicht
offensichtlich ist.
ê
ê
~
Eine
ist das TSP: Städte ÿ , . . . , seien
gegeben
nichtnegativen Distanî
andere Anwendung
{
{ mit
=
~ M definiert mit
zen von der Stadt zur Stadt ) . Es werden die Variablen
für |)
K ÿ
>
ê
5x5e5
der Bedeutung
î
a
{
ßýà
ÿ
Stadt ist die ) te Stadt der Rundreise.
B. Hammer
92
ì
Es gilt, die absolute Distanz zu minimieren, d.h. der Term
y
ì
î | î
é ëí
õ ìðé
7 î Ry
7
7 9 + é
a
7 7 ¢
ì
î
7
ist zu minimieren. Gleichzeitig muß dafür gesorgt werden, daß die Belegung tatsächlich eine
Rundreise ist, d.h. jede Stadt soll genau einmal besucht
sein:
ê
éíê
î a ÿ
und an jeder Stelle kann nur eine Stadt stehen:
ê
a
î
é
Absolute Minima der Funktion
¢ + 8
8
Ö
Ø
é
ê
éíêî
þ
ÿ
û
+
ÿ
5
éíê
ê
é
î
þ
Ù
û
Û
ÿ
mit
Länge einer optimalen Lösung des TSP entsprechen eindeutig optimalen Lösungen des
TSP, da für diese aufgrund der Wahl von die beiden Nebenbedingungen erfüllt sind. Ausrechnen
der Produkte führt zu einem Polynom zweiten
Grades. Dieses kann man wie oben angegeben mit
ê
der Energiefunktion eines Hopfieldnetzes
abgleichen.
Man erhält ein Netz, in der benachbarte
Spalten durch die negativen Abstände verbunden sind, innerhalb einer Zeile bzw. Spalte rufen
die mit gewichteten Bedingungen inhibitorische Verbindungen hervor. Die Wahl der Parameter
ist in der Praxis diffizil, da zu große Werte tendentiell zwar korrekte, aber nicht sehr gute Lösungen
bewirken; zu kleine Werte hingegen führen zu ungültigen, aber meistens kurzen Rundtouren. Da
die Nebenbedingung das ~ Türme Problem darstellt, sollten wir auch hier wieder den Bias leicht
erhöhen, um lokale Minima zu vermeiden. Hopfield und Tank berichten bei einem ÿZ Städte
Problem von etwa in jedem vierten Durchlauf optimalen Lösungen; dieses skaliert allerdings nicht
auf größere Probleme. Zudem haben Hopfield und Tank nicht diskret schaltende Netze, sondern
eine kontinuierlich schaltende Version benutzt.
Andere Optimierungsprobleme können auf Polynome höheren Grades führen. Kann man auch
hier ein Hopfieldnetz zur Minimierung einsetzen? Dazu muß das Konzept zunächst etwas erweitert
ò
werden.
Ñ
ñ
ò
q
ç
Ñ 6.5 Ein Hopfieldnetz
, so daß
Definition
mit hidden Neuronen ist ein Netz G
ð
q
ç
G
ein Hopfieldnetz darstellt.
p G G
8
8
8
9— .˜
9— .˜ Œ
Das heißt nichts anderes, daß Ein- und Ausgabeneuronen nicht notwendig mit allen Neuronen
übereinstimmen. Insbesondere kann es, was wir gleich benutzen werden, nicht nach außen sichtbare Neuronen geben. So einem Netz kann man natürlich auch eine Energiefunktion zuordnen, die
neben den sichtbaren Variablen auch die den hidden Neuronen entsprechenden Variablen benutzt.
Es wir sich herausstellen, daß man in gewisser Weise Terme höherer Ordnung durch zusätzliche
nicht sichtbare Variablen ersetzenò kann. Als Konsequenz kann man beliebige Polynome mit einem
ê
Hopfieldnetz mit hidden ê Neuronen minimieren.
ò
æ
ç
Es sei also ein Polynom
gegeben, in dem o.B.d.A. keine Terme û vorkommen, da man
æßç
diese ja einfach durch
ersetzen kann. Wir
konstruierenò ein Polynom
Ré mit einer neuen
ò
Variablen é , so daß
æ
ç
a ƒ4Ò 21 æßç #é
3
Neuronale Netze, WS 99/00
æ
æ
, so hat
¤£
3
einen Term mit Grad 3 weniger als
: Ersetze den Term durch
éê ë#ê
æ
Fall ë
ê
ê ë#ê
æ
. Sei ë
N
æ ê
Fall ë
93
ê
gilt. Ist 3 der höchste Grad in

ein Term höchsten
Grades.
/ ¤£
¥£6¦
ê
ë
ò
éÛþ
ç
3
ÿ
¤£6¦
ê
ê
: Ersetze den Term durch
æ ê
æ
ê
ê ç ë#ê é ê ë#ê
+
ë
þ
é
æ
æ ë
ê
ë
ë´é
þ
£
5
é
ò
+
ç
3
þ
ë‡é
5
Eine etwas längere Fallunterscheidung zeigt obige Eigenschaft. Jetzt kann man sukzessive die
Terme höheren Gerades durch neue Variablen ersetzen, ohne die Dynamik der sichtbaren Neuronen
und die Lage der globalen Minima zu ändern, und erhält ein die globalen Minima realisierendes
Hopfieldnetz mit verborgenen Neuronen entsprechend den neu eingefürten Variablen é .
Eine schöne Konsequenz ist, daß das SAT Problem ebenfalls mit Hopfieldnetzen bearbeitet
werden kann. Allgemeiner kann man für jede Boolesche Formel î ein Hopfielnetz mit verborgenen Neuronen finden, so daß die globalen Energieminima der Energiefunktion beschränkt auf die
sichtbaren Variablen genau den erfüllenden Belegungen der Formel entsprechen. Diese Aussage
ist auch historisch interessant, da sie zeigt, daß neuronale Netze zumindest begrenzt mit symbolischen Daten, Booleschen Formeln, umgehen können.
˜
ò
Ein Polynom
n
ç
erfüllt î
a
ÿ
sonst
§
˜
ist schnell
indukiv über den Aufbau von î konstruiert:
˜ ¸ a ÿ þ ˜
¨I§
§
˜ §©ª a ˜0§ ˜,ª
˜ §«ª a N ˜ § ˜¬ª
˜ § ª a
˜ § ˜,ª
˜ §­®ª a
˜ §
˜,ª
˜ §x˜,ª
„
a
$
y 8y benötigt auch tatsächlich hidden Variablen zu ihrer Realisierung.
Etwa die Formel
ÿ¢þ
>ò
ÿ¢þ
ç
ç
ÿ™>
þ ò
ç
ÿ¢þ
ÿ¢þ ì
ò
ç
ÿ™þ
ç
>ò
ÿ¢þ
ç
mòŒò
ÿ¢þ
ç
mò
ÿ¢þ
û
•
Die praktische Relevanz dieser Ansätze ist notwendig beschränkt – schließlich handelt es sich
um NP-vollständige Probleme, so daß man auch von neuronalen Netzen keine effizienten Lösungsalgorithmen erwarten kann. Allerdings ist die Verbindung von Netzen und Formeln ein philosophisch und historisch höchst interessantes Thema, da es in den Streit zwischen symbolischer KI
und Konnektionismus eingreift. Eine der Hauptkritikpunkte der symbolischen KI an Netzen ist,
daß Verarbeiten von Formeln prinzipiell nicht adäquat möglich ist. Das sogenannte Binding Problem, welches grob die Frage stellt, wie in einer konnektionistischen Methode die (evtl. zeitlich
veränderliche) Verknüpfung zweier verteilt dargestellter Entitäten in einem einzigen Objekt dargestellt werden kann. Konkret etwa: Wie kann man Variablen mit Termen, die diese ausfüllen, in
Beziehung bringen, sofern beides verteilt repräsentiert ist.
B. Hammer
94
Eine andere Konsequenz
Hopfieldnetze mit hidden Neuronen feedforward Netze mit
à ist, daß
ò
der Perzeptronaktivierungsfunktion
in folgendem Sinne simulieren können:
Berechnet ein feedforò~ò
ò
q ç
ward Netz die
Funktion
,
so
gibt
es
ein
Hopfieldnetz
mit
hidden
Neuronen
und globalen
ç
ç
ç
Minima
. Möchte man also zu einer Eingabe den Wert
berechnen, so kann man
das durch Eingabe der Aktivierungen in einen Teil der sichtbaren Neuronen und Relaxation zu
einem (globalen) Minimum erreichen.
6.4
Alternative Schaltdynamiken
Eine Alternative zum asynchronen Schalten ist, die Werte der Neuronen simultan, aber stetig entsprechend ihrer Aktivierung zu ändern. Dazu ersetzt man die diskrete Aktivierungsfunktion wie
auch bei vorwärtsgerichteten Netzen durch eine sigmoide Aktivierungsfunktion. Die Neuronenaktivierung besteht also aus reellen Werte zwischen und ÿ . Anstatt zufällig die Neuronen einzeln
zu ändern oder sie simultan gemäß ihrer Aktivierung neu zu berechnen, ändern die Neuronen ihre
ê
ò
Werte stetig; d.h. die Dynamik wird durch Differentialgleichungen beschrieben. Ausgehend von
ç
einer Startbelegung, etwa dem Eingabemuster, ändern dann die Neuronen ihre Aktivierung net é
ê
ò
zum Zeitpunkt é gemäß der Vorschrift:
¯
ê
ç
N net é
é
¯
a
ò
ê
+
ç
net é
þ
òŒò
N
ç
ç
ë
sgd net é
é
wobei eine feste positive Zahl ist. Man schaltet also nicht mehr diskret zu den Zeitpunkten ÿ ,
. Die Differentialgleichung gibt die Änderung zu jedem
, . . . , sondern kontinuierlich für é
Zeitpunkt an. In der Praxis muß die Dynamik in der Regel trotzdem durch Diskretisierungen
genähert werden, d.h. man erhält eine synchrone Schaltweise wie schon zuvor. Der Vorteil ist, daß
die Diskretisierung im Prinzip beliebig fein vorgenommen werden kann und die einzelnen Schritte
nachgebessert werden können. D.h. statt zum Zeitpunkt , ÿ , . . . zu schalten, kann man etwa die
Zeitpunkte , ÿ , , . . . berechnen.
5
5
Obige Differentialgleichung hat eine eindeutige Lösung, da die beteiligten Funktionen gutartig
sind (lokal Lipschitz-stetig). Die Tatsache, daß die Dynamik immer gegen einen stabilen Zustand
konvergiert, währenddessen eine Energiefunktion minimiert wird, entspricht hier folgendem Umò
stand:
ê
ç
ò
ò
Satz 6.6 Manê findet
eineÈ Funktion é , die monoton fallend und nach unten beschränkt ist. Sie
ò
q
ç
ç
hat die Ableitung exakt
{ dann und nur dann, wenn net é é a gilt. Es ist é é
q
ç
ˆ
ßýà
net é é
.
ˆ
Beweis: Betrachte die Energiefunktion
ì
Ò
ò
ç
a
é
þ
ÿ
1
ç
ˆ
1
ê
é
é
a
a
þ
é<ê
ÿ
] ë
1 é
ç
é
ê
éíê
sgd net
ú
Dyú
ü ü
d
ç
±° D
ò
é
ç
+
é
éíê
ò
˜ú ü
[
net
1 1
sgd õ
1
ç
5
ò
sichì als
T{ÿ gilt. Die Ableitung berechnet
ò
ê †ê
ò
†ê
ç
z
é
ê
í
é
ê
ç
ç
é +
N ç é þ ÿ ] ë ç é N é
sgd õ
é
=
1
é
1
ý
é
| Ò }~ é €
þ
f
ò
ç
ò
ò
ç
ò
ê
] ë
ê
ˆ
†ê
ist nachò unten beschränkt, da
ˆ
1 61
ê
é<ê
Ò
D˜ú
ü ù
d
Ò
|
ê
é
ë
1
ò
ç
é
² d }D ~ Ò
net
ê
ç
net é
þ
˜ú ü ù
ò
d
Ò
1
€
1
†ê
òŒò
N ç
ò
é
é
Neuronale Netze, WS 99/00
a
¯
ó
éíê
þ
L
ê
ê
ò~ò
ç
N sgd· ç net ç é
Ž
95
ò
N » net é ½
é
ò
òŒò
û
ò
ò~ò
ò
b ¸ò ç
· ç
· ç
ç
ç
ç ê ç ò
a
ú ü U
é é U ‘
‘
þU
wobei die Regel benutzt wurde. Obiger Aus¸
· gHçú ü ç
a
ê
nur dann exakt , wenn net é é
gilt.
<
druck ist wegen sgd
ê
ò
Da monoton fallendq und€ beschränkt ist und die Steigung durch
die Ableitung von net bestimmt
q
ç
gilt. D.h. das Netz strebt gegen
wird, ergibt sich für é
ein Zustand, so daß net é é
ˆ
einen stabilen Zustand, wo sich die Aktivierungen der Neuronen nur noch marginal ändern. Insbesondere sind Zyklen nicht mehr möglich: Sie sind ein Effekt der bei synchronem Schalten zu
groben Diskretisierung der Dynamik, wobei gewisse Anfangszustände nicht gegen die aufgrund
der Diskretisierung nicht mehr vorkommenden nicht stabilen Fixpunkte der Differentialgleichung
streben können. Ein Beispiel für die jetzt wesentlich einsichtigere Dynamik ist das Netz:
1
0.5
0.5
1
Bei synchronem
Schalten
gibt es zwei stabile Zustände und zwei Zustände, die in einem Zweierê
ê
zyklus abwechselnd geschaltet werden. Bei der zugehörigen Differentialgleichung (bzw. den zu
den net gehörenden ) findet man in der Nähe der beiden ursprünglichen stabilen Punkte wieder zwei stabile Fixpunkte der Differentialgleichung, die jeweils Attraktoren darstellen. Auf der
Grenze zwischen den beiden Attraktorbecken befinden sich auch die beiden Zustände, die sich bei
synchronem Schalten zyklisch abwechseln. Jetzt streben sie auf dem Rand zwischen den beiden
Attraktorbecken gegen einen instabilen Fixpunkt.
Man kann die Dynamik eines synchron schaltenden Hopfieldnetzes in folgendem Sinne durch
eine Differentialgleichung ersetzen:
Satz 6.7 Für ein Hopfieldnetz, dessen stabile Zustande für kein Neuron zu einer Aktivierung exakt
‡
führen, und vorgegebenes
kann man einen positiven Faktor å finden, so daß für das durch
eine Differentialgleichung modellierte Netz mit den Gewichten multipliziert mit å folgendes gilt:
Für jeden stabilen Zustand des Hopfieldnetzes findet man einen stabilen Attraktor des durch
·
die Differentialgleichung beschriebenen Netzes, so daß die zugehörigen Ausgaben in keiner
Komponente mehr als von abweichen.
1
1
1
Beweis: Sei für alle stabilen Zustände die Aktivierung der Neuronen betragsmäßig größer als . .
sei so klein, daß für um in den Komponenten von einem Fixpunkt abweichende Punkte die
Aktivierungen betragsmäßig
immer noch
sei soò gewählt, daß

òž größer als . sind. å
ç
A
à sgd ç å þ .
. à sgd å
ÿ¢þ
1
ê
1
ò
1
gilt. Insbesondere berechnet man für einen von einem stabilen Zustand
ï in jeder Komponente
ç
gegebene Zustand um
weniger als abweichenden Zustand , daß der durch sgd å
ë
weniger als
in jeder Komponenten vom stabilen Zustand abweicht, denn die Aktivierungen
A
sind größer als . , mit å multipliziert
ergibt sich
maximal der Abstand
. Das bedeutet
{
also
aber, daß für Koeffizienten von , im
Intervall
ý
†ê
ê
òž
1
þ
1
+
ç
sgd å
é
ë
1
1
96
B. Hammer
1
1
{
und für Koeffizienten von im Intervall
im Intervall ÿ¢
{ÿ¢þ
†ê
ê þ ò
é
+
ç
þ
ë
sgd å
ý
mit der Dreiecksungleichung. Das heißt aber, daß bei Start in den Intervallen
ý bzw. ÿ þ
{ÿ þ
ý um den stabilen Zustand man in einer -Umgebung des stabilen Zustands bleibt. Für

die zugehörigen Nettoinputs bedeutet das, daß sie über die zeitliche Entwicklung hin entsprechend
ê
dem stabilen Zustand . bzw. þ . bleiben müssen. Da sie konvergieren, erhält man also einen
stabilen Zustand mit maximal vom ursprünglichen stabilen Zustand entfernten Ausgaben . <
1
Somit werden also Zyklen vermieden und die Konvergenz gegen einen stabilen Zustand ist deterministisch. Nichtsdestotrotz ist das Problem von lokalen Minima der Energiefunktion gegeben, die
man eigentlich verhindern will – und hier nicht umgeht. Eine Alternative stellt eine stochastische
Betriebsweise von Netzen dar. Die Zustände sind weiterhin KTHÿM -wertig. Für jeden Schaltschritt
wird die Altivierung jedes Neurons berechnet und anschließend synchron alle Neuronen oder auch
lediglich ein Neuron mit der Wahrscheinlichkeit ê
ò
ç
sgd net á
ê
auf ÿ geschaltet. á heißt dabei die Temperatur. Je kleiner diese ist, desto steiler ist die sich
ergebende Kurve in Abhängigkeit von net und desto mehr approximiert die Kurve die Perzeptronaktivierung. Aber die Möglichkeit, sich aus lokalen Minima der Energiefunktion zu befreien, ist
gegeben: Die Wahrscheinlichkeit, zwar lokal verschlechternde Schritte (Energie wird kurzfristig
höher), aber global verbessernde Schritte (man erreicht langfristig ein besseres Optimum) durchzuführen, ist größer als Null. Häufig betreibt man das Netz dabei mit Simulated Annealing, d.h.
die Temperatur ist zu Beginn sehr hoch, so daß der Zustandsraum stark exploriert wird, und wird
allmählich abgekühlt, d.h. á vermindert, bis man bei kleinem á in einem (dann hoffentlich globalen) Optimum landet. Die stochastische Sichtweise ermöglicht eine weitere Trainingsmethode,
wobei auch hidden Neuronen mittrainiert werden können. Der Ansatz geht auf Hopfield zurück
und nennt sich nach der beteiligten stochastischen Verteilung die Boltzmannmaschine.
6.5
Die Boltzmannmaschine
Die Boltzmannmaschine ist
ein
stochastisch schaltendes Hopfieldnetz. Wir nehmen hierê an,ò daß
ê
ò
sie asynchron geschaltet wird. D.h. in jedem Schritt wird zufällig ein Neuron ausgwählt, das mit
ç
ç
Wahrscheinlichkeit sgd net á den Wert ÿ annimmt, mit Wahrscheinlichkeit ÿåþ sgd net á den
Wert . Es sollen zunächst einige Notationen eingeführt werden:
ò
ê ê
ê †ê
Wie schon vorher sei
é
ö+ é
ò
ç
a þ ÿ
ë
:
1 1
:
@1
die Energie im Zustand . G seiˆ die Anzahl der Neuronen. Jedes Neuron werde { mit Wahrschein
ì
lichkeit ÿ G ausgewählt. Wenn man sich im
Zustand befindet
und das Neuron ausgewählt hat,
ò
¶
sei
{ a µ +
æ
ç
e õ netD ù õ
ÿ p
ÿ
{
ì
ÿ schaltet,
die Wahrscheinlichkeit, daß das Neuron auf
ò
¶
µ + net
{
æßç
e Dù õ
p a
ÿ
:
:
7
7
:
: : · sei
ist die Wahrscheinlichkeit, daß das Neuron auf schaltet.
Für Zustände ,
ò
q
·
æ
ç
: :
Neuronale Netze, WS 99/00
97
1 : :
1 : : :
:
: :
·
die Wahrscheinlichkeit, in einem Schritt von
zu schalten, d.h. es ist
†ê
ò nach
ò
{
ò
·
a
N æßê ç p
G
ÿ
{
{
q
· a
æ
ç · ·
æßç
G N
ÿ
p
und unterscheiden sich nur in
sonst
·
Dieses definiert für jedes feste eine Verteilung auf den Zuständen . Die Wahrscheinlichkeit, in
·
~ Schritten von nach zu kommen, sei mit
ò
y
q
·
æ
ç
BDCA
: :
:
:
:
:
: :
:
··
bezeichnet. Da man über alle möglichen
Zwischenzustände
gehenò kann, gilt offensichtlich
ò
ò
y æ
y
y
q
q
· a é
· · æßç · · q
·
æ
ç
æ
ç
2³
: :
ì
: :
f
:
:
ø
:
:
+ ~ a~
·
für alle ~
. Auch dieses definiert für jedes feste eine Verteilung auf den Zuständen .
û
Die Situation, wenn man sehr lange schaltet, beschreibt folgender
Satz:
˜
:
Satz 6.8 Für alle Zustände
5
5
existiert
˜ dieò Grenzverteilung ò mit
y
· a y 02‚ƒ æ ç q
·
ç
5
„þ†
:
5
:
: :
³ 5 : :q :·
Sie ist unabhängig von . Die Verteilung
erfüllt˜ die Fixpunktgleichung
˜
ò
ò
ò
:
ç
5
· a
é
ç
Die Verteilung ist die sog. Boltzmannverteilung
˜
ò
· a
ç
eþ
æßç
³
ò
³ : · á
: á
eˆ
:
5
ç
ò
ç
þ
5
y
ˆ
· q
Beweis: Es sei °
. Das ist durch nach unten beschränkt und monoton
:
:
f
fallend wegen
³ · y q 9
y 9
P
ƒ
° a ³ : :
y
· q
··
·· q
ƒf ³
a
: : : :
³f
³ ·· q y
· q
· · ƒ
ƒ ³ f
: :
: :
fy ƒf ³ ³ · q f · · a P y
P
a
°N
°N
: :
f f
³
y
y
y
q
€
q
4
ƒ
2

1
P
·
"
° konvergiert also für ~
. Analog sieht man, daß ° a
f : : monoton
wachsend ist. Da es durch nach oben beschränkt ist, folgt auch hier die Konveregnz.
·
: q ì : · . für ein . , da man ja nachP G Änderungen
Für alle : und : ist
jeden
"
P
y
a
ƒ
ò
æßç
ì
ì
ò
æßç
ò
é
æßç
ò
æßç
ó
ò
é
ò
æßç
æßç
ò
é
æ
ç
ÿ
ò
æßç
ò
ÿ
æ
ï
ç
ì
ì
ì
ì
Zustand in jeden anderen
überführen
kann. Dann gilt
für geeignete Indizes
ò
ò
y 9
y 9
y 9
y 9
q
q
P
æßç
æßç
"
a
ì ú
ì ú
ü
ü
ì ú
ì ú
þ
ü þ
ü
°
°
:'´
:
:
è
:
und
98
B. Hammer
³
y
q
·
!
| :'´ ì : }5 ~ : ì : € N : ì :
³ ] f 5 [ |« N P ° ì y + ³ ] 5 } [ |« N " °ì y
y
y ¶
f
f
³
µ
P
|
«
"
a
5 [ N ° ì °ì
]
f . µ P ° ì y " °ì y ¶
³ ]5 }[ + ³ ]5 [
|«
(« a
a ist. Die letzte Ungleichung
Die vorletzte Gleichung gilt, da
f und : q ì f : · . . Es folgt also
q
·
folgert man wegen :'´ ì :
¶
¶
[
y
y
y
y
y
y
µ
µ
q
P
P
P
°
"
"
"
a
°y ì y °ì
°ì
°ì
°
°
!.
.
.
5e5e5
5
P
·
"
° und ° streben also gegen denselben
Limes. Es sei : ein beliebiger Startvektor. Dann gilt
y
y
y
· q
P
"
°
°
:
:
˜ 5
˜ 5
y
· q y
³ q y gegen dieselbe Grenze : . ist
also konvergiert auch :
unabhängig vom Startvektor
:
q
·
eine Verteilung, da mit :
: und : · : a dasselbe auch für den Limes gilt.
Ebenso erhält man durch Grenzübergang in der Gleichung
y 9
y
³
·· q
· a
·· q
: :
: : : q :·
é
a
ò
q
æßç
ò
·
æ
þ
q
ç
·
ò
æßç
è
ó
ò
ç
ü
ú
ÿ
ç
ü
þ
þ
ò
ú
ì
ü
ç
ò ï
ô
æßç
ÿ
ú
ì
ú
õ
ú
þ
ü
ó
ò
ò
ÿ™þ
ü
ó
ÿ
ò
ç
õ
æ
ÿ%þ
ü
ó
è
ÿ¢þ
ò
ç
òôó
þ
ü
þ
ò
ç
ò
ç
ú
ç
ó
æßç
ü é
ò
ú
é
ó
ò
ú
é
þ
ç
ÿ¢þ
ó
ç
ò
æ
ò
ò
ç
ï
ò
æßç
ç
æßç
ÿ
ì
ò
æ
ç
ò
é
æ
ç
ò
æßç
˜
ê
die Fixpunktgleichung für die Grenzverteilung.
[
˜ Eine
˜ Verteilung, die diese Fixpunktgleichung
ist eindeutig
bestimmt,ò denn sei
eine andere Verteilung, die ebenfalls
diese Fixpunkt˜ erfüllt,
ò
˜
ò
{
y
y
y
gleichung
erfüllt. Für eineq beliebige Verteilung
sei y die Verteilung nach Schritten. Dann ist
˜
P
ç
ç
· æ ç ·
"
a zwischen
und
angesiedelt. Egal mit welcher Verteilung[
ì
man startet, man erhält also
die
Grenzverteilung
nach ò beliebig langem
Schalten. Speziell für
˜
ò
˜
ò
˜
ò
y
y
berechnet man
[ ç ·
[ ç · a é
[ ç æßç q
· a
a
õ ˜
5e5e5
[
das heißt die Grenzverteilung stimmt mit überein.
Es reicht also zu zeigen, daß die Boltzmannverteilung
die Fixpunktgleichung erfüllt.
{¡ Offenåý
sichtlich kann man den Normierungsterm
e
bei
der
Rechnung
weglassen.
bezeichõ Nú ü ù
{
ne den nur in der Stelle von verschiedenen
Zustand. Es gilt
ò
ê
æßç
·ò q
ò
ê
e õ hú 6ü ù
ì
ê
q
+
¡
{
š
q
æßç ì
æ
ç
a
†ê
ò e
ê
ò ¶
e õ Nú ü ù
Ûý
õ Nú ê ü ù
ìµ
ê
{
‰
+
¡
{
{
æßç
æ
ç
a
ê p ò
e õ Nú ü ù
eNú ü õ Nú ü¶mü ù ¶
åý
ì
ì ì µ|
µ
{
+
æ
ç
a
e õ Nú ü ù
e õ net˜D ú yD õ
p
ÿ
Düù
ì a
a
e õ Nú ê ü ù ò
ÿ ê6ê e õ Nú ü ù
˜ †ê
ò
ò
ò
ê †ê
ê<ò
ì
{œ { a æ ç {
¡
{
¡
{
ç
ç
ç
ç
a gilt, und
a þ net
MIT
, wie wir
åý
p , da ë
þ
åý
þ
ý
³
:
1
:
f :
:
:
°
°
:
: : :
:
³ ³ 7
:
¶µ
³
³³ : 7
³· „¸
:
:
¶
µ
f
7 ³ ³· †¸ 1
f¶µ ³ 7 : : 1
: · „¸ : 7
¶µ
7
³
1 :
:
¶µ ³ 7
µ ° ¶° µ 7
³
: 7
¶µ 7
¶µ 1
¶µ
1 1
:
:
:
<
ˆ
ˆ
Die Boltzmannmaschine strebt also, egal in welchem Zustand sie gestartet wurde, gegen eine
früher schon nachgerechnet haben.
Neuronale Netze, WS 99/00
99
Grenzverteilung, die sich ausrechnen läßt. Diejenigen Zustände haben eine hohe Wahrscheinlichkeit, die Energieminima sind. Entspräche die Grenzverteilung der Gleichverteilung auf einigen Zuständen, so würden diese Zustände den gespeicherten Zuständen entsprechen, sie werden
im Limes erreicht. Durch langes Schalten kann man die absoluten Energieminima anhand ihrer
Häufigkeit eindeutig rekonstruieren. Möchte man die Boltzmannmaschine als Assoziativspeicher
verwenden, so besteht auch hier die Hoffnung, daß derjenige Zustand der Grenzverteilung als erstes erreicht wird, der dem Startzustand am ähnlichsten ist. Simulated Annealing kann den Effekt
unterstützen, daß ausgehend vom Anfangszustand der ähnlichste gespeicherte Zustand unter Vermeidung lokaler Minima erreicht wird.
Die Grenzverteilung der Boltzmannmaschine wurde nur für ein festes á ausgerechnet. Bei
Simulated Annealing strebt á gegen Null. Der Effekt ist dabei folgender:
Satz 6.9 Die durch
die Wahrscheinlichkeit der Zustände induzierte Anordnung ist unabhängig
q
strebt die Grenzverteilung gegen die Gleichverteilung auf den Zuständen mit
von á . Für á
minimaler Energie.
5
ò
Beweis: Die Wahrscheinlichkeit eines Zustandes ist durch
den Ausdruck
˜
ò
· ò
ç
á
· a
ç
eþ
ç
á
e þˆ
˜
òü¬˜
ò
5
ç
gegeben. Die Ungleichung
Energie derq beiden Zustände ab.
berechnet man
Für á
:·
:
5
ç
:
:
:
ˆ
ist unabhängig von á , sondern hängt nur von der
ò
· :
7 ˆ : á á a 7 02‚ƒ [ : · : á 5
e
e
„
„
·
ˆ
ˆ
ˆ
Dieses ist , falls ein : mit geringerer Energie als : existiert, da dann der Nenner über alle Grenzen
wächst. Falls : eines von 3 Energieminima ist, findet man im Nenner 3 Summanden und weitere
0‚2ƒ [
ç
eþ
ò
ò
ç
þ
ç
ç
ò~ò
ÿ
ç
þ
ÿ
Summanden, die gegen Null gehen, es ergibt sich also der Term
Gleichverteilung auf den Energieminima.
ÿ
3 . Dieses entspricht einer
<
Sollen also Muster gespeichert werden, indem die Grenzverteilung in etwa einer Gleichverteilung
auf den Mustern entspricht, dann kann man gut Simulated Annealing betreiben: Alle übrigen
lokalen Minima verschwinden für kleines á . Möchte man allerdings die Muster mit gewissen
unterschiedlichen Häufigkeiten speichern, darf á nicht zu klein werden.
Zum Training versucht man jetzt, die Gewichte so einzustellen, daß die
˜ Grenzverteilung einer
gewünschten
Verteilung – der Gleichverteilung auf den zu speichernden Mustern – entspricht.
˜
Dazu 9 wird als Fehlermaß die sog. Kreuzentropie der beiden Verteilungen , der Grenzverteilung,
und
der gewünschten Verteilung, gebildet:
˜
ò
˜ ˜ ò
˜
ò
˜ ç ò
9
9 ç
é
ç
a þ
N 0‚1 9 ç
5
5
³
:
5
:
:
ˆ
und minimiert. Der Fehler ist positiv und genau dann Null, wenn die beiden Verteilungen übereinstimmen, denn:
˜ê ê
˜ê
ê
˜ê
ê ˜êzò¸ï
˜ ê
ê 0‚1 ç a ÿ a ê ist Lemma 6.10 Für Zahlen , ê
mit
ê
und gleich Null
genau dann, wenn alle und ê übereinstimmen.
100
B. Hammer
ó
+
¸
ÿ
Beweis: Wie man am Graphenê leicht sieht, gilt
e für alle und Gleichheit nur für
ê
a
˜ê
ï
˜ ê
ê
˜ê
. Es folgt
˜ ê
˜ê
é
é
é
+
0‚1 ê
ê
a
a þ
ÿ ½
þ´ê
»
ê ˜ ê
a ÿ für alle { gilt.
<
mit Gleichheit genau dann, wenn ê
˜
˜
ò
Zum Training wird also Gradientenabstieg
auf dem so definierten Fehler vorgenommen. Da
9
9 ç
˜ ofa
fensichtlich eine Verteilung
mit
für ein nicht durch eine Boltzmannverteilung9 mit
endlicher Temperatur á dargestellt werden kann, sollte man eine gegebene Zielverteilung
für
das Training so abändern, daß die Wahrscheinlichkeit für alle Zustände evtl. klein, aber positiv ist.
Dieses verhindert ein Anwachsen der Gewichte über alle Schranken und kann durch Simulated
˜ aus
ò
Annealing ausgeglichen werden. Das Training
besteht˜ also
der Vorschrift
Ñ
9
ç
a þ
–
:
³
³
:
5
¯ ¯
. Dabei werden die Biases
mit einer Schrittweite
durch On-Neuronen simuliert. Es soll jetzt
ˆ
die Ableitung
von bestimmt werden. Der in der Verteilung auftretende Normierungsterm sei
~Sa ˜
ò
e õ hú ü ù ˜ .
ò
ˆ
ç
ò
9 ç 021 ˜
é
9 ç
þ
7
f ¶µ f ³
;
:
5
ê
:
:
³
¶
7
—ë
;
µ
˜
5
³ 9 : N N ; e¶µ ~
a
˜
³
³
: ³ ;—ë
9
˜
³ 5 : e¶µ ³ 7 ¹; : á N ~ e³ ¶µ 7 ³ e¶³ µ 7 ¡; : · á ~
a
f ˆ ;¿1 ë 1
˜ :
;—ë 1 1
ˆ
7
7
7
9˜
³ 5 : e¶µ N N e¶µ ³ ef¶µ f N N · · a
~
~
˜
1
1
˜á
˜ 5~
<
1
1
:
á
9
9
³
³
a
:˜ 5 á 61 1 ö+ ˜ : 61 á1 ³ : · · f·
³
³ 9 : f
a
:
á
{
D.h. ë
wird in jedem
Schritt
so
geändert,
daß
die
Verbindung
von
nach ) gemäß der Soll˜ 5 61 1
³
Verteilung gemittelt
verstärkt wird, wobei aber die Ist-Verteilung berücksichtigt wird. Dabei muß
man die Größe
: entweder anhand der Gewichte ausrechnen oder statistisch schätzen,
˜
ò
é
ç
þ
ÿ
ò
ç
ç
ç
é
ç
þ
é
ü ù
ò
ç ê
þ
ü ù
é
þ
é
õ Nú
ü ù
õ Nú
ç
þ
6ü ù
õ Nú
ò
ü ù
†ê
é
û
ç
þ
ê
ü ù
ò
é
ÿ
é
õ Nú
ü ù
ÿ
ê
ç
ò ê
é
ç
õ Nú
þ
ò
ÿ
ê
ê
ÿ
ò ê
ÿ
ò
†ê
ò
ç
þ
ç
õ Nú
ò
ê
õ hú
ò
é
þ
ò
ç
ò ê
ç
indem man das Netz zur Grenzverteilung relaxieren läßt und über die dann auftretenden Zustände{
mittelt. Ist die Soll- und Ist-Verteilung je eine Gleichverteilung, dann werden
das Gewicht von
{
nach ) lediglich anhand der Anzahl des gemeinsamen Auftretens der Pixel und ) in den Mustern
bestimmt. Dieses ist also wieder ein Hebbsches Lernen, wobei der aktuelle Zustand durch einen
Anti-HebbTerm mit berücksichtigt wird.
˜
ò
Man kann diesen Formalismus auf Netze mit verborgenen Neuronen erweitern. Dazu seien
ç
die Zustände auf dem sichtbaren Anteil mit notiert, sie sollen auf die ˜ Verteilung
trainiert
ò
werden. Die verborgenen Neuronen, die lediglich zur Stabilisierung benutzt werden und dessen
ç
Aktivierung uninteressant ist, seien mit notiert. Die Grenzverteilung
induziert auf dem
˜
ò
˜
ò
uns interessierenden Teil eine Randverteilung
5
º
»
ç
º
a
5
]½ 5 ¼º »
é
ç
5
5
º¼»
º
˜
Neuronale Netze, WS 99/00
º
101
ò
5
5
Die
mit der gegebenen Verteilung
9 ç Gewichte sollen so gewählt werden, daß diese˜ Randverteilung
ò
˜
ò
übereinstimmt. Es sei
˜ ç ò
ç
a
5 º¼»
» º
º ½
½
¾ wir7 º bereits kennen. ~ sei der in der
die Verteilung der hidden Neuronen˜ im Grenzfall,
wenn
˜ b¾
5
Verteilung vorkommende Normierungsterm 9
e ¶µ f f . Dann kann man für die uns interf
f
˜ 5
º
º
essierende Ableitung
des
Fehlers
nachrechnen:
˜
˜
9
0‚1 9 º
ˆ
; ¾ º
º
˜
˜ 5
; º ë I½ ; º¼»
˜ 95 —
a
¾ ˜ º
½
;
—
ë
¾
˜ 95
7 N ¿ ¿ N ~
½
º
a
¾ º » e¶µ ½ á U ½ U
¾ 7 ½ ¾ 7
N N @¿ · U · ¿ · U · ~
e ¶µ f f
¾
˜ e ¶µ
˜á
˜ 5
½ ˜ 9 5 º ˜ 5 f¿ f ¿ ½ ˜ 9 5 º ˜ 5
½
· · @¿ · · ¿ · · a
¼
º
»
U
U
¼
º
»
º
» U U ¾
¾
¾
á
º
º
˜ 9 ]½ ˜ 5 ¿ @¿ ½ ˜ 5 ¿ f f ¿ a
» º U U ¾ º¼» U U ¾ º
ç
ò
ò
ò
é
ç
ç
þ
ç
ç ê
é
ò
ç
é
þ
ò
ò
ç
þ
ü ù
ç
ò
ç
õ Nú
ç
ò
ê
é
ò~ò
ç
òê
ò
õ Nú
ç
ç
ÿ
ü ù
ò
ç
òê
é
þ
ç
é
ÿ
þ
õ Nú
ò
ò
õ Nú
ü ù
ò
ç
òê
ç
þ
ÿ
ç
ò
é
ç
þ
òê
ç
ç
é
ç
ç
û
ò
ò
ç
ò
é
ç
ÿ
ü ù
ò
ò
ò
ç
ç
ò
ò
é
ò
ç
é
ç
ç
þ
á
òê
ç
òê
ç
ò
ç
ò
ç
5
Die Gewichte werden also wieder gemäß der gewünschten Verteilung durch Hebbsches Lernen
verstärkt, wobei bei den freien Gewichten zu hidden Neuronen statt der Soll-Verteilung die tatsächliche Verteilung eingesetzt wird. Ein Anti-Hebb-Term gemäß der˜ aktuellen
Verteilung kommt
ò
hinzu. Die Größen kann man entweder aufgrund der bekannten Form der Grenzverteilung
anhand
ç
zu bestimmen, hält
der Gewichte berechnen oder statistisch schätzen. Um die Größe
man dazu die Aktivierung der sichtbaren Neuronen fest und läßt den Rest zur Grenzverteilung
˜
ò
relaxieren. Die Verteilung entspricht dann der zu schätzenden, denn:
ç
Lemma 6.11 Die Boltzmannmaschine mit fixem relaxiert zur Grenzverteilung
.
5
º
º
ê
¾ »º
ò
ê
» º
» º
¿
ê
Beweis: Falls man die Neuronen festhält, ergibtò sich eine
Boltzmannmaschine für die übriò ç
a þ ë für das Neuron U . Diese
gen Neuronen
mit
geändertem
Bias,
dem
Bias
ò
ò
ç
relaxiert also gegen eine Grenzverteilung. Sei
die Energie dieser Maschine im Zustand .
ç
ç
sei die Energie, wenn man nur die Neuronen berücksichtigt,
sei die Energie der
ˆ ê ê ò
ê
ê
Boltzmannmaschineò für Summation
über
alle Neuronen.
Es gilt:
ˆ
ˆ ò
òê +‰ò ê
ê
ê
ò
ò ç
ç
a
þ
ë
U
U
U
ç
+ a
ç
ç
ç
a
þ
ë
U
U
ë
þ
ˆ
5
S
~
a
ˆ ˜
˜
ò
òˆ
Folglich ist mit
eNú
:
6ü ù
˜
ò
˜
ò
ç
˜ ç ò
~
˜
ò
ç
ç
a é e õ "ú ü ù
a é e õ hú ü ù
a é
a
a
ç
·
ç
~
5
eõ ú ü ù
e õ Nú ü ù
º
¾ »
¾5
»
L¾ ½ ½ µ
7
f
f
½
<½ ¶µp¶À µ À 7
f
f
½¾ ¿ @¿
7 ½
f f ¾ ½7
<½ ¶µ ¶µ ¾ 7
f
f
º
»
º¼»
º ¿¿
5
.½ 5 º¼» º¼»
f
º¼»
5
º
5 º“»
º
Die Boltzmannmaschine wird daher mithilfe folgenden Algorithmus trainiert:
5
» º
<
102
B. Hammer
Die Gewichte werden zufällig initialisiert. Sie werden
vermöge Gradientenabstieg geändert.
ê
Der Gradient besteht aus einem{ Hebb-Term: ë
wird um die gewichtete Anzahl von Mustern in der Zielverteilung, die und ) beide auf ÿ setzen, erhöht. Sind hidden Neuronen
vorhanden, dann muß die Verteilung auf den hidden Neuronen, gegeben ein Vektor der Zielverteilung, statistisch geschätzt werden. Dazu hält man fest und läßt die resultierende
Maschine zum Gleichgewicht relaxieren (clamping).
º
Zusätzlich besteht der Gradient aus einem Anti-Hebb Term, der sich aus der mit den vorhanden Gewichten induzierten Grenzverteilung ergibt. Die Grenzverteilung kann man dabei
schätzen, indem das Netz zum thermischen Gleichgewicht relaxiert (free running).
Anschließend kann die Maschine als Assoziativspeicher verwandt werden: Gegeben ein verrauschtes Muster relaxiert sie evtl. mit Simulated Annealing zum nächstgelegenen wahrscheinlichen Zustand der Grenzverteilung, den sie erst nach einiger Zeit wieder verläßt, um die wahrscheinlichen Zustände der Grenzverteilung aufzusuchen. Das Training dauert aufgrund der notwendigen
statistischen Schätzungen allerdings relativ lange, ermöglicht durch das Einbeziehen von hidden
Neuronen allerdings eine große Variabilität in der Darstellungsmächtigkeit.
7 Selbstorganisierendes Lernen
Bei selbstorganisierendem Lernen ist keine explizite Funktionalität vorgegeben. Eingabedaten sollen so verarbeitet werden, daß sinnvolle Information extrahiert wird. Die Daten sollen sich selbst
organisieren. Kennzeichen von selbstorganisierenden Verfahren ist, daß häufig lokale Information verarbeitet wird; das Training ist inkrementell und schnell. Es sollte in den Daten Redundanz
enthalten sein, so daß eine Informationsextraktion überhaupt möglich und notwendig ist – ohne
Redundanz, wenn auch nur durch z.B. eine metrische Struktur auf den Daten, sind die Daten selbst
ihre beste Reräsentation. Konkrete Aufgaben werden sein:
Ähnlichkeiten in den Daten lernen, irrelevante und zufällige Faktoren ausfiltern,
Clustering der Daten, Prototyping,
Reduktion der Dimension, indem nur relevante Faktoren gespeichert werden,
7.1
Abbilden der Topologie der Daten.
Hebbsches Lernen
ò
Zunächst betrachten wir wieder ein einfaches Neuron, welches lediglich die gewichtete Summe
ç
der Eingaben, d.h. die Korrelation mit der Eingabe berechnet. Formal ist dieses ein ~ {ÿ Ñ feedforward Netz mit linearer Ausgabe und Ausgabebias . Die Gewichte bezeichnen wir mit . Das
Neuron soll als Gedächtnis fungieren, das sich relevante Information der Eingaben merkt und irÑ
relevante Information vergißt.
Neue Vektoren, die stark korreliert sind mit dem die Information
repräsentierenden Vektor , ergeben dann größere Ausgabewerte als Eingaben, die nur schwach
Ñ
korreliert sind.
[
Ñ Ò oder
Als erstes versuchen wir wieder die Hebb-Regel, d.h. startend mit
(z.B. der Nullvektor
a
Ñ
ein Zufallsvektor) wird in jedem Durchlauf ein Muster eingelesen, die Ausgabe Ð
be
rechnet, und der Vektor jeÑ nach dem
Vorzeichen
von Ð zu ò ähnlicher
oder unähnlicher gemacht:
ò
ò
Ñ
Ñ Ò
+
+
+
ç
ç
ç
s
a
é
ÿ
é
Ð a ë é
¯
¯
Neuronale Netze, WS 99/00
103
Die Daten sind dabei unabhängig und identisch verteilt gemäß einer zugrundeliegenden Wahræ
scheinlichkeit gezogen. Um das asymptotische Verhalten solcher stochastischen Verfahren zu
analysieren, nimmt man an, daß sich die Gewichte wesentlich langsamer ändern als die Daten repräsentiert werden. Daher ist es gerechtfertigt, über die Änderungen zu mitteln; statt der tatsächlichen Gewichtsänderung in jedem Schritt betrachtet man die zu erwartende Gewichtsänderung.
[Für kleine konstante Lernraten und geeignete Vorbedingungen kann man zeigen, daß die
beim stochastischen Verfahren entstehenden Trajektorien auf kompakten Anfangsstücken in Wahrscheinlichkeit gegen die sich bei der gemittelten Dynamik ergebenden Trajektorie streben [Hornik].]
Es ist also die Gleichung
ê
ê
ò
Ñ
Ñ
éíê
ç
a
a
–
ë
¯
¯
Dabei ist
ê
ç òŒòê
ˆ
zu betrachten.
die Korrelationsmatrix
der Daten. D.h. ist ein
{
~ -dimensionaler Zufallsvektor;
beschreibt das Produkt der ten und ) ten Komponente des
ˆ
Zufallsvektors. Je Eintrag in der Matrix wird der Erwartungswert des entsprechenden Produktes
berechnet. Wir sind am asymptotischen Verhalten der Regel interessiert. Wir werden ò im folgenden
Ñ
die Verfahren selbst in der stochastischen Version angeben, asymptotische Analysen
aber mit der
ç
é für den sich
gemittelten Version durchführen. In beiden Fällen verwenden wir die Notation
imÑ konkreten Fall bzw. im Mittel nach dem é ten Schritt ergebenden Gewichtsvektor. Punkte mit
a heißen Fixpunkte des Verfahrens. Nur in solchen Punkten ändert sich nichts. Fixpunkte
–
heißen stabil falls man eine Umgebung finden kann, so daß für jeden Startpunkt innerhalb der
Umgebung die sich ergebende Folge gegen den Fixpunkt konvergiert. Insbesondere darf man
also auch den Fixpunkt leicht ändern, was ja bei der stochastischen Version in der Regel der Fall
ist, ohne sich je zu weit vom Fixpunkt zu entfernen. Nur stabile Fixpunkte können also bei der
stochastischen Version des Verfahrens als asymptotisch erreichbare Punkte Ñ angesehen werden.
Falls es stabile Fixpunkte dieses Verfahrens gäbe, gegen die der Vektor asymptotisch strebt,
Ñ
Ñ
so würde
a
a –
Ñ
¹
gelten.
wäre also oder ein sogenannter Eigenvektor der Matrix zum Eigenwert . [Ein
P
P a
Eigenvektor einer Matrix
ist ein Vektor a mit
für eine skalare Größe , die
dann Eigenwert zum Eigenvektor heißt.] Es ist interessant zu sehen, daß man obiges Verfahren
auch als Gradientenabstieg der Funktion
ÑcÒ Ñ
a
ç ê
¯
8
þ
8
ÿ
Ñ
auffassen kann. Der Gradient liefert genau þ
.
Als erstes sieht man daran, daß nicht stabil ist, sondern Ñ ein lokales Maximum der zu minimierenden Funktion. Desweiteren sieht man, daß Richtungen , so daß bzgl. dieser Richtung die
Ñ der Daten maximiert wird, als stabile
Ñ
Ñ Ò ÑIst allerdings die
Korrelation
Fixpunkte in Frage kommen.
ò
ò
Ñ Ò vonÑ
Länge
nicht beschränkt, dann strebt
gegen unendlich, denn ist
, dann ist
ç
ç
für
ÿ nur noch größer. D.h. obige Lernregel ist instabil und liefert einen explodierenden Gewichtsvektor. Wäre allerdings die Länge beschränkt, was wäre dann das Ergebnis?
Hier soll zunächst ein kleiner mathematischer Exkurs folgen, der die Matrix ein wenig näher
beleuchtet.
8 8
8
ist offensichtlich symmetrisch.
104
Ñ Ò
ò
ò ò ï
Ñ Ò positiv
Ñ Ò ò Ò semidefinit,
Ñ Ò d.h.
ist
ç
ç t
çŒç
a
ï
Ñ
Ñ
gilt für alle Vektoren
.
ˆ gibt eine Orthonormalbasis
ˆ
Es
für
B. Hammer
ÒòÑ
ç
a
Ñ Ò
, denn
ˆ
bestehendy aus Eigenvektoren, da positiv semidey
finit ist. Wir nennen die Eigenvektoren Á , . . . , Á , die zugehörigen Eigenwerte 8 , . . . , 8 .
û
Orthonormalbasis bedeutet:
ì
ì
¹
Ò
ê
Á Á
a
Ò
ÁÁ
{
für a )
ê
ê
a
ÿ
5
ì
Man beachte, daß ê dieò Eigenwerte die
Po˜ Nullstellen des sogenannten charakteristischen
ê

lynoms der Matrix sind,
welches bei konkret vorgegebenen Daten , . . . ,
mithilfe der
ç
ó Koeffizienten
abgeschätzt werden kann. Die Situation, daß ein Eigenwert genau ist oder zwei Eigenwerte gleich sind, ist dabei eine Nullmenge, d.h. taucht
ˆ
bei Rauschen so gut wie nie auf. Daher
ì nehmen wir im folgenden
y ó
ê
ê ê ê
ê
ê
5e5x5
Ò
Ò
ê
a
a
an. Die Eigenwerte müssen dabei notwendig positiv sein, da gilt.
8
Á
8
ÁÁ 8ÁÁ 8
ê
Die Vektoren sind bis auf ihr Vorzeichen eindeutig, da êdie Menge aller Eigenvektoren
~ verschiedenen Eigenvektoren einen eindimensionalen Vektorraum
zum Eigenwert bei ñh
ê ê
ñhê ê
ñhê êyò
Ñ
Ñ
Ñ berechnet für
darstellt.
Jeder
andere
Eigenvektor
ist
ein
Vielfaches
eines
,
denn
man
einen
êyñhê ê
çê
a
a
a
a
a
Eigenvektor
zum Eigenwert
:
ñðê
. Die Koeffizienten in obiger Darstellung sind aber eindeutig, da die eine Basis
bilden. Also sind alle Koeffizienten ñhê bis
auf maximal einen .
ê
Ñ
Ñ Ò Ñ
ñ ê
ê
a
Für einen beliebigen Vektor
kann man den Term
mithilfe der Eigenvektoren berechnen als
. ê
û
Á
8 Á
8
8
Á
Die Bedeutung der Eigenvektoren
Ñ Ò Ñ
Á
8 Á
8
Á
8
ì
Á
Á
Á
wird anhand
folgenden Satzes klar:
ì
Á
Á
Á
ì
Á
Satz 7.1 Die Korrelation
wird durch maximiert, sofern man sich auf Vektoren der Länge
ÿ beschränkt. Im zu
orthogonalen Raum maximiert die Korrelation, im zu und orthogoû
û
nalen Raum , . . . , alles unter der Bedingung, daß die Vektoren Betrag ÿ haben.
•
Á
Beweis: Es ist
ñhê
é
Á
Ò
Á! ê
ì
Á
ì
ñhê
8
é
Á!
ê
ñ
ê
ñ
êû
8
aó
é
û
ì
Á
ê
é
8
ì
a
8
ì
ê
ñÈì
Andererseits
wird aber für der Wert angenommen.
ñhê
ê
ì
ê
ì
Für Vektoren im jeweiligen zu , . . . , orthogonalen Raum fallen die Komponenten , . . . ,
9
9
weg, eine analoge Rechnung wie oben zeigt, daß dann noch das Maximum
etwa durch
ê<ò
<
erreicht werden kann.
ì
{
ç
a Für alle . Die Korrelation
Wir nehmen jetzt an, daß die Daten um zentriert
sind, d.h.
ê
ist also absteigend in Richtung , , . . . maximal. Diese Richtungen heißen
{ auch Hauptkompoû
ˆ
nentenrichtungen der Verteilung. Der Vektor bzw. sein negatives heißt te Hauptkomponente
der Matrix. Sind die Daten um den Koordinatenursprung zentriert, so bedeutet das genau, daß die
Streuung der Daten in den ersten Hauptkomponentenrichtungen maximal ist. Möchte man also
maximale Information über die Daten behalten, aber die Dimensionen auf lediglich 3 reduzieren,
Á Á
Á
8
Á
Neuronale Netze, WS 99/00
105
so kann man die Daten bzgl. der ersten 3 Hauptkomponenten statt der ursprünglichen Daten betrachten. Dieses ist natürlich nur ein Plausibilitätsargument, allerdings kann man folgendes zeigen:
Möchte man die Daten auf 3 orthogonale Richtungen linear transformieren, so daß der Informationsverlust, d.h. in diesem Fall der quadratische Fehler zwischen den vollen Daten und den auf
3 Dimensionen reduzierten Daten, minimiert ist, dann sind die ersten 3 Hauptkomponenten bei
um Ü zentrierten Daten optimal. Eine Hauptkomponentenanalyse, welche auch mit klassischen
Methoden òdurchführbar
ist, ist eine verbreitete Vorverarbeitung
zur Dimensionsreduktion.
ò
ì
Ñ
Ñ Hebb-Regel:
Zurück
zur
Es
gilt
zwar,
daß
das
Verfahren
divergiert,
aber betrachtet man die
ç
ç Größe é
é , so konvergiert diese (im Mittel) gegen (oder das negative). Um die Stabilität
ò
des Verfahrens zu erzwingen, könnten wir die Regel
zu
Ñ also
ò
Ñ
ç ò +
Ñ é
+
ç
Ð
a
ç +
é
ÿ
é
Ð
¯
Á
¯
modifizieren.
Á
ì
¡Á
ì
ò
ò
ê
Satz 7.2 Obiges Verfahren konvergiert
im Mittel gegen oder þ
.
Ñ
ÒÑ
+
+
ç
ç
Beweis: Die Korrelationê
für den
Vektor é ÿ berechnet
ÿ
òé
ò~ò sich im Mittel ergebenden
ê
Ñ
Ò Ñ
ò
ê
ÒÑ
sich als
+
ò +
ò
Ñ ç ç òé
Ñ ç òé
Ñ
Ñ
ç
ÿ
a
ç +
ç
ç
é ç +
ì
ê
é
é
é
Ñ
é 5
ÒÑ
y
ò
ê
Ñ
Bzgl. der Basis , . . . , sind die Koeffizienten eines
+ Vektors genau durch die Korrelation
ç
gegeben. Die Koeffizienten des neuen Vektors é ÿ bzgl. der Koordinaten ergeben sich also
bis auf einen positiven multiplikativen Faktor als
òì
ò
ò
+
yì
+
ì
y ÿ
ç
ç
ç
ÿ
û
+
½
Aë é
» ë é Aë é û +
ò8ê
ÿ
ÿ
5e5e5 ê
Á
Á
Á
¯
Á
¯ Á
¯
ç
ì
Á
Á
Á
¯8
¯8
¯8
¯8
¯ 8
¯8
¯8
êzò
ì~ò
wobei
die Terme ë é die alten Koeffizienten bzgl. darstellen. Das heißt,+ in jedem Schritt
wird
¹
ç
ç +
der
Anteil
in
Richtung
verglichen
zum
Rest
größer,
da
ja
alle
Terme
.
für
ÿ
ÿ
{ a
ì
ÿ kleiner als ÿ sind.
ò
Ein Spezialfall ist gegeben, falls der Anteil in Richtung zu Beginn ist. Formal würdeÑ obiç
ger Ausdruck dann gegen den Nullvektor konvergieren. Sofern man mit einem zufälligen
startet, tritt dieser Fall aber nur mit Wahrscheinlichkeit Null auf.
<
Á
Á
Der Nachteil ist, daß diese Regel globale Information, d.h. den Wert aller Gewichte benötigt, um
ein einzelnes Gewicht ändern zu können. Sie kann also nicht verteilt auf die Gewichte implementiert werden. Eine Alternative bietet es, wenn man die Taylorentwicklung um a obiger Regel
betrachtet; wir
jetzt wieder die stochastische Version:
Ñ betrachten
Ñ Ò
+
Ñ
Ñ Ò
+
Ñ
Ñ
Ñ Ò
ò
·
+
Ñ +
Ñ
Ñ Ò
ó
ç
a ½
ò
ò
» +
Ñ
Ñ Ò
Ò Ñ Ò
ò
Ñ Ò
Ñ
Ñ Ò
Ñ
Ñ Ò
+
ç
s ç ÙxÚ
Ñ
Ñ
Ñ Ò
+
Ú
s +
ç
ò
+
þ
Ñ +
Ñ
Ñ
Ò
ç
Ö×
a
a ×Ø
+
Û
¯
¯
¯
¯
¯
¯
¯
¯
a
Ñ
Ñ
+
¯
Ñ Ò
Ñ
» þ
¯
Ñ6Ñ Ò Ñ Ò
Ñ
½
•
¯
¯
¯
û
¯
¯
106
Beachtet man
Ñ
+
ç
é
ÿ
B. Hammer
Ñ
ó
ò
a
Ñ
ÿ
, òso kann man
obigen Term
durchò~ò die Regel
ò
ò
ò
Ò
Ò ò Ñ
Ñ
Ñ
Ñ
+
+
ç
ç
ç
ç
ç
ç
ç
û
é
é
þ
é
é a
é
¯
¯
ò
ç
ò
ç
Ð é
ç
!Ð é
þ
òŒò
Ñ
ç
û
é
die sogenannte Oja-Regel, ersetzen. Mittelt man über die Eingaben, erhält man aus der stochastischen Version die gemittelte Version
ò
ò
ò
ò
òŒò
òŒò
Ò Ñ
Ñ
Ñ
Ñ
Ñ
Ñ
+
+
ç
ç
ç
ç
ç
ç
ç
ç
a
é
ÿ
é
é þ
é
é
é
5
¯ ì
Á
ì
¹Á
Satz 7.3 Fixpunkte der (gemittelten) Oja-Regel sind die Hauptkomponenten und der Nullvektor.
Einzige stabile Fixpunkte sind die Vektoren und þ
, d.h. die Hauptkomponenten zum größten
Eigenwert.
Ñ
Beweis: Für Fixpunkte
Ñ
gilt
Ñ
ÑcÒ
ç
þ
ò
Ñ
Ñ
a à
Ñ Ò Ñ
ñ
ê
ñ
¹
Ñ
also ist
Eigenvektor von zum Eigenwert
a . Man rechnet
etwa a ñ ê mit
ê
ñ
ê
Ñ
ÑýÒ Ñ ò Ñ
a
a
a ç
a
Á
8Á Á Á
ê
Ñ
ÑcÒ
a
ç
8
a
êyò
ç
ò
Ñ
Ñ
oder der Nullvektor. Im ersten Fall sei
Á Á Á
ñ
ñ
Ò
êzò~ñ
ê
ñ
ê
O8 Á
a
ç
ê
¹Á
•
ê
à
ñ
a
Ã
5
Ñ
Folglichò sind
nur die Vektoren (oder þ ) und der Nullvektor Fixpunkte.
q
ò
ç
Ñ Ò Um
Ñ Stabilität
Ñ
þ
þ
 zu testen, berechnen wir, ob die Jakobimatrix der Funktion
ç
Ò am Fixpunkt
positiv definit ist. In diesem Fall ist der Punkt stabil. Gibt es Richtungen
ist, dann ist das Verfahren instabil, wenn man sich aus diesen Richtungen
, so daß
Ñ ò
ÑcÒ Ñ ò
Ñ6ÑcÒ
nähert. Es ist
+ ç
+ ç
a
Â
Â
Œ
Â
þ
Ñ
­Sÿ
Œ
mit der Identitätsmatrix .
[An dieser Stelle sind evtl. ein paar Regeln angebracht, die mehrdimensionales
Ableiten einfao
ò
y durchführen und benötigt
cher machen. Man kann
aber alle
Rechnungen
auch komponentenweise
q
ò
ê
òê
ç die
dann nicht mehr als eindimensionale
Für eine Funktion
Ï
Ï bezeichne
Analysis.
ç ç
a
Jakobimatrix, d.h.ò~ò
ò
òŒò . Dann gilt
+
ç
ç º+
ç
ç ç
‘ ò a
‘ ,
Ã
q
ç
a
für eine Matrix ,
Ã
ò
Ò
q ç
a für eine symmetrische Matrix ,
Â
 8
8 Â
 t t
Â
t
t
 Àž‘ a  N Âs‘ ,
 N‘ a N ‘ +
Â
; ;
Â
t
t
ò
ç
ò
ç
Also
ò
‘ N
ç
Ò
ç
Â
ç
òŒò
Ò
für
o
y
q
Ï
Á Ò ++ Á Á Ò ¹ Œ + + Á Ò Á Á Ò Ã8 Á Á 8 Á Á Á Á 8 Á Á
){ ¹a 3
BDCA 8 { aa ) aa 3
3
8 `8
)
Ò
ê<ò
ÁÂ Á Á
a
ç
Ò
ç
þ
þ
ê
a
êzò
ê
ç
a
Ï .]
ê
þ
ê
Ò
ê
ê
ê
ò
ê
Neuronale Netze,
WSê<99/00
107
ñ
ò
ò
ñ
ò
ñ
ñ
êzò
ê<ò
Ò
Ò
Ò
ì
a ç
a ì ê ç
¹
ç ç
ç Wegen
{ a ist also derê einzige¹ stabile
Fixpunkt oder das negative, da nur dann alle Werte
þ
für
ÿ größer als sind. Für {
ist die Jakobimatrix þ
und also negativ definit (d.h. þ
ist positiv definit), für mit a ÿ sind
<
Richtungen instabil, die von Eigenvektoren zu größeren Eigenwerten kommen.
Á Â Á
Á
Á
ÁÂ Á Á
8 Ä8
ÅÂ
Á Â Á Á
Á
Es wurden alternative Regeln zur Oja-Regel vorgeschlagen:
ò
Ñ
Yuille-Regel:
ç
+
é
mit der gemittelten Version
Ñ
ç
é
a
ÿ
ç
ò
+
+
é
ç
+
é
ò
Ñ
ç
ç
¯ ò
Ñ
a
ÿ
¯
ò
Ñ
Ò
é
ê
þ
ò
Ñ
ç
ê
ç
é
þ
ò
Ñ
ç
é
ò
Ñ
ç
é
ò~ò
Ñ
ç
û
é
òŒò
Ñ
ç
û
é
5
Fixpunkte sind und die Vektoren
. Die Jakobimatrix der das Differenzenverfahren
beschreibenden Funktion berechnetò sich als
Ñ
Ñ ÒÑ
Ñ6Ñ Ò
+
+
ç
a þ
ì
ì
5
Diese ist an der Stelle negativ definit und genau in
¹ positiv definit, denn
8Á
Â
ê
Ò
Œ
BDCA
ê<ò
ÁÂ 8Á Á
ç
a
8 Á
ê
) a
8
8 8 ) a
ê
) a
þ
3 ¹ {
3 a {
3 a
Die gemittelte Version der Yuille-Regel ist ein Gradientenabstieg zur Funktion
ÑcÒ Ñ
Ñ
+ Ÿÿ ÿ
þ
®
5
Hassoun-Regel:
Ñ
ò
ç
8
é
+
ÿ
a
¯
ò
Ñ
ç
é
+
ò
Ñ
ç
»
é
Ò
Ñ
8
þ
»
ÿ¢þ
Ñ
ÿ
ç
é
ò
Ñ
ò
½
ç
é ½
und hinreichend von Ü entferntem . Die gemittelte Version liefert
ò
ò
ò
ò
Ñ
Ñ
Ñ
Ñ
ò
Ñ
+
+
ç
ç
ç
ç
ÿ
a
é
ÿ
é
é þ
é ½
»
» ÿ¢þ ç 2½
é
êzò ê
ç
mit den Fixpunkten
. Die Jakobimatrix berechnet
ßþ
Ñ6sich
Ñ Ò als
Ñ ò
Ñÿ
Ñ
+
ç
a þ +
» ÿ¢þ ½
ì–ò
ì
ì
• 5
ç
Diese ist genau in
Zþ
positiv definit, falls
, ¹ denn
mit
¯ 8
8 8 `8 Á
8
Π8
Â
8 8 8 Á
8 8
Ò
) a
a B CA 8
8 8 ) aa
Á Â » 8 `8 Á ½ Á
8 8 )
ì
ê
ê
ê
ßþ
þ
þ
3 ¹ {
3 a {
3 a
Die gemittelte Version der Hassoun-Regel ist ein Gradientenabstieg zur Funktion
ò
ÑýÒ Ñ
Ñ
+
ç
ÿ
þ
þ
ÿ û
5
8
B. Hammer
108
Netze und ê Lernregeln, so daß sämtliche Hauptkomponenten extrahiert werden können, wurden
Ñ
unter anderen
von Sanger vorgeschlagen. Statt einem Neuron betrachtet man ~ Neuronen mit Gewichten . Die Gewichtsänderungen sind nicht mehr lokal, sondern enthalten einen Term, der
tendentiell die einzelnen Gewichte zu verschiedenenê Ausprägungen zwingt, so daß alle Hauptkomponenten erhalten werden. Genauer ist die Gewichtsänderung bei Sanger von der Form
Ñ ê
Ñ êÒ ò
Ñ Ò òÑ
é ëíì ç
ç
a
–
þ
5
{
ê
ê
Das reduziert Ñ sich offensichtlich für a ÿ zur Oja-Regel. Diese Regel sorgt für eine Konvergenz
der Gewichte
im Mittel zu .
¯
Á
ê
Satz 7.4 Einziger zu erwartender stabiler Fixpunkt der Regel
Ñ ê
Ñ êÒ ò
Ñ Ò òÑ
é
í
ë
ì
ç
ç
a
–
þ
ist der Vektor
ç
Á
ì
y
Á
5e5e5
¯
ò
.
ê
Beweis: Die gemittelte Regel hat die Form
Ñ ê
Ñ ê
a
–
¯
8z
é ëíì ç
Á
ê
ç
9
Ñ
ê
ì~ò
9
Ñ
ê
ì
+
9
êzò
Ñ
Ñ
5
ñ
ê
ìŒò
a
ê
Ñ
ì
9
ê
a
a
zum Eigen-
ê
ñ
8 z zÁ z5
ê
8 7 7• Á 7 +
é
Áz
ê
entweder oder ein Eigenvektor
8 7 7Á 7
Ò Ñ
Á z 9 Á z
ê
é ëíì ç
ÑcÒ
é
ê
ì
þ
ê
ì
ñ
ê
Ñ man
Für Fixpunkte berechnet
sukzessive,
daß ë
9 a 7 7
wert
sein muß: Für
gilt
Ñ êÒ
é ëíì
ñhê
ê
{
ê ñðê eindeutig
ê ñ ê sind,
ê gilt
ñhê
Da Darstellungen bzgl. der Basisvektoren
für alle
+
a
ñðê
•
Ñ ê ì
a . Da damit aber 9 Eigenvektor ist, ist er gleich einem Vielfachen eines Vektors .
also
ñ
ñ
Für alle anderen Koeffizienten gilt
7 7 a
7• 7•
ê
Ñ ê ì
Ñ
æ
9 a
und damit
. Ein Fixpunkt setzt sich aus einer Permutation der Eigenvektoren e
­
D
oder zusammen.
Die das Differenzenverfahren beschreibenden
Funktion
setzt sich aus verschiedenen Blöcken
ì
zusammen. Betrachtet
man
nur den ersten Block, dann reduziert sich alles zur einfachen Ojaì
ê
ì
ê
Regel, deren einziger stabiler Fixpunkt e darstellt. Hat man induktiv gezeigt,
daß
die
ersten
Kom{
ponenten sich aus e{ , . . . , e zusammensetzen,ê dann erhält man für den ten Block notwendig e :
õ
Die Änderung des -ten Blocks berechnet sich als
Ñ ê
Ñ ê
ÑýÒ Ñ êyò Ñ
é ëíì ç
a
–
þ
ê
ì
8z z 8z z 8z z
z
8
ÆÁ †Ç
a
¯
ó
8
¯
ê
Ñ
ÉÈ
¯ ç
Ñ
ÑcêÒ
þ
ê
þ
Á
Ñ êÒ
ê
Ñ
Ñ
ê
Ñ
Ñ
ê
êzò
þ
é õ ëíì ç
e
Ò
Ñ
êzò
e
È
Neuronale Netze, WS 99/00
109
ì
ê
ì
Ñ ê
Ñ ê
ê
ì
ëíì
Ñ ê<ò im zu e , . . . , e orthogonalen Raum. Dieser Anteil wird nämlich
Ò von
mit
als dem
Anteil
ç Ñ ê Ò Ñ ê Ñ ê
ê

õ
õ
gerade durch
e
e abgezogen. Man beachte, daß diesenÑ Raum in sich selbst
abbil
{
det. Wegen des Terms
veringert sich der Koeffizient
von
in Bezug auf e mit )
ì
ê
ì
in jedem Schritt
denn für hinreichend kleines . Dann reduziert sich aber obige Regel asymptoê
tisch zur Oja-Regel im beschränkten Raum der zu e , . . . , e orthogonalen Vektoren, konvergiert
õ
<
also gegen .
¯
Á
ò
Eine Alternative, um die ersten 3 Hauptkomponenten oder ähnlich relevante Richtungen zu extraç
hieren, ist etwa durch ein ganz normales feedforward Netz der Architektur ~ 3 ~ – ein Encoder
Netz – mit der Identität als Aktivierungsfunktion gegeben. Trainiert man mit Backpropagation
die Identität auf den gegebenen Daten, so muß das Netz diese über das Nadelöhr der 3 Neuronen
realisieren, also auf 3 relevante Richtungen projizieren.
Als weiter Alternative wurde vorgeschlagen, 3 einfache lineare Neuronen
mit der ursprüngliê
chen Hebb-Regel plus einen Normierungsterm zu trainieren, aber zusätzlich trainierbare laterale
{
ë
Hemmungen zwischen
den
Neuronen
einzuführen.
D.h.
es
gibt
Gewichte
vom
Neuron
zum
{
ê
ê
Neuron ) für )
, die in jedem Trainingsschritt
mit einer
Anti-Hebb-Regel trainiert werden, d.h.
a
– ë
þ
Ð Ð
5
Das führt dazu, daß das erste Neuron wie vorher die erste Hauptkomponente lernt, das zweite Neuron erhält aber vom ersten starke negative Verbindung, sofern es eine zum ersten Neuron ähnliche
Ausgabe besitzt. Seine Ausgabe würde also gedämpft, falls es auch die erste Hauptkomponente
extrahieren würde. Daher nimmt es für sich die zweite Hauptkomponente in Anspruch u.s.w.
¯
7.2
Learning Vector Quantization
ʍËhÌ9Í,Î
Í
Ï
Netz mit konkurrierenden Neuronen betrachBei Vektorquantisierung wird ebenfalls ein
tet, die für repräsentative Bereiche der Daten zuständig sein sollen. Die Gewichte des ten Ausgabeneurons seien mit
bezeichnet. Anders als bei einer Hauptkomponentenanalyse konkurrieren
hier die Neuronen miteinander um die Eingabe, so daß jeweils nur das Neuron mit der größten Ausgabe gemäß Hebbschem Lernen seine Gewichte ändern darf. Das führt dazu, daß nicht Hauptkomponentenrichtungen extrahiert, sondern die Daten durch die Neuronen quantisiert, d.h. in Klassen
eingeteilt werden. Jeder Vektor reagiert auf Neuronen in gewissen Bereichen des Eingaberaumes
relativ stark, bei anderen wird er eine kleine Ausgabe liefern.
Wir müssen jedoch zunächst dafür sorgen, daß die Gewichte nicht explodieren. Ferner ist bei
diesem Wettbewerbsansatz erkenntlich, daß beliebige Daten oder beliebige Gewichte zuzulassen
nicht ratsam ist: Vektoren mit großer Norm haben in der Regel ein größeres Skalarprodukt allein
aufgrund ihrer Länge, auch wenn ihre Richtung nicht übereinstimmt. Daher ist es ratsam, entweder
nur normierte Eingaben und Gewichtsvektoren zuzulassen, oder vom Messen der Korrelation zum
tatsächlichen euklidischen Abstand überzugehen. Das Neuron mit größtem Skalarprodukt entspricht unter Annahme normierter Daten genau dem Neuron mit kleinstem Abstand zur Eingabe,
denn
Ð
Ñ
Ó
ҋÓÒ=Ö`×ÒØÓ
Ð Ñ ist für Ï maximal Ô
Õ ÒáÖ Ó Ð ÒáÑÚÖ Ù ÛÐ ÜßkÑ Ý àÐ Þ Ñ ist für Ï minimal
Ô
Õ Ê ÒáÖ Ð Ñ Î Ê Ð Ñ Î ist für Ï minimal
Ô
Õ â Ð Ñ â ist für Ï minimal
Ò
ÒãÖ kann man eine Explosion der Gewichte verhindern, indem man einen Anteil
Statt zu addieren,
des Vektors
Ð
Ñ zu Ð
Ñ addiert, der den Gewichtsvektor in Richtung Ð
Ñ zieht. Insgesamt wird
ҋÓ
Vektorquantisierung also zu folgendem Verfahren:
110
B. Hammer
Ò=Ö
Ò
ä Ñkå â Ð ÒáÑ Ö â
Ï
äÑ
Ð Ñgæ å Ð Ñ Ù ç Ê Ð Ñ Î
wiederhole
berechne
für ein mit minimalem
çÉè™é ç
mit einer Lernrate
. muß beschränkt sein, da sonst die Anpassung den Gewichtsvektor über
den Vektor hinausbewegt. Sofern die Lernrate so klein ist, daß man über die Änderungsschritte
für die einzelnen Eingaben mitteln kann, und sofern die Funktion
Ò
êë åíì îé Ï ist Gewinner für das Pattern ë
sonst
Ñ
über die Zeit konstant ist, etwa weil sich die Gewichte schon nahezu eingestellt haben, dann ist
obiges Verfahren ein Gradientenabstieg zur Funktion
×Æé ï Ê Ò ë Ö Ð Ñ Î6ð ê ë
Ñ
ë
für das Ï te Neuron. Über alle Ï aufsummiert, ist das insgesamt minimal, wenn die Abstände der
Neuronen zu den jeweils nächsten Eingabepattern, für die sie zuständig sind, möglichst klein ist,
das heißt die Neuronen sich tendentiell auf die Häufungspunkte in den Daten verteilt haben. Allerêë unstetig. Die Mittelung
dings besitzt die Funktion viele lokale Minima und ist bei variierendem
Ñ
ist nicht unbedingt gerechtfertigt, man kann den Fall beobachten, daß sich etwa die durch zyklisch
aufeinanderfolgende Pattern ergebenden Änderungen genau aufheben.
Das trainierte Netz kann zur Klassifikation der Daten eingesetzt werden, denn die Neuronen
bilden sog. Codebookvektoren die den Eingabebereich, für den sie minimale euklidische Norm
im Vergleich zu den anderen Neuronen besitzen, repräsentieren. Eine Eingabe wird jeweils der
durch den nächsten Codebookvektor repräsentierten Klasse zugeordnet. Das Netz kann nicht nur
zum Clustering und Prototyping, sondern auch zu einer Funktionsapproximation eingesetzt werden, indem ein Vektor je zum Funktionswert des nächsten Codebookvektors abgebildet wird. Zu
beachten ist, daß dieses Netz kein Neuronales Netz im Sinne unserer ursprünglichen Definition ist,
statt
berechnet und die Ausgabefunktion – die Winner Takes All
da es die Aktivierung
Funktion – keine lokale Weiterverarbeitung der Aktivierung ist. Die WTA Funktion könnte man
allerdings in einem feedforward Perzeptronnetz der Tiefe zwei realisieren, und wir haben gesehen,
daß bei normierten Daten der euklidische Abstand durch ein Skalarprodukt ausgetauscht werden
könnte.
Eine weitere Anmerkung ist hier angebracht: Bei diesen Verfahren ist eine Normierung der
Eingabedaten notwendig! Hat eine Eingabekomponente wesentlich größere Eingaben als eine
zweite, dann ist diese Eingabe bei Ähnlichkeitsberechnungen wesentlich stärker gewichtet als die
zweite.
Kohonen hat vorgeschlagen, Vektorquantisierung in einem überwachten Szenario, das heißt
als Learning Vector Quantization anzuwenden. Die Aufgabe ist, eine Funktion
zu lernen. Die Idee ist, jede Klasse
durch einen oder mehrere Codebookvektoren
zu repräsentieren und eine Eingabe der Klasse des nächsten Codebookvektors zuzuordnen.
ÒÃÖ
â Ðâ
Ð
ÓÒ
ñ æÅòxóõô
ö é Ì÷÷÷øÌOÍ'ù
à
Ò
¼ñ ú ʍÏ)Î
û LVQ1: Es werden für die Klassen é bis Í ein oder mehrere Neuronen erzeugt und deren
Gewichtsvektoren zufällig, mit zufälligen Pattern der jeweiligen Klasse, durch die Schwerpunkte der jeweiligen Klasse oder anders sinnvoll initialisiert. Dann werden genau wie bei
Vektorquantisierung die Muster präsentiert und je ein Gewinnerneuron mit kleinstem euklidischem Abstand zur Eingabe berechnet. Für dieses Neuron
ändert man
ÒáÖ
ü Ð Ñ å ì çÖ Ê ÒáÖ Ð
ÑÎ
ç Ê ÐÑ@Î
Ò
ñ–Ê Î å
falls
sonst.
ÐÑ
durch
Ð
Ñ repräsentierte Klasse
Neuronale Netze, WS 99/00
111
çýŠþ î Ì é%þ entweder konstant oder im Laufe des Verfahrens fallend,
û OLVQ: Optimized LVQ verwendet eine eigene Lernrate ç Ñ für jedes Neuron Ð
Ñ , d.h. für den
Ò
Gewinner berechnet manÒ=Ö
ü Ð Ñ åõì çÖ Ñ Ê ÒáÖ ÐÑ@Î falls ñMÊ Î å durch ÐÑ repräsentierte Klasse
ç Ñ Ê Ð
ÑÎ sonst.
Die Lernrate ç wird so angepaßt, daß die Änderung, die jedes Muster hervorruft, möglichst
Ñ
den gleichen Effekt hat. Formal ist ç Êÿ Ù é Î å ç Êÿ<Î , falls Ï kein Gewinner zum Zeitpunkt ÿ
Ñ
Ñ
ist, und
ç Ñ Ê@ÿ ّé Î å é Ù ç Ñ Ê@Ê@ÿ<ÿ<Î Î ç Êÿ<Î
Ö
Ñ
é ist, falls
sonst, wobei Ê@ÿ<Î å é gilt, falls die Klasse des Gewinners Ð
Ñ korrekt ist, Êÿ<Î å
Dabei ist die Lernrate
um Konvergenz zu erzwingen.
die Klasse des Gewinners falsch ist. Das heißt, Neuronen im Zentrum einer Klasse haben
schnell abfallende Lernraten, Neuronen am Rand, die bei Eingaben häufig fälschlicherweise
als Gewinner vervorgehen, haben große Lernraten, so daß sie schnell vom Rand weggedrängt
werden. Dabei sollte man darauf achten, daß die Lernrate nicht größer als wird.
é
Formal kann obige Lernrate wir folgt motiviert werden: Zwei Änderungen von
aufeinanderfolgenden Schritten, führen zur Änderung
Ö
Ð Ñ Ê@ÿ Ù Î å Ð Ñ ÖÊ@ÿ ّé Î Ùç Ê@ÿ ّé Î Êÿ Ù é ÎÊ Ê@ÿ ّé Î Ð Ñ Ê@ÿ ّé Î<Î Ò
å Ê é Ö ç Êÿ Ù é Î Ê@ÿ ّé Î.ÎjÐ Ñ Êÿ Ù é Î Ùç Ê@ÿ Ù‘Ò é Î Ê@ÿ Ö Ù‘é Î Ê@ÿ ّé Î
å Ê é ç Êÿ Ù é Î Ê@ÿ Ù‘Ò é Î.ÎÊÐ Ñ Ê@ÿ<Î Ùç Ê@ÿ<Î Ê@ÿ<ÎÊ Ê@ÿ<Î Ð Ñ Êÿ<Î.Î<Î
Ò
ÙÖç Ê@ÿ ّé Î Ê@ÿ ّé Î Ê@ÿ ّé Î Ò
å Ê é ç Ö Êÿ Ù é Î Ê@ÿ ّé Î.Î ç Ê@ÿ<Î Ê@ÿ<Î Ö Ê@ÿ<Î ÙÖ ç Ê@ÿ ّé Î Ê@ ÿ ّé Î Ê@ÿ ّé Î
Ò Ù Ê é Ò ç Ê@ÿ ّé Î Ê@ÿ ّé Î<ÎjÐ Ñ Êÿ<Î Ê é ç Ê@ÿ ّé Î Êÿ Ù é Î.Î ç Êÿ<Î Ê@ÿ<Î)Ð Ñ Ê@ÿ<Î
Damit die durch Êÿ<Î und
Ö Êÿ Ù é Î bewirkte Änderung gleich gewichtet ist, muß
â¥Ê é ç Ê@ÿ ّé Î Ê@ÿ ّé Î<Î ç Ê@ÿ<Î Êÿ<Îâ å â ç Êÿ Ù é Î Êÿ Ù é Îâ
gelten, d.h.
ç Ê@ÿ ّé Î å é Ùçç Ê@Ê@ÿ<ÿ<ÎÎ Êÿ<Î
û
×
Ò
ÐÑ , o.E. in
OLVQ sorgt für eine schnelle Konvergenz des Verfahrens.
ÐÑ
ÐÒ LVQ2.1: Dieses Verfahren kann zum Feintuning der Klassengrenzen verwendet werden.
Es betrachtet jeweils die ersten beiden Gewinner
und
und ändert diese, sofern sie
verschiedenen Klassen angehören und das Eingabepattern nicht sehr dicht an einem der
beiden Gewinner liegt, d.h.
áÒ Ö
ÒáÖ Ö ×
å â ÒáÖ Ð Ñ â Ì â ÒáÖ Ð â é Ì
î÷
â Ð â â Ð Ñ â é Ù
Ò
Ò
Ò das zur selben Klasse wie gehört, etwa Ð
Ñ , zu
sollte gelten. Dann wird das Neuron,
ähnlicher, das andere Neuron Ð zu unähnlicher gemacht, d.h.
ü Ð Ñ å çÖ Ê Ò=ÒáÖ Ö Ð Ñ Î
ü Ð å ç Ê Ð Î
B. Hammer
112
çRèLé
Wie vorher ist
. Dieses Verfahren stellt lediglich Neuronen an den Klassengrenzen ein
und optimiert nicht die Neuronen in der Mitte von Klasse. Daher wendet man es meist erst
an, nachdem eine Grobklassifikation etwa mithilfe von OLVQ gelernt wurde. Die Bedingung, daß in einem Fenster liegen muß, bedeutet, daß Punkte nahe bei einem Klassenvektor nicht zur Änderung beitragen, denn der Klassenvektor ist entweder korrekt und bedarf
keiner weiteren Einstellung, oder er ist falsch, allerdings eine Verbesserung wahrscheinlich
nicht möglich, da der Punkt sehr ähnlich zu einem typischen Klassenvertreter einer falschen
Klasse ist. Wenn man die Verbindungsstrecke von
nach
betrachtet, dann beeinhaltet
das Fenster alle Punkte, die mehr als den Anteil
der Strecke von
und
entfernt
sind. Geht man von der Strecke weg, dann findet man einen sich allmählich verbreiternden
Bereich, in den das fallen darf.
Ò
Ò
û
ÖÐ
Ñ × Ð Ê é Î Ð
Ñ
Ð
LVQ3: Dieses Verfahren kombiniert das Feintuning der Klassengrenzen von LVQ2.1 mit einem korrekten Adaptieren der Neuronen innerhalb einer Klasse. Sofern die beiden Gewinner
in dieselbe Klasse fallen und diese korrekt ist, werden beide durch
Ò
î
î
mit ýQþ ÷ é Ì ÷ der Eingabe
ü Ð Ñ å Ê áÒ Ö SÐ Î
ähnlicher gemacht. Es ist allerdings immer noch so, daß ein
falsch klassifiziertes Pattern einen sehr nahen Codebookvektor nicht abstößt.
Kohonen selber hat die beiden letzteren Verfahren in Kombination mit dem sehr schnell konvergierenden OLVQ erfolgreich in verschiedenen Projekten eingesetzt.
7.3
Self Organizing Maps
Selbstorganisierende Karten (SOMs) sind eine von Kohonen vorgeschlagene Erweiterung von
Wettbewerbslernen, bei der zusätzlich eine Nachbarschaftsbeziehung auf den Neuronen gegeben
ist. Die Neuronen sollen einerseits die gegebenen Daten gut repräsentieren, andererseits aber auch
die gegebene Nachbarschaftsstruktur der Neuronen erhalten. Dieses führt letztendlich zu einer
Kartierung des Eingaberaumes, wo man nicht nur die Codebookvektoren finden kann, sondern
auch durch die zwischen den Codebookvektoren gegebenen Nachbarschaften auch die Möglichkeit zur Naviagtion besitzt.
gegeben, sowie eine Nachbarschaftsfunktion
Seien also Neuronen mit Gewichten , . . . ,
. Möglichkeiten sind etwa
Ð à Ð
Ê@Ï.Ì"!¶Î
Ö
û eine Listenanordnung, d.h. Ê@Ï.Ì"!¶Î å â Ï !‹â , Ö
Ö Ö Ö
û eine Anordnung als Ring, d.h. ʍÏ<"Ì !¶Î å Êâ Ï !‹â Ì$# é â Ï !‹âDÎ , Ö
Ö
û eine Anordnung als Rechteckgitter, d.h. Ï å Ê%!#Ì9ͬΠ, Ê.Ê&! à Ì9Í à ÎÌ"Ê%! ð Ì9Í ð Î<Î å â ! à ! ð â Ù âDÍ à Í ð â ,
û eine Anordnung als Gitter in einem höherdimensionalen Raum, als unregelmäßiges Gitter,
...
Bei auf Gittern liegenden Neuronen kann als Abstandsmessung zwischen zwei Neuronen die
Länge eines Pfades zwischen den Neuronen genommen werden. Alternativ ist eine Anordnung der Neuronen im Raum und als der euklidische Abstand denkbar.
Die Gewichte der Neuronen werden jetzt zufällig (oder als je ein zufälliges Pattern) initialisiert und anschließend wie bei Vektorquantisierung an die Daten adapatiert, wobei jedoch die
Nachbarschaften berücksichtigt werden: Mit dem Gewinner werden auch die Neuronen in einer
Nachbarschaft in die Richtung der jeweiligen Eingabe gezogen. Genauer:
Neuronale Netze, WS 99/00
Ò
ÒáÖ
113
â Ð Ñ â,
á
Ò
Ö
ü Ð Ñ å ç)( ñMÊ+*kÌ Ê@Ï.ÌÏ,'9ÏÎ.' ÎøÊ Ð Ñ Î ,
ç æ å ç)( à.- * æ å * ( ð ç , die z.B. mit einer Zahl aus þ¥é $Ì / initialisiert wird und nach jedem Schritt um
mit der Lernrate
î ÷1000 verkleinert wird, einem Term * , der die Bewertung der Nachbarschaft beden Faktor à
î 1÷ 000 verkleinert
einflußt und etwa mit 2 # initialisiert und in jedem Schritt um einen Faktor î
wird, und einer mit * ô
und 3 å
Ê@Ï.Ì,Ï 'Î ô 4 abfallenden Funktion ñ , die die Änderung der
Wiederhole
für eine Eingabe berechne
ermittle den Gewinner ,
Gewichte entsprechend der Nähe zum Gewinner skaliert, z.B.
*
ç
ñMÊ5*ØÌ$3¶Î å e7ú 698":<; ð"= 8?> ÷
Die Skalierung von und sorgt dafür, daß das Verfahren konvergiert. Am Anfang werden relativ
große Nachbarschaften mit berücksichtigt und die Neuronen sehr geändert, gegen Ende des Verfahrens werden hauptsächlich nur noch die einzelnen Neuronen mit relativ kleinen Änderungen
adaptiert.
Die Topologie sorgt dafür, daß sich die Neuronen mit ihrer vorgegebenen Verknüpfungsstruktur
auf den Daten quasi ausbreiten. Wozu ist diese zusätzliche Nachbarschaftsbeziehung im Vergleich
zu normaler Vektorquantisierung gut? Es folgen einige Punkte möglicher Anwendungen:
û
û
SOMs können aufgrund ihrere einfachen und plausiblen Lernregel zur Erklärung biologischer Phänomene herangezogen werden. Man kann z.B. nachweisen, daß der sensorische
Kortex eine topologische Abbildung der entsprechenden Bereiche der Sinneswahrnehmungen ist.
û
Genau wie LVQ können auch SOMs zur Klassifikation oder Funktionsapproximation verwandt werden. Dazu wird auf die Daten trainiert und anschließend die Abbildung kalibriert.
Kalibrieren bedeutet, den Neuronen des Netzes je einen Wert zuzuordnen, so daß eine Abbildung oder Klassifikation realisiert werden kann; als Wert bietet sich etwa der Wert des
zum Gewichtsvektor des Neurons nächsten Trainingsmuster oder eine geeignete Mittelung
über die durch die Daten, für die diese Neuron Gewinner ist, gegebenen Werte an. Anschließend wird ein Eingabedatum wird auf den Wert, der dem für die Eingabe zuständigen
Gewinnerneuron zugeordnet ist, abgebildet. Man erhält also eine Funktion.
Dieses Verfahren ist natürlich auch möglich, ohne eine explizite Topologieerhaltung zu implementieren. Eine Topologieerhaltung kann jedoch Vorteile haben, wenn man stetige Funktionen auf diese Weise approximieren will. Nahe beieinanderliegende Neuronen haben ähnliche Funktionswerte, so daß eine höhere Fehlertoleranz sichergestellt ist. Ohne Topologieerhaltung wäre es möglich, daß die Einzugsgebiete zweier Vektoren mit völlig unterschiedlichem Funktionswert aneinanderstoßen.
î
Man kann ein euklidisches TSP mit einem eindimensionalen ringförmigen Kohonennetz angehen. Die Neuronen werden z.B. mit initialisiert und anschließend mit den Koordinaten
der Städte trainiert. Wählt man etwa gleich viele Neuronen wie Städte, dann wird tendentiell am Ende jedes Neuron für genau eine Stadt Gewinner sein. Eine Reihenfolge der Städte
erhält man aus der Anordnung dieser Neuronen. Die Topologieerhaltung wirkt dabei dahingehend, daß kurze Touren bevorzugt werden, denn in kurzen Touren sind die Koordinaten
benachbarter Städte ähnlicher, entsprechen also der Topologie des Netzes.
B. Hammer
114
û
SOMs können Teilaspekte hochdimensionaler Daten visualisieren, etwa eine zweidimensionale Kohonenabbildung läßt Nachbarschaften zwischen den Datenpunkten erkennen. Angewandt wird dieses z.B. in semantischen Netzen zur Erkennung von Synonymen und Klassifikation der Wörter: Die in einigen Texten auftretenden Wörter werden je durch Zufallsvektoren, sog. Fingerprints, codiert und anschließend ein SOM mit Tripelkontexten, d.h.
den Vektoren, die drei aufeinanderfolgenden Wörtern in den Texten entsprechen, trainiert.
Da etwa Synonyme häufig im gleichen Kontext auftauchen, besitzen sie höchstwahrscheinlich dasselbe Gewinnerneuron. in der Bedeutung verwandte Wörter befinden sich in der
unmittelbaren Nachbarschaft. Ein einzelnes Wort kann auf dieser semantischen Abbildung
wiedergefunden werden, indem man den Fingerprint des Wortes mit zwei Zufallsvektoren
als Kontext vervollständigt.
In der Arbeitsgruppe von Kohonen wurde diese Methode eingesetzt, um das ein Dokument
beschreibende Worthistogramm in der Dimension zu reduzieren: Anstelle aller (wesentlichen) auftretenden Wörter wird ein Dokument durch das sich in der Semantischen Abbildung ergebende Neuronenhistogramm repräsentiert. Diese die Dokumente beschreibenden
Vektoren dienen im sog. WEBSOM als Eingabe eines weiteren zweidimensionalen Kohonennetzes, das somit Dokumente gemäß ihrer Ähnlichkeit anordnet. Das dabei entstehende
Netz kann dazu dienen, auch auf natürlichsprachige Fragen nach Dokumenten zu antworten:
Die Fragen werden einfach der semantischen Abbildung gemäß in Histogramme umgewandelt, und letztere dienen als Eingabe an das zweite SOM. Die Topologie des Netzes erlaubt,
nicht nur den optimalen Knoten, sondern auch die Umgebung gezielt zu präsentieren, so daß
der Fragesteller gezielte Information erhalten kann. Dieses ist insbesondere dann interessant, wenn er nach inhaltlich verschiedenen Ausprägungen des Gebietes sucht, die in der
Regel in unterschiedlichen benachbarten Knoten gespeichert sind.
7.4
Hybride Architekturen
In hybiden Architekturen werden selbstorganisierende Karten oder Vektorquantisierungen zusammen mit ebenfalls trainierbaren vorwärtsgerichteten Netzen eingesetzt. Das hat den Vorteil, daß
durch die lokale, selbstorganisierende Schicht zunächst die Daten auf für den Menschen einsichtige Weise vorverarbeitet werden: Sie werden etwa mit einem ähnlichen Vektor identifiziert;
das Einfügen neuer Daten ist durch Einfügen neuer Referenzvektoren inkrementell und schnell
möglich. Anschließend ermöglicht eine flexible Verarbeitung die Approximation auch komplexer
Abbildungen.
Counterpropagation kombiniert eine selbstorganisierende Winner-Takes-All Schicht mit einer linearen vorwärtsgerichteten Schicht. Ein Counterpropagation-Netz berechnet also eine Abbildung
mit
minimal
ÒA@
ÒáÖ
ô ,Ê B Ñ Î Ï æ â Ð Ñ â
÷
Zunächst wird also der zur Eingabe ähnlichste Vektor Ð bestimmt. Das entsprechende verborgeÑ î
ne Neuron berechnet die Ausgabe é , alle anderen die Ausgabe . Anschließend wird die Ausgabe
Ê î Ì÷÷÷Ì î Ì é Ì î Ì÷÷÷Ì î Î der verborgenen Schicht durch lineare Neuronen mit Gewichten C weiterverarbeitet. Ausfgrund der unären Aktivierung entspricht die Ausgabe dem Vektor der Ï ten
C
Komponenten der Gewichte
. Die erste Schicht nach der Eingabeschicht heißt auch Kohonenschicht, die zweite Schicht Grossbergschicht.
Training der Kohonenschicht erfolgt etwa mit Vektorquantisierung, d.h.
üED å ç Ê5F Ö D Î falls Ï der Gewinner ist.
Ñ
Ñ
Neuronale Netze, WS 99/00
115
ç î
Dabei wird die Lernrate
häufig über die Zeit hinweg verkleinert, um Konvergenz zu erzwingen. Alternativ kann eine Nachbarschaft zwischen den Neuronen eingeführt und gemäß Kohonens
SOM trainiert werden, so daß eine glattere, topologieerhaltende Kartierung des Raumes durch die
Kohonenschicht gegeben ist. Dabei werden die Gewichte initial zufällig, zufällig als ein Trainingsmuster oder durch
,
Eingabedimension, bestimmt. Um zu verhindern, daß die Neuronen
der Kohonenschicht sich nicht gleichmäßig auf die Trainingspunkte einstellen, kann man in letzterem Fall die Eingabedaten initial auf
é2 Ë Ë å
Ö
F Ñ Ù Ê é Î< 2 Ë
î verändern. Läßt man gegen é streben, erhält man die ursprünglichen Trainingsdaten
mit zurück. Da sie sich aber anfänglich für kleines nahe der Vektoren der Kohonenschicht befinden,
stellen diese sich optimal auf die Trainingsdaten ein.
Die Großbergschicht wird etwa mit der sich durch Gradientenabstieg auf dem quadratischen
Fehler ergebenden Regel
ü B å Ö ç Ê,B Ö ä Î<G
Ñ
Ñ
Ñ
Ò
trainiert, wobei die Lernrate ç über die Zeit gegen Null geht, um Konvergenz zu erzwingen. H stellt
die gewünschte Ausgabe dar und G ist é für das Gewinnerneuron bei Eingabe des zugehörigen ,
î Ñ
für andere Neuronen ist es . Stattdessen kann man die Gewichte auch in einem Schritt als
B Ñ å I ï ä K#
J
Ò
mit # å Anzahl der Eingaben , für die Ï Gewinner ist, bestimmen. Dieses minimiert den linearen
Ò Ò
Ausgabefehler.
Üblicherweise wird ein Counterpropagationnetz auf die Identität auf den Daten Ê Ì9ñ–Ê Î<Î mit
der zu lernenden Funktion ñ trainiert. Das hat den Vorteil, daß gleichzeitig dieÒ Funktion ñ als auch
Ò
Ò Ê ÒÌ î Î führt zu der bei
eine mögliche Ò Invertierung
der Funktion gelernt werden: Eine Eingabe von
Ò ähnlichsten
Eingabe von Ê Ì9ñMÊ Î.Î gelernten Ausgabe, da die Eingabe der Eingabe Ê Ì9ñMÊ Î.Î am
î
Ò
Ò
ist, wenn man die Trainingsmenge betrachtet. Analog führt eine Eingabe von Ê Ì9ñ–Ê Î<Î zur selben
Ò
Ausgabe wie Ê Ì9ñMÊ Î.Î .
Ò fügt, sofern das Muster noch
Zufügen von neuen Mustern ist inkrementell möglich: Man
ist Gewinner für
nicht zufriedenstellend abgedeckt ist, ein Neuron mit Gewicht zur Kohonenschicht zu; die von
diesem Neuron ausgehenden Gewichte werden identisch zur gewünschten Ausgabe gewählt. Dieses ermöglicht, das neue Muster (im schlimmsten Fall: auswendig) zu lernen, ohne die bisherige
Funktionalität zu zerstören.
Eine andere Möglichkeit, eine lokale, leicht interpretierbare Schicht zusammen mit einer interpolierenden vorwärtsgerichteten Schicht zu verschalten, stellen Radiale Basisfunktionen Netze,
kurz RBF-Netze dar. Ein RBF-Netz berechnet eine Funktion
ÒA@ ï D Ò=Ö Ò
ô
MÑ L,Ñ 9Ê â Ñ âDÎ
mit Funktionen , die häufig als Gaußfunktionen ÊMFkÎ å e úON 8 : = I8 gewählt werden. Andere FunkL¬Ñ î für F ô 4 sind aber denkbar,
L¬Ñ etwa Ê5FkÎ å 2 F ð Ù * . Das heißt, in der
tionen mit ÊMFkÎ ô
L
L,Ñ
Ñ
ersten Schicht wird der Abstand der Eingabe zu Referenzvektoren gemessen. Je nach Abstand
ergibt sich eine Aktivierung der Neuronen der verborgenen Schicht, die je nach Abstand zu den
Referenzvektoren niedrige oder hohe Werte aufweist. Die gewichtet aufsummierte Aktivierung
liefert die Ausgabe des Netzes. Auch hier ist die erste Schicht lokal, da die Referenzvektoren je
B. Hammer
116
die Ausgabe für Eingaben in ihrere Nähe festlegen. RBF-Netze werden im Vergleich zu feedfoward Netzen häufig eingesetzt, wenn relativ wenige Daten vorliegen. Anhand der Aktivierung der
verborgenen Schicht kann man hier leicht feststellen, ob eine Eingabe im relevanten Bereich liegt.
Zum Training werden die Zentren
entweder identisch zu einigen (allen) Trainingsmuster
gewählt, oder durch einen selbstorganisierenden Mechanismus, etwa VQ oder SOM, trainiert. Der
Glättungsparameter
wird häufig für alle Neuronen identisch im Fall von Gaußfunktionen auf
oder
Anzahl der hidden Neuronen gesetzt. Die Ausgabegewichte können prinzipiell über
einen Gradientenabstieg bestimmt werden, so daß man dieselben Formeln (mit unterschiedlicher
Ausgabe der verborgenen Schicht ) wie bei Counterpropagation erhält. Möchte man die Augabegewichte in einem Schritt bestimmen, so daß der quadratische Fehler möglichst klein ist, dann
kann man die Gewichtsmatrix unter gewissen Bedingungen durch
Ò
é
é
*Ñ
Ñ
GÑ
Ó à
C å Ê,P PãÎ ú RP Q
mit der die Ausgaben aufsammelnden Matrix Q und der Matrix
Ò Ö
Ò Ö
à Ê9â à Ð à âDÎ (U(U( .LWV Ê9â à Ð V âDÎ
L
.
Ò XQÖ
.. Y
å SS .. YÒ X Ö
S
P T
SS L à Ê9â Ð à âWÎ (U(U( LWV Ê9â Ð V âDÎ SSS
SS
SS
Ó
S und Í å Anzahl der hidden Neuronen
S wählen. Die Matrix
mit Z å Anzahl der Beispiele
Ê,P PãÎOú à P stellt dabei die sogenannte Pseudoinverse der Matrix
P
dar und ersetzt die MatriÓ à Interpolation der Ausgaben
å Q , das bei einer exakten
xinversion im Gleichungssystem P ( C
Ó
durch die Gewichte C gelöst würde. Anstelle der Matrix ,Ê P PãÎú P kann man auch die Matrix
Ê.+Ê P P \Ù [^Pã] Îú à P mit
Ö
Ö
à ÊOâ Ð à Ð à âDÎ (U(U( .LWV Ê9â Ð à Ð V âDÎ
L
.
X Ö
..
SS
P ] å SS .. X Ö
SS L à ÊOâ Ð Ð à âWÎ (U(U( LWV Ê9â Ð Ð V âWÎ SS
SS î
SS
S der Lösung, d.h. die
verwenden. Je nach Wahl vonS [`_
entspricht das einer Regularisierung
Ausgabefunktion wird evtl. auf Kosten des empirischen Fehlers glatter, so daß eine bessere Generalisierung gewährleistet ist.
Nachdem die Gewichte in dieser Weise direkt eingestellt sind, kann Nachtraining sinnvoll erscheinen. Dieses kann sich auf alle vorliegenden Parameter, d.h. die Zentren, die Parameter
und die Ausgabegewichte beziehen. In allen Fällen geschieht Nachtraining etwa durch einen Gadientenabstieg auf dem quadratischen Fehler. Zufügen von Daten ist durch Einfügen eines neuen
verborgenen Neurons mit entsprechendem Zentrum möglich. Die Ausgabegewichte werden identisch zur gewünschten Ausgabe gewählt und evtl. durch Nachtraining kurz adaptiert.
*Ñ
Tja
Das wär’s für’s erste. Bleiben noch die Aspekte zu erwähnen, die nicht behandelt wurden:
û
Für die Zeitreihenverarbeitung stellen Time Delay Netze (TDNN) eine Alternative dar. Sie
ermöglichen durch geeignetes weight sharing und eine automatische Sequenzenbehandlung,
lokale Merkmale unabhängig von der Lage bzgl. der Zeit und der Länge effizient zu extrahieren und zu verarbeiten.
Neuronale Netze, WS 99/00
û
117
û
Speziell für die Schriftzeichenerkennung entworfen wurde das Neocognitron, das sukzessive lokale Merkmale der Schrift translationsinvariant verarbeitet.
û
Probabilistische Neuronale Netze sind eine spezielle Implementierung, die vermöge des
Bayes Ansatz und einer Schätzung der beteiligten Dichten vermöge Fensterfunktionen verarbeiten.
û
Eine Kombination von feedforward Netzen und logischen Regeln ist möglich, insbesondere
gibt es effiziente neuronale Implementierungen von Fuzzy-Reglern zu verschiedenen NeuroFuzzy-Modellen.
û
Im Vergleich zu Hopfieldnetzen wird Assoziation, indem man nur einmal schaltet, im bidirektionalen Assoziativspeicher (BAM) implementiert.
û
Verglichen zur PCA extrahiert die Independent Component Analysis (ICA) stochastisch
unabhängige Komponenten und dient so der Separierung von Signalen aus einem gemischten
Signal. Die kernel PCA extrahiert nichtlineare Signale, indem sie sich den Kerneltrick
der SVM zunutze macht und Skalarprodukte durch Skalarprodukte der nichtlinear in einen
hochdimensionalen Raum abgebildeten Daten ersetzt.
û
û
Biologienahe Modelle, die Selbstorganisation, Gedächtnisleistungen und das Stabilitäts/Plastizitätslemma angehen sind die im Rahmen der Adaptive Resonanztheorie (ART) vorgeschlagenen Varianten.
Biologienahe Modelle, die Neuronen zusammen mit deren zeitlicher Entwicklung modellieren, sind spiking Netze.
. . . und noch vieles mehr.
Mehl
"Back-Propagation"
Документ
Категория
Без категории
Просмотров
31
Размер файла
780 Кб
Теги
4097, netz, 002, neuronal, pdf
1/--страниц
Пожаловаться на содержимое документа