Machine Learning
Klassisches Machine Learning funktioniert in bestimmten Bereichen hervorragend. Die bekanntesten Erfolgsstorys sind etwa Spracherkennung, strategische Spiele und Robotik. Ermöglicht wurde dies vor allem durch den starken Anstieg der verfügbaren Daten sowie von Rechenkapazitäten.
Doch was den erfolgreichen Einsatz solcher Modelle an den Finanzmärkten angeht, tut man sich deutlich schwerer. Hier müssen sich Anwender mit Problemen wie dem nicht-stationärem Umfeld, einem begrenztem Datenumfang und dem schlechten Signal-to-Noise Ratio herumschlagen. Hinzu kommt, dass die besten Modelle komplizierte Black Boxes sind, die ein Mensch weder verstehen noch erklären kann.
Inzwischen hat sich die strukturelle Modellierung als vielversprechender Ansatz etabliert. Dabei wird Machine Learning innerhalb eines übergeordneten, theoretisch fundierten und von menschlichen Experten akzeptierten (ökonomischen) Modells implementiert, was sich aktuell als State-of-the-Art-Lösung bezeichnen lässt.
Curve Fitting statt Intelligenz
Professor Judea Pearl ist ein Experte, dem das für die Zukunft nicht ausreicht. In einem Artikel schreibt er, dass Deep Learning letztlich Curve Fitting ist, bei dem der Anwender aber nicht erfährt, warum es funktioniert (oder warum nicht) und was verändert werden sollte. Der Fehler könnte also im Programm oder in der Methodik liegen, aber auch die Rahmenbedingungen könnten sich verändert haben. Man weiß es einfach nicht.
Nun könnte man einwenden, dass eine solche Transparenz überhaupt nicht erforderlich ist. Schließlich wissen wir auch bei unserem Gehirn nicht genau, warum es funktioniert. Doch Pearl widerspricht diesem Vergleich: Das Gehirn funktioniert bei verschiedenen Menschen gleich. Das ermöglicht es, in einer gemeinsamen Sprache zu kommunizieren, voneinander zu lernen und uns zu motivieren. Davon ist künstliche Intelligenz noch weit entfernt. Denn bisher haben Algorithmen nur die erste von drei Stufen erreicht, die „sehende“ statistische Ebene. Diese fragt sinngemäß: „Welche Krankheit wird am besten durch die beobachteten Symptome erklärt?“
„I view machine learning as a tool to get us from data to probabilities. But then we still have to make two extra steps to go from probabilities into real understanding – two big steps.“ (Judea Pearl) [1]
Zwei große Schritte
Für die beiden höheren Stufen auf dem Weg zur echten künstlichen Intelligenz sind laut Pearl folgende Aspekte zu berücksichtigen: [1]
Auswirkungen von Interventionen („Werden die Symptome verschwinden, wenn ich dieses Medikament nehme?“): Diese Informationen können in visuelle Modelle kodiert werden, die beschreiben, welche Variable auf eine andere reagiert.
Imaginäre Überlegungen („Würden meine Symptome verschwinden, wenn ich das Medikament nicht genommen hätte?“): Das ist die Sprache, die Wissenschaftler verwenden, aber sie ist noch schwieriger. Hier braucht es Gleichungen, die uns sagen, wie Variablen auf Änderungen in anderen Variablen reagieren.
Der entscheidende Punkt dieser beiden Stufen ist, dass sie kausale Modelle verlangen. Die Grundlage hierfür stellt das Bayes'sche Netz dar, das Pearl schon im Jahr 1985 vorstellte. [2] Es handelt sich dabei um ein probabilistisches, grafisches Modell, das eine Menge von Variablen und ihre bedingten Abhängigkeiten zeigt. Damit kann für ein bestimmtes Ereignis ermittelt werden, mit welcher Wahrscheinlichkeit einzelne Faktoren zu dessen Auftreten beitrugen.
Beispiel für ein Bayes'sches Netz
Zwei Ereignisse können dazu führen, dass Gras nass ist: Regen oder eine aktive Sprinkleranlage.
Regen wirkt sich direkt auf den Sprinkler aus, der dann in der Regel nicht aktiv ist.
In einem Bayes'schen Netz lässt sich das wie nachfolgend gezeigt modellieren, wenn jede Variable zwei mögliche Werte annehmen kann (T = wahr, F = falsch). [3]
Der Knackpunkt: Kausalitäten erkennen
Nun hat sich allerdings herausgestellt, dass es ein schwieriges Unterfangen ist, kausale Zusammenhänge in den Zeitreihen von komplexen, dynamischen Systemen statistisch zuverlässig zu erkennen. Schon rein intuitiv muss das auch so sein – sonst wäre das Ganze wohl schon längst zum Standard worden.
Konkret liegen die Herausforderungen in starken gegenseitigen Abhängigkeiten und Zeitverzögerungen sowie einer hohen Dimensionalität der vielen verschiedenen Variablen. Entsprechend treten in den Zeitreihen Autokorrelationen auf, oder verschiedene einzelne, für sich genommen wenig aussagekräftige Variablen erzielen kollektiv plötzlich einen deutlichen Effekt. Das erschwert nicht nur die Suche nach den wahren Kausalitäten, sondern auch das Erkennen falsch-positiver Zusammenhänge.
Beispiel
Die folgende Grafik zeigt schematisch ein komplexes System (A), für das die zugrunde liegenden kausalen Abhängigkeiten (B) zu schätzen sind. Dabei werden sowohl lineare als auch nichtlineare Zusammenhänge und deren Zeitverzögerungen berücksichtigt. Dabei können paarweise Korrelationen zu Fehlern führen (graue Pfeile). Zum einen aufgrund gemeinsamer Treiber: So wirkt sich X2 sowohl auf X1 als auch auf X3 aus, sodass auch eine Korrelation zwischen X1 und X3 entsteht, die aber nicht ursächlich und potenziell irreführend ist. Und zum anderen aufgrund indirekter Pfade: X2 wirkt sich auf X3 aus und X3 auf X4, aber die Korrelation zwischen X2 und X4 ist nicht ursächlich.
Kausale Modelle
Solche irreführenden Korrelationen sind das Hauptproblem von klassischem Machine Learning. Diese gilt es, mit geeigneten Methoden zu erkennen und auszusortieren. Auf diese Weise können zunehmend nur die wenigen, aber dafür mit hoher Wahrscheinlichkeit kausalen Beziehungen im Modell beibehalten werden. Die entscheidende Frage ist dabei nur: Wie geht das?
Spezialisierte Unternehmen wie causaLens entwickeln mit hochqualifizierten Teams komplexe mathematische Modelle, um festzustellen, mit welcher Wahrscheinlichkeit die Zusammenhänge in den Daten kausal und wie stark sie einzuschätzen sind. Dazu werden beispielsweise alternative Szenarien durchgespielt, um Ketten von Ursache und Wirkung zu ermitteln – ganz nach menschlichem Vorbild im Sinne eines „Machine Scientists“. Allerdings steht das Ganze noch am Anfang, wie der Gründer des Unternehmens, Darko Matovski, bei der Jahrestagung Portfoliomanagement im Dezember 2020 sagte. Die genauen Details des Prozesses sind sehr kompliziert und stellen die „Secret Sauce“ von causaLens dar, das seinen Kunden entsprechend kalibrierte Prognosemodelle anbietet. Erstellt werden diese wie klassisches Machine Learning in der Programmiersprache Python.
Ein interessanter Aspekt ist dabei die Funktion, kausale Zusammenhänge zu visualisieren und so den „Denkprozess“ der Algorithmen verständlich zu machen. Das wiederum ermöglicht es Nutzern, mit den Modellen zu interagieren. Die kausalen Beziehungen stellen demnach die gemeinsame Sprache dar, in der Menschen und Algorithmen miteinander kommunizieren. [4]
Und der Spieß lässt sich auch umdrehen: Nicht nur können die Algorithmen kausale Zusammenhänge aus den Daten lernen, die dann von Experten evaluiert werden. Die vermuteten Zusammenhänge bzw. der Kontext lassen sich auch durch die Experten vorgeben und dann durch Machine Learning evaluieren, was analog zur klassischen strukturellen Modellierung ist.
Kooperation von Mensch und Maschine
Kausale Modelle können auch spezifisches Expertenwissen integrieren, wenn gesicherte Zusammenhänge bestehen, die eine höhere Aussagekraft ermöglichen. Der Vorteil ist dabei, dass dieses Wissen nicht in digitaler Form vorliegen muss und auch unstrukturiert sein kann. Zudem können Experten die „kausale Karte“ entsprechend ergänzen, wenn in einem Bereich keine ausreichenden Daten vorliegen.
Auch ist der Input nicht auf einen Zeitpunkt beschränkt und kann kontinuierlich erfolgen. Bei veränderten Rahmenbedingungen sind deshalb schnelle, fundierte Anpassungen im Zeitablauf möglich. Das bedeutet zwar, dass die Modelle nicht mehr autark funktionieren. Aber es ermöglicht Algorithmen gleichzeitig, beständig und kontextbezogen Rückschlüsse auf Ursache und Wirkung in den Daten zu ziehen. Dank des externen Inputs können die Modelle mitunter sogar schneller auf unerwartete Veränderungen reagieren, als in den Daten überhaupt erkennbar ist. Das zeigt, wie Mensch und Maschine sich im Idealfall gegenseitig ergänzen. [4] Allerdings kann dadurch auch das Fehlerpotenzial steigen.