Ginge es nach den Erkenntnissen an vorderster Front der Wissenschaft, wären viele Dinge, um die es in diesem Artikel geht, schon seit Jahrzehnten anerkannte Praxis. Das zeigt insbesondere ein Blick zurück ins Jahr 1954, als US-Psychologie-Professor Paul Meehl sein Buch „Clinical vs. Statistical Prediction“ veröffentlichte. [1] Für ihn war schon damals klar, dass Modelle in vielen Bereichen klar besser abschneiden als Experten. In seinem Buch beschrieb er, wie formale, systematische Methoden eine bessere Möglichkeit bieten, das künftige Verhalten eines Patienten einzuschätzen als die Expertenmeinung der behandelnden Psychiater oder Psychologen. Auf Basis seiner Untersuchungen gelangte er zu der Überzeugung, dass dies auch auf Diagnosen und Behandlungsempfehlungen zutrifft. Der Titel des letzten Kapitels in seinem Buch sagt alles: „A Final Word: Unavoidability of Statistics“. Darin forderte er seine Fachkollegen auf, sich der systematischen Analyse zu öffnen, indem sie ganz objektiv folgende Frage in ihrer täglichen Arbeit berücksichtigen: „Am I doing better than I could do by flipping pennies?“ [2]
Natürlich war diese Einschätzung zur damaligen Zeit kontrovers. Denn Meehl argumentierte, dass die Experten bei ihren subjektiven, auf Erfahrung basierten Einschätzungen mehr Fehler machen als ein mechanisches Tool, das tatsächliche klinische Daten kombiniert und daraus eine Prognose ableitet. Demnach könnten die Experten zum Beispiel verzerrenden Verhaltenseffekten unterliegen, indem sie etwa (unbewusst) nach bestätigenden Informationen für vorgefertigte Einschätzungen suchen oder widersprüchliche Informationen vernachlässigen. Zudem wies er auf mögliche Overconfidence sowie eventuell populäre, empirisch nicht haltbare, anekdotische Beobachtungen hin. Diese „Unterstellungen“ kamen bei den angesehenen Experten überhaupt nicht gut an und führten zu jahrzehntelangen Debatten.
Mehr als 20 Jahre, nachdem sein Buch erschien, brachte Meehl seine unverändert verfochtene Einschätzung in einem Essay auf den Punkt: „There is no controversy in social science that shows such a large body of qualitatively diverse studies coming out so uniformly … as this one.“ [3]
Modelle schlagen Experten.
Man könnte sagen, dass Professor Meehl ein früher Algo-Verfechter war, wenn auch in einem ganz anderen Bereich als der Börse. Allerdings war er seiner Zeit voraus: Meehl musste seine ganze Karriere über dafür kämpfen, dass sich die modernen Methoden durchsetzen und seine Empfehlung akzeptiert wurde, möglichst selten von systematisch/statistisch ermittelten Prognosen abzuweichen. Wie aus heutiger Sicht nicht anders zu erwarten, gaben ihm spätere Studien recht: Mechanische Verfahren erzielten bessere Prognosen als klassische, klinische Experteneinschätzungen, wie eine umfangreiche Meta-Studie bestätigte:
„[...] mechanical predictions of human behaviors are equal or superior to clinical prediction methods for a wide range of circumstances.“ [4]
Experten vs. Systematik
Auch der Verfasser des im Jahr 2014 erschienenen Papers „Are You Trying Too Hard?“, Wesley Gray, ist ein Verfechter der systematischen Entscheidungsfindung. [5] Sein zentrales Argument ist, dass einfache, quantitative Modelle mit begrenzter Anzahl an Parametern bessere Ergebnisse erzielen als diskretionäre Entscheidungen von Experten. Aber dennoch sind die Einschätzungen von Experten nach wie vor gefragt. Das liegt Grey zufolge an drei falschen Annahmen, die wir (unbewusst) treffen:
qualitative Informationen erhöhen die Genauigkeit der Prognose
mehr Informationen erhöhen die Genauigkeit der Prognose
Erfahrung und Intuition erhöhen die Genauigkeit der Prognose
Tatsächlich sind diese Annahmen empirisch nicht haltbar. Wir werden fehlgeleitet von dem Gefühl, dass unsere eigenen Anstrengungen (oder die der Experten) es wert sein sollten, an der Börse zu guten Entscheidungen zu führen. Allerdings werden die Informationsvorteile von diskretionären Entscheidungen – die zunächst tatsächlich existieren können – auf Dauer von den Kosten überkompensiert, die durch verzerrte Wahrnehmung und verhaltensbasierte Fehler verursacht werden. Deshalb kann es eine erstaunlich gute Lösung sein, Algorithmen und ganze, in sich geschlossene Handelssysteme zu entwickeln, statt immer neue Ausreden und Erklärungen für wiederkehrende menschliche Fehler zu suchen.
Checkershadow Illusion
Dass menschliche Fehler auf Basis von Wahrnehmungseffekten geradezu automatisch passieren können, zeigt folgende Grafik, die auch als „Checkershadow Illusion“ bekannt ist: [6]
Das menschliche Gehirn schätzt Fläche A automatisch dunkler ein als Fläche B. Kein Experte der Welt, der diese Grafik nicht bereits kennt, würde etwas anderes behaupten. Und dennoch werden wir getäuscht. Denn wenn ein Computer ganz mechanisch untersucht, welche RGB-Farbwerte die beiden Flächen aufweisen, ist das Ergebnis zu 100 Prozent identisch: 120, 120, 120. Die nüchterne Schlussfolgerung des Computers, die keinen Wahrnehmungseffekten unterliegt, lautet deshalb: Kein Unterschied. Beide Flächen sind exakt identisch, also gleich hell bzw. dunkel. Und damit hat der Computer (natürlich) vollkommen recht.
Doch unser Gehirn geht zur Einschätzung der Grautöne anders vor. Hier geht es in erster Linie darum, mit unserer visuellen Wahrnehmung die reale Welt richtig einzuschätzen, um darin zu überleben – und dabei spielen Erfahrungswerte wie der Einfluss eines Schattens und die darin hineininterpretierte Anpassung der wahrgenommenen Helligkeit eine entscheidende Rolle. Dieser Prozess läuft unbewusst ab, sodass wir kaum glauben können, dass unsere Augen uns täuschen – aber sie tun es nachweislich. Falls Sie das nicht glauben, drucken Sie die Grafik aus, schneiden Sie die Felder in Stücke und legen Sie diese nebeneinander. Sie werden erkennen, dass die Grautöne tatsächlich identisch sind. Alternativ geht das natürlich viel einfacher mit einem Bildbearbeitungsprogramm am Computer. Diese Arbeit hat uns Professor Adelson ebenfalls schon vor 25 Jahren abgenommen, wie folgende Grafik zeigt: [7]
Wesley Gray schreibt in seinem Paper, dass die experimentelle Psychologie eines klar gezeigt hat: Menschen sind nicht in der Lage, zuverlässig zwischen Informationen zu unterscheiden, die die Genauigkeit einer Prognose tatsächlich erhöhen und solchen, die letztlich völlig überflüssig (oder sogar kontraproduktiv) sind, aber – fälschlicherweise – nach subjektiver Einschätzung eine scheinbare Verbesserung ermöglichen. Ohne einen direkten Nachweis, dass diskretionäre Entscheidungen von Experten tatsächlich besser sind, bleibt gerade an der Börse aber oftmals nur die „Guru-Story“ um eine bestimmte Person, die in der Vergangenheit (vielleicht) (zufällig) erfolgreich war – was ganz offensichtlich keine zuverlässige Basis darstellt, um dauerhaft überdurchschnittlich gute Ergebnisse zu erzielen.
Algorithmische Entscheidungen
Daniel Kahnemann schreibt in der Zusammenfassung zu seinem Buch „Thinking, Fast and Slow“, dass es wichtig ist, einen mechanischen Algorithmus zu haben, um menschliche Fehleinschätzungen aufzuwiegen. Seiner Ansicht nach haben algorithmische Ansätze folgende Vorteile: [8]
Vermeidung des Bias, sofort verfügbare Informationen zu verwenden, da die Notwendigkeit besteht, die für den Algorithmus relevanten Inputs zu beschaffen
Vermeidung der Tendenz, sich auf subjektive Wahrscheinlichkeitsgewichtungen zu verlassen, da der Algorithmus mit vordefinierten Formeln arbeitet
Vermeidung der Konstruktion einer scheinbar schlüssigen mentalen „Story“, indem durch den Algorithmus ein objektives Ergebnis etwa in Form einer Zahl erzeugt wird
Auf Basis seiner Überlegungen kommt Kahneman zu einem klaren Ergebnis, was den Stellenwert von Experteneinschätzungen an den Finanzmärkten angeht:
„[...] financial experts on the stock market whose performances are disappointingly weak when checked against the future, [are] in fact seldom more efficient than the random advice a monkey could have supplied throwing darts on a board. […] an individual player, looking for trends, is in a position no better than the hapless gambler by the casino. The house always has the upper hand.“ [8]
Kombination von Mensch und Algorithmus?
Aus der Perspektive wissenschaftlicher Untersuchungen erzielen (einfache) quantitative Modelle auf den meisten Gebieten deutlich bessere Ergebnisse als Experteneinschätzungen. Deshalb könnte es durchaus sinnvoll sein, den menschlichen Entscheidungsträgern die Ergebnisse der Modelle als Input zur Verfügung zu stellen, um so eventuell noch bessere, kombinierte Resultate zu erzielen. Genau das funktioniert einer Analyse des Kapitalmarktanalysten James Montier zufolge aber nicht: Er kommt zu dem Schluss, dass die Experten selbst dann noch schlechtere Ergebnisse als das reine Modell erzielten [9]. Montier zufolge zeigt das einen entscheidenden Punkt: Quantitative Modelle stellen eine Obergrenze der möglichen Ergebnisse dar, von denen bei menschlicher Einflussnahme entsprechend vom Ergebnis abzuziehen ist – und nicht etwa umgekehrt eine Untergrenze, zu der diskretionäre Entscheidungen einen zusätzlichen Mehrwert darstellen. Als Grund hierfür nennt er, dass wir unsere eigenen Entscheidungen bei Kombination mit den Aussagen des Modells übergewichten.
In seiner Analyse beschreibt sich Montier selbst als bestes Beispiel für genau dieses Szenario. So veröffentlichte er ein Modell zur taktischen Asset Allocation auf Basis einer Kombination von Bewertung und Momentum. Anfangs erzielte das Modell Signale, die seiner persönlichen, zu diesem Zeitpunkt bärischen Grundeinschätzung entsprachen. Doch dann produzierte das Modell unerwartet bullische Signale, die er nicht umsetzte, da er seine eigene Einschätzung für besser hielt – trotz erfolgreich durchgeführter Backtests, die zeigten, dass das Modell funktioniert. Auf diese Weise schaffte er es, etwa 18 Monate lang gegenüber seinem Modell zu underperformen.
Warum gibt es so wenige Quants?
Wenn quantitative Modelle so gut sind und tatsächlich eine Obergrenze der auf Dauer möglichen Ergebnisse darstellen, wieso gibt es dann so wenige Anbieter, die ausschließlich damit arbeiten? Sollten sich diese Modelle nicht aufgrund ihrer im Zeitablauf überdurchschnittlichen Ergebnisse im Rahmen der evolutionären Dynamik an den Märkten durchsetzen?
Auch dazu liefert das Paper von Montier einige Erklärungen: [9]
Overconfidence: Dieser Effekt lässt die Marktteilnehmer glauben, dass sie das Modell ergänzen oder es durch Auslassen von Signalen in bestimmten Situationen verbessern können
Existenzberechtigung: Ein Großteil der Beschäftigten im (institutionellen) Geschäft wurde ihren Job verlieren, wenn ausschließlich quantitative Modelle eingesetzt würden
Unwille für Umwälzung: Große Firmen, die mit seit Jahrzehnten bewährten Prozessen am Markt erfolgreich sind, müssten intern das Meiste über den Haufen werfen
Verkaufsargumente: quantitative Modelle lassen sich schwerer verkaufen, da sie oft als Black Box interpretiert werden oder der Prozess gegenüber von Menschen geführten Produkten herabgewürdigt wird („der Algorithmus macht doch die ganze Arbeit“)
Diese Punkte stellen in Summe eine hohe Hürde für quantitative Modelle dar, nachhaltig den Durchbruch zu schaffen. Das gilt übrigens nicht nur für die Finanzindustrie. Vergleichbare Hemmnisse beschreibt Kahneman auch für andere Bereiche:
„But of course, clinician, political pundits, and financial advisors have more than a vested interest in keeping up the illusion.“ [8]