Teilen Sie diesen Artikel & Unterstützen Sie unsere Mission Alpha for Impact
18
04
2022

Vertraue keinem Backtest, den du nicht selbst gefälscht hast.

Post by 
Viele Handelsstrategien, die auf Marktanomalien basieren, funktionieren in der realen Umsetzung nicht (oder nicht mehr). Das kann daran liegen, dass sie durch Arbitrage verschwunden sind. Mindestens genauso wahrscheinlich ist jedoch, dass es sich von Anfang an um eine falsche Entdeckung handelte.

Der perfekte Scharfschütze


Wie schwer ist es, mit einem Schuss aus großer Entfernung exakt in die Mitte einer Zielscheibe zu treffen, die an eine Wand gezeichnet ist? Das könnte in etwa so schwierig sein, wie eine Handelsstrategie zu finden, die an den Märkten eine überdurchschnittliche Rendite erzielt.
Doch man kann es sich mit der Zielscheibe auch leichter machen, indem zuerst in die Wand geschossen und dann die Markierung ringsherum gezeichnet wird. Das mag zwar lächerlich klingen, wird aber in der Kapitalmarktforschung regelmäßig praktiziert, um Volltreffer zu produzieren. Der US-Wirtschaftsprofessor Gary Smith beschreibt diese Vorgehensweise treffend als „Texas Sharpshooter Fallacy“. [1]

Etwas extrem Unwahrscheinliches ist gar nicht unwahrscheinlich, wenn es bereits passiert ist. (Gary Smith)

Das Beispiel ist natürlich überspitzt, aber macht dennoch einen wichtigen Punkt klar: Gemeinsame Merkmale von Unternehmen zu untersuchen, die schon im Vorfeld als erfolgreich ausgewählt wurden, ist nicht besonders aussagekräftig. Smith zufolge ist stattdessen die wissenschaftliche Methode anzuwenden:

  • Auswahl der zu untersuchenden Merkmale im Voraus und logische Begründung, warum sie den späteren Erfolg vorhersagen
  • Auswahl von Unternehmen im Voraus, die diese Merkmale aufweisen sowie von Unternehmen, die sie nicht aufweisen
  • Analyse des Erfolges in den nächsten Jahren anhand zuvor festgelegter Kriterien

Falsche Entdeckungen

Wer auf diese Weise nach erfolgreichen Handelsstrategien sucht, wird feststellen, dass es nur sehr wenige davon gibt. Der Grund dafür ist der starke Wettbewerb an den Märkten, der zu einem hohen Maß an Effizienz führt. Wenn doch eine profitable Strategie entdeckt wird, funktioniert sie meist nur für eine begrenzte Zeit. Gleichzeitig ist die Gefahr dafür, falsche Entdeckungen zu machen, sehr groß. Denn anders als in den Naturwissenschaften lassen sich statistische Erkenntnisse an den Märkten kaum durch kontrollierte Experimente überprüfen.

Ein Beispiel sind alternative Anlageklassen wie Wein oder Kunst, die sich angeblich besser entwickelt haben als der Aktienmarkt. Schaut man genauer hin, stammen die Daten meist oft von Vermögensverwaltern, die sich in diesen Assets engagieren, was einen klaren Interessenkonflikt darstellt. Die folgende Grafik von Factor Research zeigt, bei welchen Datenquellen man vorsichtig sein sollte, wenn es um die Beurteilung der Zuverlässigkeit geht. [2]

Abbildung 1) Verlässlicher Backtest oder Marketing?
Quelle: FactorResearch

Gleichzeitig sind sich viele Anleger nicht bewusst, dass hohe Standards notwendig sind, um einem Ansatz wirklich vertrauen zu können. Also wird oft gekauft, was gut aussieht – unter der Annahme, dass die Entwickler schon wissen, was sie tun. In Wahrheit wird die Finanzindustrie aber von überoptimierten Backtests dominiert, die in ihrer Umsetzung früher oder später zu herben Enttäuschungen führen. Doch wie kann es sein, dass ein solch unprofessionelles Vorgehen zur gängigen Praxis wurde?

Das Problem mit den Backtests

Eine Erklärung ist die Art und Weise, wie Rückrechnungen von Anlagestrategien durchgeführt werden. Die Entwickler verwenden meist historische Marktdaten, die computergestützt auf eine Vielzahl von Kriterien, Gewichtungen und Kombinationen untersucht werden. Daraus lässt sich ein optimales Design ermitteln und eine potenzielle Rendite angeben, die sich auf Grundlage der Simulationen erwarten lässt.

Wie das Paper „Finance Is Not Excused“ beschreibt, entstehen daraus überoptimierte Rückrechnungen, die für die Zukunft nicht aussagekräftig sind. [3] Der Grund dafür ist, dass im Verhältnis zur verfügbaren Datenmenge viel zu viele Varianten ausprobiert und damit (unbewusst) zufällige Muster als relevant berücksichtigt werden. Das Ergebnis: Scheinbar gute Strategien enttäuschen in der praktischen Umsetzung, dem „ehrlichsten“ aller Out of Sample Tests.

Abbildung 2) Beispiel für Data Mining
Quelle: Huang, S. / Song, Y. / Xiang, H. (2020), The Smart Beta Mirage, S. 5

Die obige Grafik zeigt als Beispiel zwei Smart-Beta-Indizes relativ zum Markt. Beide bilden den gleichen Faktor ab – der graue Verlauf in der ursprünglich 1997 erstellten und der rote Verlauf in der 2014 verbesserten Variante. Während die ursprüngliche Variante keine Outperformance erzielte, sah die neue Version rückblickend deutlich besser aus. Dann wurde ein ETF aufgelegt, der natürlich den neuen Index abbildete. Doch dessen bessere Performance trat wohl nur im Backtest auf. Direkt ab Auflage underperformte der Fonds. [4]

Die hohe Rechenkapazität moderner Computer hat das Problem weiter verschärft. Heute können problemlos Millionen oder Milliarden an Parameterkombinationen untersucht werden. Und wenn die Entwickler dann „signifikante“ statistische Muster finden, ist es nicht weiter schwierig, eine dazu passende Erklärung ringsherum zu zeichnen – ähnlich wie es eingangs der clevere Scharfschütze tat. Leider scheint das der Studie zufolge auch bei der Entwicklung von Anlagestrategien die Regel zu sein, und nicht etwa die Ausnahme.

Eine Überoptimierung von Backtests bei der Entwicklung von Anlagestrategien ist wahrscheinlich die Regel, nicht die Ausnahme.
Bailey, D. H. / de Prado, M. L. (2021), Finance Is Not Excused: Why Finance Should Not Flout Basic Principles of Statistics

Welche Interessen werden verfolgt?

Das Ganze zieht noch weitere Kreise und umfasst auch die akademische Forschung. Hier werden mitunter zweifelhafte Anlagestrategien ohne eine entsprechende Berücksichtigung von Mehrfachtests vorgestellt. Dabei kann es sich nicht nur um Nachlässigkeit handeln. Stattdessen stehen klare Interessen sowohl der Journale als auch der Forscher dahinter. Darauf weist der kanadische Wirtschaftsprofessor Campbell Harvey im Paper „Be Skeptical of Asset Management Research“ hin. [5]
Die wissenschaftlichen Zeitschriften konkurrieren, indem gemessen wird, wie oft Artikel von anderen zitiert werden. Studien mit positiven Ergebnissen, bei denen die untersuchte Hypothese bestätigt wird, schneiden dabei weitaus besser ab als Untersuchungen ohne klares Ergebnis. Gleichzeitig müssen Forscher eine bestimmte Zahl an Publikationen vorweisen, um angestellt oder befördert zu werden – und wissen, dass sie dafür positive Ergebnisse liefern sollten, da diese wie beschrieben bei den Journalen gefragt sind. Zählt man eins und eins zusammen, ergibt sich aus dieser Situation ein starker Anreiz, diese auch irgendwie herbeizuzaubern.

Subtile Manipulation

Die Methoden, mit denen sich statistisch signifikante Ergebnisse bewusst erzielen lassen, sind nicht nur vielfältig, sondern im Detail von außen auch kaum nachvollziehbar bzw. überprüfbar. In der Fachsprache wird das als „p-Hacking“ bezeichnet. Einige Beispiele dafür sind laut Harvey:

  • Untersuchung einer Vielzahl an Variablen, von denen dann nur die besten für die Studie ausgewählt werden
  • Transformation von Variablen (Logarithmierung oder Volatilitätsskalierung), um eine bessere Anpassung zu erreichen
  • Selektion bestimmter Datenzeiträume zur Maximierung des Signifikanzniveaus
  • Ausschluss bestimmter Extremphasen (globale Finanzkrise oder Coronacrash) für eine höhere Aussagekraft der Ergebnisse
  • Wahl der „besseren“ Methode, zum Beispiel gewichtete kleinste Quadrate statt einer normalen Regression

Die Gefahr für p-Hacking ist in der akademischen Welt sogar größer als bei praktischen Anwendungen, so Harvey. Denn dort geht es hauptsächlich um die positiven Anreize, die mit Veröffentlichungen verbunden sind, während es in der Kapitalmarktpraxis um echtes Geld geht. Zum Beispiel sollen Performance-Gebühren verdient werden, bei denen auch der Anbieter von einer guten Performance nach Auflage der Produkte profitiert. Deshalb wissen viele Profis um die hohe Gefahr überoptimierter Backtests und wählen moderate, realistische Varianten. Zudem möchten die Anbieter ihre Reputation wahren, sodass ihnen die Performance auch abseits der Gebühren nicht egal sein kann.

Das Anreizproblem führt zusammen mit der falschen Anwendung statistischer Methoden zu der bedauerlichen Schlussfolgerung, dass wahrscheinlich die Hälfte der empirischen Forschungsergebnisse im Finanzbereich falsch sind. (Campbell Harvey)

Fazit

Eines sollte nach diesem Artikel klar sein: Seien Sie immer skeptisch! Man kann nie zu 100 Prozent sicher sein, ob der Ersteller eines gutaussehenden Backtests tatsächlich alle Klippen umschifft und mögliche verzerrende Faktoren angemessen berücksichtigt hat. Das gilt nicht nur bei kommerziellen Anbietern, sondern vor allem auch im akademischen Bereich, wo den Wissenschaftlern der Veröffentlichungsdruck im Nacken sitzt.

Quellen

[1] Smith, G. (2018), Opinion: Calling a Company ‘Great’ Doesn’t Make it a Good Stock, https://www.marketwatch.com/story/why-great-companies-dont-always-make-good-stocks-2018-06-13
[2] FactorResearch (2022), Why Are All Illiquid Alts Outperforming?, https://insights.factorresearch.com/research-why-are-all-illiquid-alts-outperforming
[3] Bailey, D. H. / de Prado, M. L. (2021), Finance Is Not Excused: Why Finance Should Not Flout Basic Principles of Statistics
[4] Huang, S. / Song, Y. / Xiang, H. (2020), The Smart Beta Mirage
[5] Harvey, C. R. (2021), Be Skeptical of Asset Management Research

Sie möchten diesen Beitrag – komplett oder in Auszügen – für Ihre Zwecke verwenden? Dann berücksichtigen Sie bitte die folgende Creative Commons-Lizenz.