Kai Jäger ist ehemaliger Professor für politische Ökonomie am Kings College London

Pullfaktor-Studie erleidet Schiffbruch – Die Analyse

von Kai Jäger (Kommentare: 2)

Die Bundesregierung finanziert eine Studie, die vorgibt, belegen zu können, dass es keinen Pull-Faktor gibt. Aber die Studie ist ein Desaster und vielmehr geeignet, das genaue Gegenteil zu beweisen: Das Dilemma der „Seenotrettung“.

Von Kai Jäger

Es ist außergewöhnlich für einen wissenschaftlichen Artikel, dass bereits kurz nach dem Erscheinen über 150 Zeitungen im In- und Ausland über die Studienergebnisse berichten. Dies war vergangene Woche der Fall, nachdem das renommierte Journal „Scientific Reports“ den Artikel „Search‑and‑rescue in the Central Mediterranean Route does not induce migration: Predictive modeling to answer causal queries in migration research“ online veröffentlichte.

Die Studie der Autoren Alejandra Rodríguez Sánchez, Julian Wucherpfennig, Ramona Rischke und Stefano Maria Iacus entstand im Rahmen eines Projektes des pro-migrantischen DeZIM Instituts und wurde von der Deutschen Forschungsgemeinschaft (DFG) finanziell gefördert.

Die Brisanz steckt bereits im Titel, denn die Studie soll angeblich zeigen, dass die Seenotrettung im Mittelmeer nicht zu mehr Migrantenüberquerungen nach Europa führte. Des Weiteren würde die Präsenz der Seenotrettung nicht zu mehr Toten im Mittelmeer führen, sondern Leben retten.

Entsprechend positiv und unkritisch fiel die Medienresonanz aus; „Die Erkenntnisse widerlegen Argumente von Populisten,“ so das ZDF. Bei Altmetric ist die Studie unter den besten 0,1 Prozent aller wissenschaftlichen Artikel in Bezug auf Aufmerksamkeit in den sozialen Medien gelistet.

Doch anscheinend haben weder Journalisten noch Wissenschaftler die Studie genauer gelesen. Denn bereits ein rudimentärer Blick auf den Artikel genügt auch ohne wissenschaftliche Methodenkenntnisse aus, um zu sehen, dass es bei dieser Studie nicht mit rechten Dingen zugeht.

Werfen wir zunächst einen Blick auf die Daten, wie sie von den Forschern präsentiert werden. Die Grafik zeigt die Anzahl der irregulären Überquerungen in A. und die Sterblichkeitsrate der auf See verunglückten Flüchtlinge in B. für die Perioden der Seenotrettung.

Schauen wir zunächst auf den unteren Teil B. Auf den ersten Blick scheint die Sterblichkeitsrate im Jahr 2019 höher zu sein als in dem schattierten Bereich, der den Höhepunkt der Seenotrettung darstellt. Die Autoren meinen diesbezüglich auch auf Seite 3, dass „das Fehlen der Seenotrettung und der Beginn koordinierter Pushbacks mit einer höheren geschätzten Sterblichkeitsrate verbunden“ sei.

Was hier allerdings auffällt ist, dass die Autoren nicht die absoluten Todeszahlen der im Mittelmeer ertrunkenen Flüchtlinge verwenden, sondern auf eine eigens konstruierte Messung der Sterblichkeitsrate zurückgreifen.

Diese Messung dividiert die Anzahl der Todesfälle durch 100 oder 1.000 versuchte Überquerungen. Die absolute Anzahl der Todesfälle ist jedoch die entscheidende Zahl, die reduziert werden muss – und daher aus politischer Sicht relevant.

Die Verwendung der konstruierten Sterblichkeitsrate soll anscheinend verbergen, dass es zu den meisten Todesfällen auf See während der „Blütezeit“ der Seenotrettungen kam, wie wir anhand der offiziellen Daten bei Statista sehen können.

So war die absolute Zahl der Toten mit 1.885 geringer als in den Jahren zuvor. Passenderweise erwähnen die Autoren die absolute Todeszahlen nirgends im Artikel, da die absoluten Todeszahlen schwer in Einklang mit der Behauptung zu bringen sind, dass die Seenotrettung Leben rettet.

Im oberen Teil A. sehen wir zudem deutlich, dass die Versuche von Überquerungen während der „Blütezeit“ der Seenotrettung am höchsten waren. Alle starken Anstiege und Höchstzahlen der Überquerungen fielen in den Monaten der Seenotrettung. Dies scheint dem Hauptergebnis des Artikels zu widersprechen, was die Frage aufwirft, warum die Forscher doch keinen Zusammenhang zwischen Seenotrettung und Überquerungen feststellen können.

Bei dem Projekt handelt es sich nicht um eine empirische Studie im klassischen Sinne, sondern um eine prädiktive Analyse bzw. ein Vorhersagemodell: Die Forscher haben sich den Zeitraum vor der staatlichen und privaten Seenotrettung angeschaut und eine datengetriebene Künstliche Intelligenz (KI) mit Hilfe von verschiedenen Datensätze trainiert, um ein Modell zu entwickeln, welches die irregulären Überquerungsversuche in diesem Zeitraum am besten erklären kann.

Dieses Modell wird anschließend dafür verwendet, um die irregulären Überquerungsversuche während des Zeitraums der Seenotrettungen vorherzusagen. Abschließend wird diese Vorhersage mit den wirklichen Überquerungszahlen verglichen und geschätzt, ob ein signifikanter Unterschied zwischen den kontrafaktischen und wirklichen Überquerungsversuchen vorliegt. In ihrem Modell wurde kein signifikanter Unterschied gefunden, weshalb Rodríguez Sánchez und Kollegen zur Schlussfolgerung gelangten, dass die Seenotrettung keinen Pull-Faktor für die Migrationsströme darstellt.

Ich habe die prädiktive Analyse bereits in zwei wissenschaftlichen Artikeln kritisiert (https://academic.oup.com/jogss/article-abstract/3/4/498/5061069 und https://www.tandfonline.com/doi/abs/10.1080/08913811.2016.1237704). Ich zeige auf, dass eine Studie, die im renommierten "American Journal of Political Science" erschien, auf inkorrekten Daten und Vorhersagen aus dem Märchenbuch beruhte. Kurioserweise war einer der Autoren der damaligen Studie Nils Metternich, der ein regelmäßiger Coautor von Julian Wucherpfennig ist, der an der DeZIM-Studie mitgewirkt hat.

Zwei generelle Probleme von solchen prädiktiven Modellen möchte ich hervorheben. Erstens erkennt die datengetriebene KI zwar, welche Variablen eng mit dem zu erklärenden Phänomen korrelieren, aber nicht, ob es sich um Scheinbeziehungen handelt. Man denke etwa an „Mierscheids Gesetz“ welches die westdeutsche Stahlproduktion benutzt, um das Wahlergebnis der SPD erfolgreich „vorherzusagen“. Je komplexer das Modell, desto mehr wird die Vorhersage zu einer „black box“: Zwar gibt es eine hohe statistische Vorhersagequote, allerdings ohne den Erkenntnisgewinn, auf was dies konkret zurückzuführen ist.

Die DeZIM-Studie verwendet für die Vorhersage verschiedene Standarddaten und alternative Daten, wie z. B. wie häufig bei Google nach dem Syrien-Konflikt oder nach Arbeitsstellen auf Arabisch gesucht wurde, die Anzahl von Passagieren an ausgewählten europäischen, afrikanischen und asiatischen Flughäfen oder die Wechselkurse von ausgewählten Entwicklungsländern zum Euro – selbst von denen, die an den Euro gekoppelt sind.

Entsprechend werden die Autoren auch nicht konkret, welche Variablen aus ihrem Modell die Flüchtlingsströme vorhersagen können. Daher können wir auch nicht beurteilen, inwiefern Scheinbeziehungen eine Rolle bei der Vorhersage spielen. Die Daten selbst werden von den Autoren nicht zur Verfügung gestellt.

Des Weiteren bleiben Ereignisse, die auf einen Pull-Faktor hindeuten, unberücksichtigt, da sie nicht von der Studie operationalisiert wurden, wie etwa die Nachrichten, dass Schlepper gezielt die Routen der Seenotrettung ansteuern oder die verschärfte politische Reaktion der italienischen Regierung auf die Seenotrettung im Frühsommer 2018.

Die Überquerungszahlen gingen infolgedessen stark zurück, aber dieser politische Effekt könnte von einem Teil der oben erwähnten Daten als Scheinbeziehung erfasst worden sein: Falls dies der Fall war, würde das prädiktive Modell dies als Bestätigung sehen, dass politische Anreizfaktoren keine Rolle spielten, obwohl dies in der Wirklichkeit der Fall war.

Das zweite Problem ergibt sich aus der „black box“ Situation von prädiktiven Modellen, und zwar haben wir hier ein Anreizproblem für die involvierten Forscher. Je nachdem ob eine korrekte Vorhersage vom Forschungsteam gewünscht ist oder nicht können Datensätze hinzugefügt bzw. entfernt oder mathematische Modellannahmen revidiert werden, um das Konfidenzintervall für die Vorhersage zu manipulieren.

Wie bereits zuvor beschrieben, wird in dem Vorhersagemodell verglichen, ob ein signifikanter Unterschied zwischen den echten und prognostizierten Überquerungsversuchen vorliegt. Um dies beurteilen zu können, berechnen die Forscher ein sogenannten Konfidenzintervall. Das Konfidenzintervall fungiert quasi als „Sicherheitsnetz“ für die Vorhersage. Es sagt Wissenschaftler, wie sicher sie mit ihren Schätzungen sein können.

Falls die tatsächlichen Zahlen innerhalb dieses Netzes liegen, dann war die Vorhersage ziemlich genau und bedeutet konkret für die Studie, dass die Seenotrettung kein Pull-Faktor für Überquerungen war. Falls allerdings die Anzahl der echten Überquerungen weit höher als die kontrafaktischen sind und sie außerhalb des Konfidenzintervalls liegen, dann würde dies zur Schlussfolgerung führen, dass das gewählte Modell die echten Zahlen nicht erklären kann und die Seenotrettung zu mehr Flüchtlingsströmen führt. Das heißt, je größer das Gebiet des Konfidenzintervalls, desto schwieriger wird es, einen statistischen Effekt der Seenotrettung zu finden.

Schauen wir uns nun die graphische Darstellung des Vorhersagemodells für die private Seenotrettung an. Die schwarze Linie zeigt die echten Überquerungen, die gepunktete blaue Linie die Überquerungen der Modellvorhersage und der schattierte Bereich um die Linien ist das Konfidenzintervall, das wie besprochen die Unsicherheit des Modells berücksichtigt.

Die Autoren schreiben über die Ergebnisse, dass "diese empirischen Beweise direkt dem 'Pull-Faktor'-Ansatz widersprechen, da der Unterschied zwischen der Vorhersage und der beobachteten Serie weit von statistischer Signifikanz entfernt ist," [da sich die schwarze Linie über den gesamten Zeitraum innerhalb des Konfidenzintervalls befindet].

Hier gibt es allerdings ein schwerwiegendes Problem.

Auf dem ersten Blick scheint die Prognoselinie eng an den echten Überquerungsdaten zu sein. Auch das Konfidenzintervall erscheint jedenfalls bis kurz vor 2018 nicht allzu groß. Allerdings ist dies nur ein optischer Eindruck, da die Autoren die Überquerungsdaten auf eine logarithmische Skala transformiert haben.

Hinter der logarithmierten Skala verbergen sich gigantische Zahlen. In Wirklichkeit lag etwa die Höchstzahl von Überquerungen in einem Monat bei etwa 30.000, was einem Logarithmus von etwa 4,477 entspricht. Aber in dem Diagramm haben wir ein Konfidenzintervall, das weit über die wirklichen Daten hinausgeht und in späteren Jahren einen Logarithmus von 20 (über 485 Millionen Überquerungen) und einen Logarithmus von 40 erreicht (235.000.000.000.000.000 oder ungefähr 30 Millionen Mal die Weltbevölkerung).

Das heißt kleinere graphische Abweichungen zwischen den beiden Linien bedeuten in der Wirklichkeit große Diskrepanzen, die durch die Verwendung der logarithmischen Skala verschleiert werden. Auch ist das Konfidenzintervall gigantisch, selbst wenn es optisch betrachtet eng an den Linien liegt. Dies kann mit einem Datenbeispiel von dieser Grafik verdeutlicht werden.

Sowohl der optische Unterschied der Linien als auch die Fläche des Konfidenzintervalls scheinen in der zweiten Hälfte des Jahres 2016 (siehe Pfeil) gering zu sein. Nimmt man allerdings eine grafische Lupe zu Hilfe, sind die Unterschiede gravierend. Die wirkliche Überquerungen liegen nah am Höchstwert bei ca. 25,000. Die kontrafaktische Vorhersage ist an diesem Datenpunkt mit unfassbaren 100.000 Überquerungen ungefähr viermal so hoch und das Konfidenzintervall reicht von wenigen Tausend bis knapp unter 2 Millionen für den gesamten Zeitraum.

Das heißt, die monatlichen Überquerungen hätten hier bei fast 2 Millionen liegen müssen; Nur dann würde laut der Modellrechnung ein Pull-Faktor durch die Seenotrettung vorliegen. Mit anderen Worten, das Modell wurde so konstruiert, dass es unmöglich war, die gewünschte Schlussfolgerung der Autoren durch echte Daten zu widerlegen; in den späteren Monaten hätte dafür noch nicht mal ganz Afrika oder die gesamte Weltbevölkerung ausgereicht.

Rodríguez Sánchez et al. kamen in einer früheren Version ihres Artikels zu dem Schluss, dass "wir feststellen, dass es kein eigentliches Dilemma [der Seenotrettung] gibt, die Leben verzweifelter Migranten zu retten, die versuchen, höchst prekären Bedingungen und dem Risiko von Gewalt zu entkommen. Unabhängig davon erfüllen Seenotrettungen eine humanitäre Rolle, die unter allen Umständen fortgesetzt werden sollte, 'Pull-Faktor' oder nicht."

Aber dies hat sich als normatives Wunschdenken ohne empirische Grundlage herausgestellt: Die Autoren können das Dilemma der Seenotrettung nur dadurch (weg)erklären, da sie die Anzahl der Todesfälle auf See in eine völlig andere Messung umwandeln und die Anzahl der Todesfälle im gesamten Artikel nie erwähnen.

Anschließend wurde der natürliche Logarithmus für die Überquerungsdaten benutzt, der die Vorhersagen des Models besser aussehen lässt als sie wirklich sind. Dieses Vorgehen wirft viele Zweifel an der Genauigkeit und der Wissenschaftlichkeit ihres KI-basierten Vorhersagemodell auf.

Auch ohne weiteren Datenzugang reicht eine rudimentäre Analyse des Modells aus, um erkennen zu können, dass ihr Modell so konzipiert wurde, dass die politisch gewünschten Ergebnisse von vornherein feststanden.

Kai Jäger

Kai Jäger ist promovierter Ökonom und war bis Frühjahr 2023 assoziierter Professor (Senior Lecturer) für Politische Ökonomie am King’s London. Über die Gründe, warum er seine Professur aufgab, berichtete er in der FAZ und in seinem Substack Kanal: https://kaijaeger.substack.com. Dort erschien auch eine frühere, englische Version dieses Artikels. Twitter: @DrKaiJaeger

Einen Kommentar schreiben

Sie müssen sich anmelden, um Kommentare hinzuzufügen. Aufgrund von zunehmendem SPAM ist eine Anmeldung erforderlich. Wir bitten dies zu entschuldigen.

Kommentare