Wissenschaftliche Datenanalyse: Die Welt ist nicht schwarz-weiß

Wie die Datenanalyse wissenschaftliche Schlussfolgerungen beeinflusst

25.05.2020 - Deutschland

Was passiert, wenn 70 Forscherteams unabhängig voneinander denselben Datensatz analysieren, um dieselben Hypothesen zu testen? Nahezu 200 Wissenschaftler aus aller Welt haben untersucht, wie die Art der Datenanalyse das Endresultat beeinflusst.

Durch die Corona-Pandemie hat in den letzten Monaten ein großer Teil der Bevölkerung den wissenschaftlichen Erkenntnisprozess in Echtzeit mitverfolgen können. Anders als nur das Endergebnis einer Forschungsarbeit zu sehen, kann derzeit die breite Öffentlichkeit Schritt für Schritt miterleben, wie neue Daten analysiert werden, wie Ergebnisse revidiert und neu eingeschätzt werden. Das hat unter anderem zur Folge, dass verschiedene Experten unterschiedliche Prognosen liefern, über die Ausbreitung des Virus, den Verlauf der Krankheit, Auswirkungen auf die Wirtschaft – und damit auch voneinander abweichende und zum Teil sogar einander widersprechende Empfehlungen, wie man der Gefahr am besten begegnet.

"Der wissenschaftliche Prozess umfasst viele Schritte: Eine Theorie wird entwickelt, Hypothesen erstellt, schließlich Daten gesammelt und ausgewertet", erklärt Prof. Simon Eickhoff vom Jülicher Institut für Neurowissenschaften und Medizin. "Jeder dieser Schritte kann die endgültigen Schlussfolgerungen potenziell beeinflussen, aber in welchem Umfang? Werden zum Beispiel verschiedene Forscher auf der Grundlage derselben Daten und Hypothesen zu unterschiedlichen Schlussfolgerungen kommen?"

Neuartiger Rechner für die Bioinformatik

News lesen

Nahezu 200 Forscher aus Neurowissenschaften, Psychologie, Statistik und Wirtschaft haben sich zusammengeschlossen, um Antworten auf diese Fragen zu finden. In einer großangelegten Studie haben sie untersucht, wie sich die Art der Datenanalyse auf die Ergebnisse auswirkt. Verwendet wurden Daten der bildgebenden Hirnforschung, speziell der funktionellen Magnetresonanztomographie (fMRI).

Die komplexen fMRI-Datensätze stammten von 108 Teilnehmern einer Studie zur finanziellen Entscheidungsfindung der Universität Tel Aviv. Die Datensätze wurden an 70 Analyseteams aus der ganzen Welt verteilt, darunter drei Teams aus Simon Eickhoffs Institut. Jedes Team analysierte unabhängig die gleichen Daten: Dabei verwendeten sie jeweils ihre Standard-Analysemethoden, um neun vordefinierte Hypothesen zu testen. "Bei jeder dieser Hypothesen wurde gefragt, wie sich bestimmte Aspekte der Entscheidungsfindung auf die Hirnaktivität auswirken", erläutert Eickhoff. "Beispielsweise: Ändert sich die Aktivität in einer bestimmten Gehirnregion der Probanden, wenn es darum geht, wieviel Geld sie bei einer Entscheidung gewinnen oder verlieren könnten? Ja oder Nein?"

Die Analyseteams hatten drei Monate Zeit, um die Daten auszuwerten. Danach lieferten sie ihre 'Ja / Nein'-Resultate für die verschiedenen Hypothesen – zusammen mit detaillierten Informationen über die genaue Art und Weise, wie sie die Datensätze Schritt für Schritt analysiert haben, inklusive ihrer Zwischenergebnisse.

Die Ergebnisse der Analysegruppen variierten erheblich. Bei über der Hälfte der neun Hypothesen gab es erhebliche Meinungsverschiedenheiten: Zum Teil gelangten bis zu 40 Prozent der Teams zu einem abweichenden Resultat. "Die Zwischenergebnisse waren zum Teil sehr ähnlich", erklärt Eickhoff. "Spätere Analyseschritte führen dann jedoch zum Teil zu einer unterschiedlichen Gewichtung. Da die Endresultate die Breite der Daten auf eine einfache 'Ja / Nein'-Antwort reduzierten, hatte das zur Folge, dass selbst sehr ähnliche Zwischenergebnisse zu anderen Endresultaten führten." Eine Metaanalyse, bei der Zwischenergebnisse von verschiedenen Teams kombiniert und gemeinsam ausgewertet wurden, führte wiederum zu ähnlichen Resultaten.

Nicht nur für die Neurowissenschaften interessant

Die Studie belegt zum ersten Mal, dass die Art der Analyse komplexer Neuroimaging-Datensätze einen starken Einfluss auf das Ergebnis haben kann – trotz identischer Ausgangsdaten und festgelegter Fragestellungen. "Der Grund dafür ist, dass Forscher bei so komplexen Datensätzen auf dem Weg zum Ergebnis viele einzelne Entscheidungen treffen müssen, wie die vorliegenden Daten verarbeitet, geordnet, modelliert, analysiert werden", so Eickhoff. "Dass Metaanalysen zu konvergenteren Ergebnissen führen, ist besonders interessant. Die gemeinsame Analyse von Zwischenergebnissen einzelner Forschergruppen könnte in Zukunft die Hirnforschung voranbringen."

Tatsächlich ist die Studie nicht nur für die Neurowissenschaften interessant. "Dieses spezielle Problem der Analyse betrifft alle Bereiche, in denen mit hochkomplexen Daten gearbeitet wird, die am Ende auf ein nacktes 'Ja / Nein'-Resultat reduziert werden müssen", erklärt Eickhoff. "Die in der Studie aufgezeigte Variabilität der Ergebnisse ist ein inhärenter Bestandteil des komplexen Prozesses wissenschaftlicher Arbeit. In einer immer stärker datenbasierten und spezialisierten Wissenschaft sind daher Kooperation und Transparenz essentiell."

Die Tatsache, dass fast 200 Experten bereit waren, zum Teil Hunderte Stunden in eine kritische Selbstbewertung zu investieren, zeigt, wie stark die Wissenschaftler in diesem Bereich engagiert sind. "Wie die COVID-19-Pandemie derzeit deutlich macht, gibt es keinen Ersatz für die selbstkorrigierende wissenschaftliche Methode, um der globalen menschlichen Gesellschaft die Bewältigung der vor uns liegenden Herausforderungen zu ermöglichen – selbst unter Berücksichtigung der Unsicherheit, die dem wissenschaftlichen Prozess eigen ist."

Sowohl Daten als auch verwendete Computercodes der Studie sind offen zugänglich. Alle Analysen sind komplett reproduzierbar.