Statistik

Bisher haben Arzneimittelbehörden wenig Erfahrung mit der Methode nach Bayes. © PixelsAway / Depositphotos

US-Arzneiaufsicht lässt bisher verpönte statistische Methode zu

Martina Frei /  Kritiker befürchten, dass bei Medikamentenzulassungen damit leichter getrickst werden kann.

«Einen sehr grossen Schritt», kündigte Martin Makary, Leiter der US-Arzneimittelbehörde FDA, kürzlich an: Die weltweit einflussreichste Arzneimittelbehörde sei nun «offen für Bayesianische Statistik». Damit weicht die FDA von einer jahrzehntelangen Tradition bei der Arzneimittelzulassung ab.

Die Bedeutung der lange erwarteten FDA-Richtlinie zur Bayesianischen Statistik «kann nicht hoch genug eingeschätzt werden», schrieb der weltweit bekannte Statistiker David Spiegelhalter in der US-Ärztezeitung «Jama».

In die Wege geleitet wurde die Neuerung schon unter der Regierung von Joe Biden. Während FDA-Leiter Makary von einem «spannenden Tag» sprach, läuteten bei anderen jedoch die Alarmglocken: Der Bayes-Ansatz liefere «viel Spielraum für Rosinenpickerei und Manipulation», um gewünschte Ergebnisse zu erhalten. Er «öffnet eine neue Büchse der Pandora an Betrugsmöglichkeiten», warnte der emeritierte Epidemiologie- und Statistik-Professor Sander Greenland von der University of California im «British Medical Journal». Greenland befürchtet, dass mit dem Bayes-Ansatz Missbrauch zugunsten der Pharmafirmen betrieben werden könne. Dann kämen unwirksame oder schädliche Medikamente auf den Markt. 

«Diese Art der Statistik galt bei der Arzneimittelprüfung lange Zeit als verpönt», sagt Jürgen Windeler, ehemaliger Leiter des deutschen Instituts für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWIG) und Professor für Medizinische Biometrie und Klinische Epidemiologie.

Doch schon seit einiger Zeit taucht der Begriff «Bayes» immer häufiger im Statistik-Teil medizinischer Studien auf. Das wohl prominenteste Beispiel war die Covid-Impfung von Pfizer/Biontech. Die massgebliche Studie für die Notfallzulassung Ende 2020 wurde mit Hilfe des Bayes-Ansatzes ausgewertet.

Entwicklungskosten sparen

Vertreter der Pharmaindustrie warben 2023 in «Nature Reviews Drug Discovery» für die bayesianische Statistik, benannt nach dem Mathematiker und Theologen Thomas Bayes, der im frühen 18. Jahrhundert lebte. Ihr Hauptargument: Die Bayes-Statistik helfe, Zeit und Geld zu sparen. 

Mit der Bayes’schen Methode brauche es 15 bis 60 Prozent weniger Studienteilnehmer, legten sie anhand von Beispielen dar. Das reduziert die Entwicklungskosten von neuen Medikamenten. Überdies könnten diese mit Hilfe des Bayes-Ansatzes rascher zugelassen werden und die Patienten würden früher davon profitieren. 

Diese Ziele hat sich auch die FDA auf die Fahne geschrieben. Westliche Arzneimittelbehörden stehen unter Druck, mehr Tempo bei der Zulassung zu machen.

Behandlungserfolg rascher feststellen

Ein weiteres Ziel der FDA: Sie will Gentherapien für Menschen mit seltenen Erkrankungen zum Durchbruch verhelfen (Infosperber berichtete). Bei solchen, auf einzelne Patienten massgeschneiderten Behandlungen sind grosse Studien mit vielen Teilnehmern und herkömmlicher statistischer Auswertung kaum machbar. Einen Ausweg bietet die bayesianische Statistik.

«Sie kann die Frage beantworten: ‹Wie wahrscheinlich ist es, dass dieses Medikament bei diesem Patienten wirken wird?›. Das geht mit der üblichen, frequentistisch genannten statistischen Methode nicht», sagt Sabine Hoffmann, Leiterin der Beratungsstelle für Statistik an der Ludwig-Maximilians-Universität München. «Mit bestimmten bayesianischen Studiendesigns kann man viel früher sagen, ob eine Therapie funktioniert oder nicht.»

Fairer gegenüber den Studienteilnehmern

Auch Frank Harrell, Professor für Biostatistik an der Vanderbilt University und FDA-Berater, weibelt in Vorträgen und in seinem Blog seit Jahren für den Bayes-Ansatz. Derzeit seien viele Studien hinausgeworfenes Geld, argumentiert er. 

Denn erstens würden viele versanden, weil sich nicht genügend Versuchspersonen rekrutieren liessen. Zweitens sei das Ergebnis der Studien oft nicht signifikant, so dass man nachher nicht viel mehr wisse als vorher. Und falls sich drittens in einer Studie rasch abzeichne, dass eine Therapie durchschlagend wirke oder gar nicht, müsse das Experiment trotzdem zu Ende geführt werden, um noch den statistischen Beweis zu erbringen. Damit würden unter Umständen Jahre vergeudet. Dies sei – auch den Teilnehmenden gegenüber – ethisch nicht fair, kritisiert Harrell. 

Der Fluch des Gewinners

Bei der Bayes-Methode schätzen die Statistiker zuerst aufgrund des schon vorhandenen Wissens zu einer Behandlung, wie das Ergebnis der geplanten Studie ausfallen wird. Dann vergleichen sie die Studienresultate mit ihrer Vorhersage. Ein entscheidender Punkt ist, welche Vorannahmen sie treffen. In der Fachsprache heisst dies «Prior». «Der Prior hat eine erhebliche subjektive Komponente», gibt Jürgen Windeler zu bedenken. 

«Damit kann man potenziell überoptimistische Ergebnisse bekommen», sagt Hoffmann. Die Biostatistikerin sieht vor allem zwei Punkte kritisch. «Stellen Sie sich zum Vergleich einen Hochsprung-Wettbewerb vor, bei dem die Teilnehmer alle etwa gleich hoch springen», sagt sie. «Der Sieger war in diesem Fall zufällig besser als die Konkurrenz, die durchschnittlich gut gesprungen ist oder zufällig etwas schlechter war als sonst.» Betrachte man allein den Siegessprung, überschätze man die eigentliche Sprungkraft des Gewinners.

«Winners curse», den Fluch des Gewinners, nennen Statistiker diesen methodischen Fehler, der nun bei der Arzneimittelzulassung passieren könnte, wie Kritiker befürchten. 

Üblicherweise läuft die Arzneimittelzulassung heutzutage so ab: Zuerst werden Phase-1-Studien durchgeführt, um die Verträglichkeit des neues Wirkstoffs an wenigen (meist gesunden) Versuchspersonen zu testen. Danach wird in der Phase 2 die Wirksamkeit und Verträglichkeit an einer kleinen Gruppe von Patienten untersucht. Die Phase-3-Studie ist schliesslich die «Feuerprobe» für jeden neuen Wirkstoff: Nun erhalten viele Kranke die neue Substanz. 

Phase-2-Studien täuschen oft grösseren Nutzen vor

Bei einem wirksamen und sicheren Medikament müsste die Phase-3-Studie das Ergebnis der Phase 2 bestätigen. Doch das ist längst nicht immer der Fall. Die FDA selbst beschrieb in einem Bericht 22 Beispiele von Medikamenten und Impfstoffen, bei denen die Phase-2-Studie erfolgversprechende Resultate lieferte – und die nachfolgende Phase-3-Studie keinen Nutzen fand. 

Selbst nach relativ grossen Phase-2-Studien kommen also manchmal erst in der Phase 3 Sicherheits- oder Wirksamkeitsmängel zum Vorschein. Und positive Kurzzeitergebnisse müssen nicht unbedingt den Langzeitnutzen widerspiegeln.

Bisher wird jede dieser Studien separat betrachtet und statistisch ausgewertet. Floppt der neue Wirkstoff in der Phase-3-Studie, kann der Hersteller die Zulassung abschreiben. Reüssiert der Wirkstoff – meist wird dies mit einem p-Wert* unter 0,05 belegt – und erweist er sich als sicher genug, wird das neue Medikament in der Regel zugelassen.

Negative Studienresultate «aushebeln»

Wenn die FDA neu erlaube, dass Resultate der Phase-2-Studien in die Vorannahme einfliessen dürfen, könnten positive Ergebnisse von kleineren, vorangegangenen Studien womöglich das negative Resultat einer Phase-3-Studie «aushebeln», sorgen sich die Kritiker des Bayes-Ansatzes.

Erste, frühe Studienresultate eines neuen Wirkstoffs können bei der bayesianischen Statistik in die Vorannahme ebenso einfliessen wie Expertenmeinungen, Ergebnisse von – bekanntermassen verzerrungsanfälligen – Beobachtungsstudien, Krankenversicherungsdaten, Jahre zurückliegende Studien und anderes mehr. Diese Daten werden je nach Einschätzung unterschiedlich gewichtet – und dabei gibt es Spielraum. Wer schummeln will, könnte zum Beispiel günstige Studienergebnisse stark gewichten und ungünstige nur schwach.

Bei der Bayes-Statistik werde aufgrund solcher «beliebig unscharfer» Vorinformationen abgeschätzt, wie gut ein neues Medikament sei, sagt Jürgen Windeler. «Diese vermuteten A priori-Wahrscheinlichkeiten sind eine vage Angelegenheit und sehr subjektiv.»

«Viele neuen Wirkstoffe werden in der Phase 2 aussortiert», erläutert Hoffmann. «Wenn man nur die Phase-2-Studien mit positivem Ergebnis in die Vorannahme einfliessen lässt, ist die Wahrscheinlichkeit hoch, dass man die Wirksamkeit eines neuen Wirkstoffs überschätzt.» Die Biostatistikerin erläutert es am Beispiel des Hochsprung-Wettbewerbs: Würde man bei einer Sportlerin nur aufgrund ihrer besten Sprünge abschätzen, wie gut sie ist, und die Sprünge, bei denen sie schlecht abschnitt, ignorieren, ergäbe dies kein realistisches Bild ihrer Leistung.

Der zweite kritische Punkt

Der zweite aus Sicht Hoffmanns «sehr kritische Punkt» sind Vorannahmen, die auf Studien beruhen, welche leicht zu falschen Schlüssen verleiten. Zu nennen sind hier insbesondere die Beobachtungsstudien. Dort gibt es gibt es hunderte von Möglichkeiten, die Daten zu «grillieren». Hoffmann spricht von «analytischer Flexibilität». 

Beispielhaft zeigte dies die kanadische Wissenschaftlerin Dana Zeraatkar am Zusammenhang zwischen Fleischkonsum und Sterblichkeit (Infosperber berichtete). Sie wertete den immer gleichen Datensatz auf 1440 verschiedene, legitime Arten aus. Mal bezog sie viele Faktoren ein, mal wenig, oder sie gewichtete die Faktoren anders. Das Resultat: Je nach statistischer Auswertung ging der Fleischkonsum mit einem 49 Prozent niedrigeren Sterberisiko einher – oder mit einem um 75 Prozent höheren. Dazwischen gab es praktisch alles, schrieb sie im «Journal of Clinical Epidemiology». 

Beim Ansatz nach Bayes können Wissenschaftler unter anderem Datensätze wie diesen einfliessen lassen. Pharmafirmen drängen zudem seit Jahren darauf, vermehrt auf «Real World Daten» zuzugreifen, also zum Beispiel Krankenkassen-Daten oder Daten aus Patientenakten. 

Die Arzneimittelbehörden tragen dem Rechnung, obwohl «die Versprechen und Erwartungen, die mit dem Schlagwort ‹Real World› verbunden sind, vollkommen unrealistisch [sind], die Glorifizierung solcher Daten unangebracht – und in nicht geringem Mass interessengeleitet», wie Jürgen Windeler im «Arzneiverordnungsreport 2025» schrieb. Für Journalisten und andere Aussenstehende sei es nicht möglich, zu beurteilen, ob die Vorannahmen und die bayesianische Statistik in einer Studie korrekt sind, ist er überzeugt. Windeler hegt auch Zweifel, ob sich mit den Bayes-Verfahren wirklich vorhersagen lasse, ob ein Medikament bei einem Patienten wirken werde.

Vorbeugende Massnahmen

Auch Peter Doshi, Professor an der University of Maryland School of Pharmacy und leitender Redakteur beim «British Medical Journal», befürchtet im Hinblick auf die künftige stärkere Verwendung Bayes’scher Statistik in Zulassungsanträgen für Medikamente, dass weniger Menschen beurteilen können, wie aussagekräftig diese Analysen seien. «Ich mache mir Sorgen, dass die Aufsichtsbehörden und andere Personen ungeeignete Annahmen in den Analysen möglicherweise nicht erkennen und dadurch Fehlentscheidungen getroffen werden könnten, sowohl wenn die FDA die Industrie berät als auch bei den Zulassungsentscheidungen der FDA», schreibt er auf Anfrage.

Dieses grosse Problem sprachen auch die Pharma-Wissenschaftler in ihrem Artikel in «Nature Reviews Drug Discovery» an: Der Bayes’sche Ansatz sei den Zulassungsbehörden noch wenig vertraut.

Es sei darum wichtig, die Vorannahmen leicht verständlich zu machen, so Doshi.

Das sieht auch Hoffmann so. «Die Vorannahme ist das Erste, worauf man als Statistikerin beim Bayes-Ansatz schaut. Das muss transparent angegeben werden.» Aus ihrer Sicht würde es zudem helfen, wenn alle Beobachtungsstudien vorab registriert werden müssten, inklusive Angaben zur geplanten statistischen Auswertung. Das erhöhe die Transparenz, schrieb sie letztes Jahr im «British Medical Journal». Doch eine solche Registrierung ist noch weit entfernt. 

Eine Studie, an der Doshi mitwirkte, ebenfalls im «British Medical Journal» veröffentlicht, zeigte kürzlich: Selbst dort, wo eine Registrierung in der EU gesetzlich verlangt gewesen wäre, wurde dies in 3 bis 4 von 10 Fällen nicht gemacht. 

* Der alles entscheidende p-Wert

Bei der herkömmlichen statistischen Auswertung steht am Anfang die sogenannte «Nullhypothese». Sie lautet zum Beispiel «das neue Medikament wirkt nicht». Widerlegen die Studienresultate diese Hypothese mit hoher Wahrscheinlichkeit, gilt das neue Arzneimittel als wirksam. 

Der oft alles entscheidende Wert bei den statistischen Berechnungen ist der «p-Wert». Er ist so etwas wie das goldene Kalb, um das die Wissenschaft seit Jahrzehnten tanzt. P steht für das lateinische «probabilitas», auf deutsch Wahrscheinlichkeit. 

Als Schwellenwert gilt üblicherweise ein p-Wert unter 0,05. In diesem Fall wäre die Wahrscheinlichkeit, dass die Studienergebnisse zeigen, dass das Medikament wirkt, obwohl es in Wirklichkeit nicht wirkt, kleiner als fünf Prozent. Statistiker sprechen dann von einem «signifikanten» Ergebnis. Die Grenze von fünf Prozent wurde willkürlich festgelegt.

«Statistisch signifikant» wird oft missverstanden

Ein statistisch signifikantes Ergebnis bedeutet indes nicht automatisch, dass die Behandlung den Kranken grosse Linderung bringt, wie das Beispiel des Alzheimer-Medikaments Lecanemab zeigt. Es ist in der EU und in den USA gegen die Alzheimer-Erkrankung im frühen Stadium zugelassen. In einer wichtigen Studie schnitten die mit Lecanemab Behandelten bei verschiedenen Hirnleistungstests «hochsignifikant» besser ab als diejenigen, die ein Placebo bekamen: Der p-Wert war kleiner als 0,001. 

Bloss: Dieser Unterschied war laut dem Präsidenten der Arzneimittelkommission der deutschen Ärzteschaft weniger als die Hälfte dessen, was typischerweise von den Patienten als Wirkung bemerkt werde. Der Behandlungseffekt war also zwar statistisch «hochsignifikant» erkennbar, aber im Durchschnitt so klein, dass er für die Patienten kaum oder gar nicht spürbar war.

Ist der p-Wert grösser als 0,05, gilt das Ergebnis als «nicht-signifikant» – und das wird fälschlicherweise oft gleichgesetzt mit «wirkungslos». Dabei kann ein neues Medikament trotzdem wirksam sein.

Weil der p-Wert oft falsch interpretiert wird und ihm soviel Bedeutung zukommt, wird immer wieder versucht, zu tricksen und die Studienergebnisse so zurechtzubiegen, dass am Schluss ein p-Wert < 0,05 herauskommt.

Weiterführende Informationen


Themenbezogene Interessenbindung der Autorin/des Autors

Keine
_____________________
➔ Solche Artikel sind nur dank Ihren SPENDEN möglich. Spenden an unsere Stiftung können Sie bei den Steuern abziehen.

Mit Twint oder Bank-App auch gleich hier:



_____________________
Meinungen in Beiträgen auf Infosperber entsprechen jeweils den persönlichen Einschätzungen der Autorin oder des Autors.

Zum Infosperber-Dossier:

Swissmedic

Swissmedic

Diese BAG-Behörde erlaubt alle Medikamente, deren Nutzen grösser ist als der Schaden. Zu viel läuft geheim.

Bildschirmfoto 2022-10-28 um 12.25.44

Wissenschaft

Transparent, reproduzierbar und unabhängig von wirtschaftlichen Interessen sollte sie sein.

War dieser Artikel nützlich?
Ja:
Nein:


Infosperber gibt es nur dank unbezahlter Arbeit und Spenden.
Spenden kann man bei den Steuern in Abzug bringen.

Direkt mit Twint oder Bank-App



Spenden

Ihre Meinung

Lade Eingabefeld...