Von wegen beeindruckend: Künstliche Intelligenz kann bei der Verbrechersuche in über 99 Prozent der Fälle Fehlalarme produzieren – selbst bei einer Trefferquote von 80 Prozent. © Depositphotos

Hype um künstliche Intelligenz – und wie man ihn durchschaut

Martina Frei / 13.09.2022 Vermeintliche Erfolgsmeldungen in Medien entpuppen sich oft als viel weniger beeindruckend. Ein paar einfache Überlegungen genügen.

Künstliche Intelligenz hilft, Steuersünder zu finden, «künstliche Intelligenz hält Einzug in die Opernwelt«, «künstliche Intelligenz entwirft neuartigen Tennisschläger«, künstliche Intelligenz hilft beim Energiesparen, künstliche Intelligenz revolutioniert dieses oder jenes … – kein Tag vergeht, an dem es nicht irgendeine Erfolgsmeldung zu künstlicher Intelligenz in die Medien schafft.

Nur selten gibt es in der Flut an Positivnachrichten auch kritische Stimmen wie kürzlich im «NZZ Folio». Die Autorin beschrieb dort unter anderem, wie «künstliche Intelligenz» und ihre menschlichen Helfershelfer in den Niederlanden Tausende von Familien in die Armut trieben und über 1’000 Kinder in Pflegefamilien kamen. Der Grund: Die «künstliche Intelligenz» hatte die Familien als Betrüger «erkannt», und die Steuerbeamten vertrauten ihr mehr als den zu Unrecht Beschuldigten.

Die Fehleinschätzung des Ministers

Wie kritiklos die «künstliche Intelligenz» gefeiert wird, illustriert auch das folgende Beispiel aus dem kürzlich erschienenen Buch «Grüne fahren SUV und Joggen macht unsterblich».

Nachdem im Dezember 2016 ein islamistischer Terrorist mit einem LKW in einen Berliner Weihnachtsmarkt gedonnert war, liess der damalige deutsche Bundesinnenminister untersuchen, ob Gesichtserkennungssysteme etwa 600 als ähnlich gefährlich eingeschätzte Personen finden könnten.

«Im Oktober 2018 meldete das Bundesministerium des Innern, für Bau und Heimat stolz in einer Pressemitteilung: ‹Projekt zur Gesichtserkennung erfolgreich›. Der Präsident des Bundespolizeipräsidiums sagte: ‹Die Technik erlaubt es, Straftäter ohne zusätzliche Polizeikontrollen zu erkennen und festzunehmen. Dies bedeutet einen erheblichen Sicherheitsgewinn.› Der Bundesinnenminister war begeistert und äusserte sich zuversichtlich, dass landesweite Überwachung nun machbar und wünschenswert sei: ‹Die Systeme haben sich in beeindruckender Weise bewährt, sodass eine breite Einführung möglich ist.› In Wahrheit handelt es sich um eine Fehleinschätzung der Möglichkeiten und Grenzen der künstlichen Intelligenz. Um das zu verstehen, benötigt man ein hier leider fehlendes statistisches Denken. Es schützt sowohl gegen Marketing-Hype und ‹religiösen› Techno-Glauben als auch gegen Technik-Skepsis und Weltuntergangsszenarien», schreibt das vierköpfige Buchautorenteam.

Eine einfache Rechnung – aber niemand machte sie

Und dann legt es dar, wie es zu dieser Fehleinschätzung kam: Das beste der getesteten Gesichtserkennungssystem erkannte in den Tests laut Pressemitteilung 80 Prozent der Gefährder. Nur in 0,1 Prozent der Fälle stufte es harmlose Bürger fälschlicherweise als verdächtig ein. Damit war für Politiker und Medien – darunter auch «tagesschau.de» – klar, dass dieses System für mehr Sicherheit sorgen wird.

Doch das tut es nicht. Denn «zunächst einmal hat keines der drei getesteten Systeme eine Trefferquote von 80 Prozent über beide Testphasen (zweimal ein halbes Jahr) hinweg erreicht; die 80 Prozent […] bekam man nur nachträglich, indem man die Treffer aller drei Systeme addierte (das heisst, wenn mindestens eines der Systeme einen Treffer hatte, galt das als Treffer)», klären die vier Buchautoren auf.

Eine einfache Rechnung hätte Politiker und Medien vor ihrem Fehler bewahren können. «Solange jedoch für viele statistisches Denken eine Fremdsprache ist – Politiker und Führungskräfte eingeschlossen –, kann man nicht erwarten, dass die Möglichkeiten und Risiken von digitalen Techniken verstanden werden», urteilt das Quartett.

Über 99 Prozent der Verdachtsfälle wären Fehlalarme

Die Rechnung geht so: Täglich nutzen etwa zwölf Millionen Menschen in Deutschland die Bahn. Angenommen, 100 der 600 mutmasslichen Gefährder würden sich an einem beliebigen Tag auf Bahnhöfen aufhalten und das System würde 80 Prozent erkennen, dann würden so 80 Gefährder gesichtet.

Zugleich würde das Gesichtserkennungssystem aber 0,1 Prozent der zwölf Millionen Reisenden auf den Bahnhöfen als verdächtig einstufen. Das macht 12’000 Personen, die von der Polizei an diesem Tag überprüft werden müssten.

Nur bei 80 von total 12’080 als verdächtig eingestuften Personen hätte das Gesichtserkennungssystem also Recht, das entspricht rund 0,7 Prozent der Alarme. In 99,3 Prozent der Fälle dagegen: Fehlalarm!

«Das Problem liegt nicht bei der Technik […], sondern bei Politikern und einigen Medien, die nicht verstehen, was das Massenscreening durch Gesichtserkennungssysteme kann und was es nicht kann, und an fehlender statistischer Bildung. […] Vielen Politikern, Polizeipräsidenten, Journalisten, aber auch uns Bürgern würde statistisches Denken helfen, die Genauigkeit digitaler Techniken zu verstehen und zu hinterfragen.»

Big Data bedeutet «in erster Linie Big Business»

Weitere Schlappen der «künstlichen Intelligenz» gefällig? Da wäre etwa Amazons Gesichtserkennungssystem: «Es verglich die Fotos von 535 US-Kongressabgeordneten mit einer Datenbank von Straftätern und fand bei 28 Abgeordneten eine Übereinstimmung, alle waren falsch», berichten die Buchautoren. Oder die Grippewellenvorhersage durch «Google Flu Trends», «von den Medien […] als der grosse Erfolg von Big Data gefeiert. Doch stellte sich bald heraus, dass die Vorhersagen systematisch danebenlagen, und auch mehrere Versuche der Google-Ingenieure, [den Algorithmus – Anm. d. Red.] komplexer und damit vermeintlich besser zu machen, scheiterten.»

Ein anderes Beispiel ist das Detektieren von Bauchspeicheldrüsenkrebs mit Hilfe von «Bing», der Microsoft-Suchmaschine. Anhand der Suchbegriffe, die Nutzerinnen und Nutzer dort eingaben, wollte Bing erkennen, wer Symptome dieser gefährlichen Krankheit hatte und schleunigst zum Arzt sollte. «In 5 bis 15 Prozent der Fälle gelang ihnen die Früherkennung. Beeindruckender ist die sehr niedrige Zahl von Fehlalarmen. Von 10’000 Nutzern wurde weniger als einer fälschlicherweise als krebskrank eingestuft», lobte die «Süddeutsche Zeitung».

Doch wieder rechnen die Buchautoren vor: Wenn von 100’000 Nutzern zehn Bauchspeicheldrüsenkrebs hätten, würde einer dieser Kranken richtig erkannt, neun Erkrankte würden von «Bing» verpasst – und zehn der 99’990 Menschen ohne Bauchspeicheldrüsenkrebs würde die Meldung, dass sie wohl einen Tumor im Bauch haben, in Angst und Schrecken versetzen, völlig unnötig.

«Damit ist die Wahrscheinlichkeit, dass ein Krebsalarm richtig ist, 1/11, also etwa 9 Prozent.» Das Fazit der Buchautoren: «Ob Dr. Google oder Dr. Bing: Für kommerzielle Unternehmen bedeutet Big Data in erster Linie Big Business und nicht notwendigerweise eine bessere Medizin.»

Skeptisch bleiben bei Umfrageergebnissen

Ein anderes, beliebtes Thema in den Medien: «Eine Umfrage hat ergeben, dass …». Wie diese Umfrageresultate zustande kamen, erfahren die Zuhörerinnen, Zuschauer und Lesenden kaum je.

Dabei wäre genau das oft entscheidend. Im Jahr 2016 ergab zum Beispiel eine Umfrage, dass 53 Prozent der Deutschen fanden, Deutschland sollte mehr für den Klimaschutz tun. 67 Prozent waren dafür, die Kohlekraftwerke so schnell wie möglich abzuschalten. Die Umfrage war repräsentativ – also auch aussagekräftig? Von wegen.

Denn die Art, wie gefragt wurde, legte die erwünschte Antwort bereits sehr nahe. So lautete die Frage zum Klimaschutz:

«Beim Klimagipfel in Paris wurde 2015 ein internationales Abkommen für den Klimaschutz beschlossen. Anfang des Monats September haben die USA und China dieses Abkommen ratifiziert. Deutschland hat den Prozess noch nicht abgeschlossen und einen schwachen Klimaschutzplan für 2050 vorgelegt. Sollte Deutschland Ihrer Meinung nach mehr tun, um Vorreiter im Klimaschutz zu bleiben?»

Zu den Kohlekraftwerken wurde so gefragt:

«Die Stromproduktion aus Kohle allein ist die grösste Einzelquelle für die deutschen Treibhausgasemissionen. Was sollte Ihrer Meinung nach mit den Kohlekraftwerken passieren?»

Auch dieses Beispiel stammt aus dem aktuellen Buch der vier Autoren – Thomas K. Bauer, Gerd Gigerenzer, Walter Krämer und Katharina Schüller –, die sich bereits mit früheren Büchern oder mit der «Unstatistik des Monats» einen Namen gemacht haben. Sie erklären, wie durch Hoch- oder Herunterrechnen oder Herauspicken von bestimmten Zeitabschnitten Medienmeldungen werden, die es nie und nimmer in die Zeitung, ins Fernsehen oder ins Radio hätten schaffen dürfen –und trotzdem dort verkündet wurden.

Grüne fahren SUV und Joggen macht unsterblich. Über Risiken und Nebenwirkungen der Unstatistik

Buchcover Gigerenzer Krämer Bauer Schüller — Buchcover

Von Thomas K. Bauer, Gerd Gigerenzer, Walter Krämer und Katharina Schüller. Campus Verlag 2022, ca. 27 Franken.

In 13 flott zu lesenden Kapiteln nehmen die Autoren dieses Taschenbuchs immer wieder Medienberichte unter die Lupe, die zu Unrecht Angst schürten oder ein falsches Bild vermittelten. Giftalarme, Ernährungsmythen, Fitnesstrends, Grafiken, die heute dies und morgen das «bestätigen» – immer geht es darum, «statistisches Denken und Risikokompetenz» zu fördern.

Aus dem Vorwort: «Schlagzeilen wie »Grünen-Wähler fahren gern SUV« oder »Jede Stunde Joggen schenkt dir 7 Stunden Lebenszeit!« lassen sich konsumieren wie Kartoffelchips. Sie enthalten kaum Substanz, sind angereichert mit Geschmacksverstärkern – und sie machen uns auf Dauer krank. Zahlenblindheit ist so etwas wie eine geistige Pandemie. Übertragen wird sie durch die Medien und das Aufrechterhalten von Bildungssystemen, die Lesen und Schreiben lehren, aber kaum statistisches Denken.»

Der Buchtitel spielt auf eine Falschmeldung der «Frankfurter Allgemeine Sonntagszeitung» an: «Die Liebe der Grünen zum SUV. Eine Umfrage zeigt: Niemand fährt so gerne Geländewagen wie die Öko-Klientel», hiess es dort. Bei dieser Umfrage waren ausschliesslich Personen befragt worden, die im vorangegangenen Jahr ein Auto gekauft hatten oder dies in den nächsten sechs Monaten planten – die übrigen, die ihr Auto schon länger besassen (oder gar keines hatten), wurden nicht berücksichtigt. Von den Wählern der Grünen planten demnach 16,3 Prozent die Anschaffung eines SUV oder hatten in den zwölf Monaten vorher ein solches Modell gekauft, bei den SPD-Wählern waren es 16 Prozent, bei AfD-Wählern 15,9 Prozent und bei den Anhängern der CDU 15,6 Prozent. Daraus machte die «Frankfurter Allgemeine Sonntagszeitung» dann: «Jeder sechste Grünen-Sympathisant hat […] einen Geländewagen vor der Tür stehen.»

Themenbezogene Interessenbindung der Autorin/des Autors

Keine
_____________________
Meinungen in Beiträgen auf Infosperber entsprechen jeweils den persönlichen Einschätzungen der Autorin oder des Autors.

4 Meinungen

Felix Mattenberger, Meisterschwanden
am 13.09.2022 um 13:23 Uhr

Hier werden zwei Problemfelder aufgezeigt: KI und Interpretation von Statistiken. Zu Wahrscheinlichkeiten und Interpretation von Statistiken ist man bei der erwähnten Seite ‘Unstatistik des Monats’ und bei Büchern von Gerd Gigerenzer gut bedient.
Um im Gymnasium erfolgreich die Matura zu erreichen, braucht es Intelligenz oder man kompensiert mangelnde Intelligenz mit viel Fleiss. So ist das auch bei der sogenannten KI. Diese Systeme sind schnell, fleissig und brauchen keine Pause. Es kommt darauf an, wie man die KI mit Trainingsmaterial füttert. (GIGA-Prinzip: Garbage in, Garbage out) Ich kenne keine intelligente KI. Ich würde sie eher als Künstliche Dummheit bezeichnen. Es gibt KI für den Haushalt. Man sagt: «Mach bitte die Storen runter, das Licht an und stell den Fernseher ein.» Ein System, das das umsetzt, ist nicht intelligent. Die Antwort: «Heb deinen fetten Arsch und mach es selbst, anstatt über die teuren Fitness-Center Abos zu lästern!» Das würde ich als intelligent bezeichnen
- Ursula Lerch, Rüti
  am 14.09.2022 um 16:22 Uhr
  
  @mattenberger Selten so gelacht ;-). Als fleissig würde ich KI nicht bezeichnen. Unter «Fleiss» verstehe
  ich, mehr als Dienst nach Vorschrift zu tun. Wenn KI fleissig wird oder, Gott bewahre, selbständig kreativ, müssten wir wohl alle die Köpfe einziehen.
  So, und jetzt hebe ich meinen fetten Arsch und gehe mit meinem Hund Gassi, KI nimmt mir das leider noch nicht ab.
Theo Schmidt, Steffisburg
am 14.09.2022 um 08:49 Uhr

Oft wird von «künstlicher Intelligenz» geprochen auch wenn es sich nur um normale Computer-Programme handelt.
Jürgen Löscher, Mönchengladbach
am 15.09.2022 um 08:37 Uhr

Viele Menschen (jedenfalls nicht wenige) haben so ihr Problem mit dem intelligenten Denken. Darunter auch auffällig viele Entscheidungsträger in Politik und Wirtschaft. Da sind sie natürlich froh, die «Intelligenz» an eine Software delegieren zu können. Das wirkt dann «objektiv» und nimmt Verantwortung ab. Wenn «KI» sagt, das ist so und so, dann muss das stimmen.
Fatal!
Wobei ich auch der hier schon geäußerten Ansicht bin, dass die KI von vielen dieser Personen dankbar angenommen und eingesetzt wird, nur um den eigenen Reichtum zu mehren. Das ist dann immer noch nicht intelligent, aber ob der egoistischen Gerissenheit – und des Einsatzes nur zum eigenen Vorteil – einfach nur zynisch, wenn nicht sogar bösartig. Weil KI prinzipbedingt ja nicht widersprochen werden kann in der Selbstdefinition von KI.

Insofern betrachte ich KI mit der allergrößten Skepsis!