Digital Health: Med PaLM im Medizinertest auf Augenhöhe

Beim Abruf medizinischen Wissens ist das Sprachmodell Med PaLM so gut wie Menschen, zeigt eine Nature-Studie. In der Praxis reicht das laut Experten noch nicht.

In Pocket speichern vorlesen Druckansicht 2 Kommentare lesen
Smart,Medical,Technology,Concept,advanced,Robotic,Surgery,Machine,At,Hospital,,Robotic

(Bild: Monopoly919/Shutterstock.com)

Lesezeit: 5 Min.
Von
  • Christiane Schulzki-Haddouti
Inhaltsverzeichnis

Das medizinische Sprachmodell Med PaLM ist in der Lage, ähnlich gute Antworten zu geben wie Mediziner. Das zeigt eine Evaluation, die von Googles KI-Schmiede DeepMind im Fachjournal "Nature" veröffentlicht wurde. Med PaLM basiert auf Googles Sprachmodell PaLM. Dessen medizinische Variante schnitt kürzlich bei der Beantwortung des Fragesatzes MultiMedQA mindestens so gut ab wie ähnliche Sprachmodelle. Wurden die Fragen im Stil medizinischer Zulassungsexamen in den USA gestellt, konnte das Modell diese um 17 Prozent genauer als andere Sprachmodelle beantworten. Inzwischen gibt es bereits die Nachfolgeversion Med PaLM 2, die Google laut Wall Street Journal schon im klinischen Alltag testet.

Dessen Antworten schnitten ähnlich gut ab wie die Antworten medizinischer Fachleute: So entsprachen 92,6 Prozent der Antworten von Med PaLM dem wissenschaftlichen Konsens – Mediziner erreichten 92,9 Prozent. 5,8 Prozent der Antworten des Sprachmodells wurden als potenziell schädlich eingestuft, bei den Fachleuten waren es 6,5 Prozent. Allerdings waren in 18.7 Prozent der KI-generierten Antworten unpassende oder falsche Antworten, bei den menschlichen Antworten war dies nur in 1,4 Prozent der Fall. Überprüft wurden die Antworten mithilfe eines neu entwickelten, aus sieben Datensätzen bestehenden Benchmarks: Sechs Datensätze enthalten Fragen aus der medizinischen Forschung sowie Patientinnen und Patienten. MultiMedQA enthält rund 3.200 medizinischen Fragen, die häufig in Online-Suchen auftauchen.

Carsten Eickhoff, Leiter des Health NLP Lab an der Eberhard Karls Universität in Tübingen, hält die Nature-Veröffentlichung für sehr interessant, da sie die Wahrscheinlichkeit adressiert, mit der einem Patienten Schaden zugefügt werden kann. "In dieser Hinsicht hätte ich mir sogar noch etwas mehr gewünscht, als hier geliefert wird", sagt der KI-Experte. Die Überprüfung der KI-generierten und der menschlichen Antworten wurden in der Nature-Studie nur durch jeweils eine Person vorgenommen, was das Ergebnis möglicherweise verfälscht.

Eickhoff sieht hier methodischen Nachbesserungsbedarf: "Speziell bei schwierigen klinischen Fragen hat die Vergangenheit gezeigt, dass unabhängige Zweit- und sogar Drittmeinungen signifikante Verbesserungen in der Entscheidungsqualität erwirken." Dies hätte man auf Kosten eines höheren Zeitaufwandes in der Studie auch simulieren können. Zwar schneide das Modell bei medizinischen Standardfragen gut ab, bei kniffligeren Aufgaben wie dem DC3-Datensatz, bei denen sich auch Kliniker vehement widersprechen, würde es dann "spannend".

Andreas Holzinger, Leiter des Human-Centered AI Lab an der Medizinischen Universität Graz, weist auf grundsätzlichere Probleme hin: Ein Modell könne "die medizinischen Daten, die es analysiert, falsch interpretieren oder es kann auf fehlerhaften Daten trainiert worden sein". Das könne dazu führen, dass irreführende oder falsche medizinische Ratschläge gegeben werden. Eine Abhilfe könne darin bestehen, nicht nur ein Modell heranzuziehen, sondern verschiedene.

Das größte Problem besteht aus Sicht von Holzinger jedoch in einem Mangel an kontextbasiertem und personalisiertem Urteilsvermögen: "Solche Modelle können zwar Daten erstaunlich analysieren, aber sie können den individuellen Kontext und die Einzigartigkeit eines Patienten und einer Situation nicht verstehen." Der Landarzt, der einen Patienten möglicherweise seit seiner Geburt kenne, verfüge über ein "enormes Hintergrundwissen, über Gespür und Intuition". Eine technische Abhilfe sieht Holzinger darin, einen Human-in-the-Loop einzubinden. Allerdings könnten Experten und Patienten einem medizinischen Sprachmodell "übermäßig vertrauen und dabei wichtige menschliche Beurteilungen und Erfahrungen vernachlässigen".

Roland Eils vom Berlin Institute of Health in der Charité hält zwar die Verbesserung der Benchmarks für sinnvoll. Jedoch seien diese Benchmarks "zum Teil auf dem Level von typischen Prüfungsfragen in der Medizin zu sehen." Sie verfügten über eine klare Fragestruktur und eine klar erwartete Antwort in Multiple-Choice-Art. Für Roland Eils ist es daher fragwürdig, "wie gut das Modell mit einer realistischen Situation umgehen würde, in der ein Patient unklare, unvollständige und zum Teil falsche Aussagen trifft, und Entscheidung im Kontext von praktischen klinischen Einschränkungen getroffen werden müssen."

Andreas Holzinger weist darauf hin, dass Sprachmodelle kein Verständnis für Emotionen hätten und keine Empathie "fühlen" könnten. Ein großer Vorteil bestünde jedoch in der Replizierbarkeit, Skalierbarkeit und Kommunikation. Damit verbunden sei allerdings auch das generelle Problem der Vertraulichkeit der Patientendaten, "insbesondere, wenn das Modell online ist und Daten beliebig und global austauschen kann".

Eils weist auch auf das grundsätzliche methodische Problem hin, dass bei KI-Sprachmodellen die Korrektheit der Antworten schwer zu bewerten ist. Das könne im medizinischen Alltag problematisch sein, weshalb eine "strikte Qualitätskontrolle" durch eine medizinische Fachkraft angesagt sei. Carsten Marr, Direktor des Instituts AI for Health am Helmholtz-Zentrum München, verweist dazu auf den sogenannten "Automation Bias". Demnach werde der Wahrheitsgehalt von computergenerierten Aussagen durch den Menschen überschätzt. Entsprechend müsse das medizinische Personal für den Umgang mit Sprachmodellen geschult werden.

(mack)