Sind KI-Chatbots für den Einsatz im Klinikalltag geeignet? Um diese Frage zu beantworten, haben Forscher der Technischen Universität München (TUM) die Diagnosefähigkeiten von Large Language Models getestet. Die Ergebnisse sind alarmierend und werfen wichtige Fragen zur Sicherheit und Zuverlässigkeit dieser Technologien auf.
Können KI-Modelle Ärzte in der Notaufnahme ersetzen?
Large Language Models, die auch hinter ChatGPT stehen, könnten theoretisch Aufgaben von Ärzten in einer Notaufnahme übernehmen. Sie könnten anhand geschilderter Beschwerden die passenden Tests anordnen, die richtige Diagnose stellen und einen Behandlungsplan entwerfen. Ein Team der TUM hat sich intensiv mit diesen Fragen beschäftigt.
Das Ergebnis der Untersuchung: Derzeit sind diese KI-Modelle nicht für den Klinikalltag geeignet. Laut einer Mitteilung der TUM treffen die Medizin-Chatbots vorschnelle Diagnosen, halten sich nicht an medizinische Richtlinien und könnten die Gesundheit der Patienten gefährden. Daniel Rückert, Professor für Artificial Intelligence in Healthcare and Medicine an der TUM, erklärt jedoch, dass es gut möglich sei, dass in absehbarer Zeit ein Large Language Model besser dafür geeignet ist, aus Krankengeschichten und Testergebnissen eine Diagnose abzuleiten.
Freigabe der Testumgebung für weitere Forschung
Die TUM hat eine Testumgebung für alle Forschungsgruppen freigegeben, die Large Language Models im klinischen Kontext testen wollen. Diese Computerprogramme könnten in Zukunft wichtige Werkzeuge für Ärzte werden, beispielsweise um medizinische Fälle zu diskutieren. Rückert betont jedoch die Notwendigkeit, sich der Grenzen und Eigenheiten dieser Technologie bewusst zu sein und diese bei der Entwicklung von Anwendungen zu berücksichtigen.
Für ihren Test nutzten die TUM-Forscher anonymisierte Daten von Patienten einer Klinik in den USA. Aus einem größeren Datensatz wählten sie 2400 Fälle aus, bei denen die Patienten mit Bauchschmerzen in die Notaufnahme gekommen waren. Die Fallbeschreibung endete jeweils mit einer von vier Diagnosen und einem Behandlungsplan.
Nachahmung der realen Krankenhausabläufe
„Wir haben die Daten so aufbereitet, dass die Algorithmen die realen Abläufe und Entscheidungsprozesse im Krankenhaus nachspielen konnten“, erklärt Friederike Jungmann, Assistenzärztin in der Radiologie des Klinikums rechts der Isar der TUM. Das Programm hatte immer nur die Informationen, die auch die realen Ärzte hatten. Ob es beispielsweise ein Blutbild in Auftrag gibt, musste es selbst entscheiden und dann auf dieser Basis die nächste Entscheidung treffen, bis es schließlich eine Diagnose und einen Behandlungsplan erstellt hatte.
Das Team stellte fest, dass keiner der getesteten KI-Algorithmen durchgängig alle notwendigen Untersuchungen einforderte. Tatsächlich wurden die Diagnosen der Programme weniger zutreffend, je mehr Informationen sie zu dem Fall hatten. Behandlungsrichtlinien wurden oft nicht befolgt, was zu Untersuchungen führte, die für echte Patienten schwerwiegende gesundheitliche Folgen gehabt hätten.
Vergleich der KI-Diagnosen mit denen von Ärzten
In einem zweiten Teil der Studie wurden die Diagnosen der KI mit denen von vier Ärzten verglichen. Während die Ärzte bei 89 Prozent der Diagnosen richtig lagen, erreichte das beste Large Language Model lediglich eine Trefferquote von 73 Prozent. Jedes Modell hatte Stärken und Schwächen in der Erkennung verschiedener Erkrankungen. Ein Modell erkannte Gallenblasenentzündungen nur in 13 Prozent der Fälle korrekt. Ein weiteres Problem war die mangelnde Robustheit der KI-Modelle: Die gestellte Diagnose hing davon ab, in welcher Reihenfolge die Informationen verarbeitet wurden.
Die TUM betont, dass kommerzielle Large Language Models wie ChatGPT von OpenAI und Modelle von Google explizit nicht getestet wurden. Datenschutzgründe des Anbieters der Krankenhausdaten verbieten die Verarbeitung dieser Daten mit kommerziellen Modellen. Experten raten zudem, im Gesundheitssektor ausschließlich Open-Source-Software zu verwenden, um die Sicherheit der Patienten zu gewährleisten.
Notwendigkeit von Transparenz und Kontrolle
Paul Hager, Informatiker und Mitautor der Studie, erklärt: „Nur mit Open-Source-Software haben Krankenhäuser die nötigen Informationen und die Kontrolle, um die Sicherheit der Patienten zu gewährleisten.“ Um Large Language Models korrekt zu bewerten, müsse bekannt sein, mit welchen Daten sie trainiert wurden. Es sei gefährlich, sich auf externe Dienstleister für wichtige medizinische Infrastrukturen zu verlassen, da diese im Extremfall ihre Dienste einstellen könnten, wenn sie nicht mehr rentabel sind.