ChatGPT & Co. – Wie werden die Auswirkungen auf Kliniken sein?

Ärztebriefe, Bewerbungsschreiben, Beschwerdemanagement, Reden von Vorstandsmitgliedern, vollständige medizinische Staatsexamen oder Zulassungsprüfungen – ChatGPT wagt sich an jede Aufgabe heran. Im November 2022 stellte das US-Start-up OpenAI seinen Chatbot-Prototypen ChatGPT kostenlos für jedermann zugänglich zur Verfügung. Inzwischen nutzen über 100 Millionen Menschen das System, für das lediglich die Erstellung eines OpenAI-Accounts erforderlich ist.

ChatGPT, entwickelt von OpenAI, ist ein Non-Profit-Unternehmen mit Microsoft als größtem Investor. Es ist nur eines von vielen Large Language Models (LLMs), an denen derzeit weltweit geforscht wird. „Im Moment gibt es viel Aufregung um ChatGPT, aber in Kliniken gibt es noch keine konkrete Anwendung dafür“, sagt Prof. Dr. Jens Kleesiek von der Universitätsklinik Essen. Er ist Facharzt für Radiologie, Informatiker und Leiter der Forschungsgruppe Medizinisches Maschinelles Lernen am Institut für Künstliche Intelligenz in der Medizin (IKIM).

Bereits heute fließen viele Daten aus ChatGPT in Suchmaschinen ein und werden in Zukunft auch in Office-Paketen integriert sein. Kleesiek betont jedoch, dass es noch viele andere Anwendungsmöglichkeiten gibt, die sich für Kliniken ergeben könnten: „Was da auf uns zukommt, ist wirklich beeindruckend.“ Bereits jetzt können einige Fragmente beispielsweise für Forschungsanträge verwendet werden. Für Arztbriefe fehlen jedoch noch Bausteine und die Integration in das Krankenakten-System. Derzeit kann das System dem Arzt zwar eine Struktur vorgeben, die er dann mit Inhalt füllen kann, aber es erfindet noch zu viel bei fehlenden Informationen.

Jared Sebhatu, Vorstandsmitglied der digital health transformation eG, findet ChatGPT bereits beeindruckend. „Diese KI wird massive Veränderungen mit sich bringen – auch im Gesundheitssektor“, sagt er. Der Einsatz von ChatGPT könnte am schnellsten bei Arztbriefen erfolgen und auch in der allgemeinen Patientenkommunikation. Das System wird immer weiterlernen und schneller werden, je mehr Nutzer und Daten es hat.

Sprachgesteuerter Textmarker

Gemäß Kleesieks Einschätzung wird es in Kliniken nicht mehr lange dauern, bis die ersten Anwendungen von LLM (Large Language Models) Einzug halten. Am IKIM wird intensiv daran geforscht, unter anderem mit einer speziellen „Transformer-Architektur“ zur schnelleren Extrahierung von Patienteninformationen aus Befunden. Dies könnte man gewissermaßen als einen sprachgesteuerten Textmarker bezeichnen.

Darüber hinaus könnten sich künftig auch Patienten, die längere Zeit ans Bett gebunden sind, mit Chatbots zu verschiedenen Themen unterhalten. Eine Entlastung der Patientenklingel wäre ebenfalls denkbar. Der Patient könnte dem Chatbot beispielsweise den Wunsch nach frischem Wasser äußern, woraufhin der Bot dies sofort in ein Bestellsystem einspeist. Das Pflegepersonal könnte diese Information dann am digitalen Board lesen und das Wasser auf das Zimmer bringen. Am IKIM in Essen werden solche Modelle speziell für den deutschsprachigen Markt entwickelt und vor Ort trainiert. Um die Entwicklung zu beschleunigen, nutzen die Wissenschaftler auch öffentlich verfügbare Daten aus nicht-medizinischen Bereichen, um über mehr Daten zu verfügen. Das anschließende Feintuning auf den medizinischen Bereich führt zu besseren Ergebnissen.

Das Team ist interdisziplinär aufgestellt und umfasst Mathematiker, Physiker, Mediziner und Informatiker. Natürlich werden sprachliche Fragen zu Forschungszwecken von medizinischem Fachpersonal auf der Station getestet. Es gibt bereits Tests mit LLM bei MTRA-Schülern, Radiologen und Medizinstudenten. Zum Beispiel wurden auf radiologischer Basis Entscheidungen darüber getroffen, ob ein Tumor größer, kleiner oder unverändert geblieben ist. Die Ergebnisse der Modelle waren dabei nahezu so gut wie die der Experten. Eine Einschränkung besteht jedoch, wenn es Widersprüche im Text gab, beispielsweise wenn der Tumor kleiner war, aber die Metastasen in der Leber zugenommen hatten, kam es häufiger zu Fehlern seitens der Maschine.

Noch unzureichende Präzision in kritischen Bereichen

Die Genauigkeit der KI ist noch unzureichend für kritische Bereiche, äußert sich Prof. Dr. Kai Wehkamp, Facharzt für Innere Medizin und Projektleiter für KI-basierte klinische Entscheidungsunterstützung und Risikoerkennung am Universitätsklinikum Schleswig-Holstein, Campus Kiel. Es muss grundsätzlich eine Unterscheidung zwischen verschiedenen Anwendungsbereichen von KI getroffen werden. Solchen mit hohem medizinischem Risiko und solchen mit unkritischen Informationen. „Bei einer tatsächlichen medizinischen Beratung können wir ChatBot-Systeme wie ChatGPT noch nicht einsetzen, einfach weil es noch nicht sicher ist“, erklärt der Experte.

Bei der Übersetzung eines Arztbriefs in einfache Sprache kann es beispielsweise vorkommen, dass das KI-System nicht zwischen dem Vorliegen einer Krebserkrankung und dem Ausschluss dieser unterscheiden kann. Eine solche fehlerhafte Information hat jedoch weitreichende Konsequenzen für den Patienten. Solange es keine ausreichende Sicherheit in diesem Bereich gibt, sind solche Systeme für den unkontrollierten Einsatz in kritischen Bereichen zu risikoreich.

Diese Systeme können auch mit KI-Anwendungen in der Autoindustrie und der Luftfahrt verglichen werden. Obwohl große Verkehrsflugzeuge heutzutage vollständig autonom starten, fliegen und landen können, sitzen immer noch zwei Piloten im Cockpit. Bei Autos, die grundsätzlich selbst fahren können, werden immer wieder Unterbrechungen eingebaut. Denn der Fahrer muss aufgeweckt und daran erinnert werden, dass er das Lenkrad übernehmen muss. Solche Mechanismen sind auch in der Medizin erforderlich. Nur so kann sichergestellt werden, dass die Ergebnisse der KI regelmäßig kritisch überprüft werden und der Mensch „wachsam“ bleibt.

Verantwortung und Augenmaß bei der Anwendung von ChatGPT

Die Anwendung von ChatGPT erfordert also Verantwortung und Augenmaß, insbesondere im Hinblick auf die Gesundheit der Menschen. „Es wird eine Zeit kommen, in der KI mehr kann als der Mensch. Aber sie wird nicht alles können. Und dann wird es interessant. Was werden wir in solch einer Situation tun?“, fragt Wehkamp. Künstliche Intelligenz lernt hauptsächlich durch häufig auftretende Muster. Bei seltenen Ereignissen macht sie jedoch Fehler und erkennt diese nicht. Dies würde zu einer fesselnden gesellschaftlichen Diskussion führen – Gestehen wir Menschen uns selbst Fehler zu, während wir der Maschine dies nicht zugestehen?