Skip to main content

Sundhedspolitisk Tidsskrift

Test: Den nye ChatGPT performer på linje med danske hudlæger

Hvor god er ChatGPT blevet til at diagnosticere hudsygdomme ud fra fotos? Det besluttede vores journalist at undersøge i en lille test i et samarbejde med hudlæger fra Københavns Universitet. Og det viser sig, at den nye ChatGPT-model (GPT4o) kommer med samme diagnoser som specialisterne. Men det er risikabelt at lade sig forblænde af de imponerende resultater, advarer en forsker.

OpenAI’s nyeste chatbot-model, ChatGPT4o, diagnosticerer korrekt i syv ud af ti tilfælde i en test lavet på ti billeder af hudsygdomme. I de resterende tre tilfælde er chatbotten i tvivl. Dermed matcher dens resultater præcist resultaterne fra tre hudlæger (dermatologer), som har diagnosticeret ud fra samme billedmateriale.

Testen er udført af Medicinske Tidsskrifter (hvor Sundhedspolitisk Tidsskrift hører til) i samarbejde med dermatologer fra Københavns Universitet, og resultatet fra den nye AI-model er imponerende, mener læge og ph.d. Kenneth Thomsen. Han er i øjeblikket i gang med sin specialeuddannelse som dermatolog på Aarhus Universitetshospital og har tidligere forsket i blandt andet AI inden for dermatologi i samarbejde med forskere på Stanford University, USA.

”Syv ud af ti korrekte diagnoser er bestemt brugbart, og der er mange perspektiver i de store sprogmodeller. Sådan, som I har gjort her, kan man godt tilgå og bruge teknologien i dag både som fagperson og lægmand,” siger Kenneth Thomsen. Der er detaljer om testens metode og resultater i bunden af artiklen her.

Kenneth Thomsen benytter selv softwaren i sit daglige arbejde både som forsker og kliniker, men trods begejstringen maner han også til besindighed. Den enorme og til dels berettigede hype, der er omkring AI lige nu, kommer nemlig med en række alvorlige risici, hvis lægerne ikke er vågne og bevarer deres sædvanlige skepsis og kritiske tilgang til nye behandlinger.

”Der er allerførst nogle vigtige problematikker omkring prompten. Man skal kende noget til AI for at få et brugbart output,” siger Kenneth Thomsen.

Prompten er den ordre, man giver til sprogmodellen, og formuleringen af den har enorm betydning for outputtet. Det kan desuden kræve indgåede viden at kunne fejlsøge i outputtet, da softwaren er yderst overbevisende, også når den tager fejl. Her skal man ifølge Kenneth Thomsen kende sine begrænsninger både som lægmand og fagperson, da man ellers risikerer at få uhensigtsmæssige behandlingsforløb.

”ChatGPT er meget god til at komme med behandlingsplaner, men den kan også komme med forkertebehandlingsplaner, og dem er den i stand til at sælge os på en meget overbevisende måde. Derfor kan ikke-fagfolk nemt blive guidet i en forkert retning uden at opdage det,” siger Kenneth Thomsen. Det er med andre ord ikke nok at kende noget til AI for at kunne bruge ChatGPT på sikker og forsvarlig vis til at diagnosticere hudsygdomme. Man skal også være i stand til at evaluere resultatet, og det kan man praktisk taget kun, hvis man er hudspecialist.

Pas på med confirmation bias

Erfarne specialister skal dog også passe på ikke at lade sig forblænde af de ofte meget overbevisende resultater fra den nye teknologi. Selvom ChatGPT4o som i Medicinske Tidsskrifters test rammer rigtigt i 7 ud af 10 tilfælde og i øvrigt angiver, at den er i tvivl i de resterende, kan den også lave alvorlige fejl. Det skal man være sig pinligt bevidst, hvis ikke fejlene skal nedarves til de menneskelige eksperter.

”Når vi læner os op ad gode AI-modeller, kan der opstå såkaldt confirmation bias, hvor vi søger et bestemt svar i forvejen og derfor skræller alt det mindre sandsynlige fra. Men måske er det netop ikke bledermatit (som var ét af svarene på et billede i testen, red.), men en sjælden og potentiel farlig tilstand som langerhans celle histiocytose, der ligner til forveksling. I sådan et tilfælde ville ChatGPT næppe sige langerhans celle histiocytose, så hvis vi vænner os til at stole for meget på dens vurdering, kan det skabe en reel diagnostisk forsinkelse, som kan være farlig,” siger Kenneth Thomsen.

Da vi tester hans hypotese om den sjældne sygdom på ChatGPT, viser det sig, at han har ret. Adspurgt, hvad bledermatit kan forveksles med, peger den på impetigo, candida-infektion og flere andre muligheder, men ikke langerhans celle histiocytose. Chatbotten forklarer selv fravalget således:

”Når jeg først nævnte mulige tilstande, der kan forveksles med bledermatit, fokuserede jeg på de mest almindelige og direkte sammenlignelige hudlidelser, som ofte opstår i bleområdet hos spædbørn og småbørn. Langerhans celle histiocytose (LCH) er en meget sjælden sygdom, som ikke umiddelbart er den første diagnose, man tænker på ved hududslæt i bleområdet.”

Menneskelig inkompetence vs systemfejl

På den måde synes dens ræsonnement i god samklang med en specialistvurdering, men problemet opstår særligt, hvis man vænner sig til ikke at tænke selv. Hvis det sker, kan alvorlige systemiske fejl bide sig fast og stå og lave ravage, uden at nogen opdager det.

”Der er stor forskel på kompetence og inkompetence hos mennesker og systematiske fejl i software. Softwaren kan ind i mellem være bedre end selv de mest kompetente, men hvis vi stopper med at være kritiske, risikerer vi, at sjældne og systemisk indbyggede fejl får lov at køre videre. Det er nemmere at lave fejlfinding på mennesker, som leverer behandlingskvalitet under standarden, og det er også derfor, at vi for eksempel laver akkrediteringsrunder blandt forskellige afdelinger,” siger Kenneth Thomsen.

Han mener, at det i bund og grund handler om, hvilke krav, vi stiller til medicinske redskaber; der er masser af gode grunde til at være begejstret for AI, som allerede nu er en stor hjælp i mange dermatologiske sammenhænge, men vi må ikke lade det gå ud over sund fornuft og de almindelige kvalitetskrav, vi har til medicinsk udstyr og behandling.

Brug for brede studier

En yderligere problematik, særligt ved mindre test som den, Medicinske Tidsskrifter har lavet, men til dels også for en videnskabelig test, et dansk forskerhold lavede tidligere på året på forrige version af ChatGPT, er manglen på demografisk diversitet.

”Test som disse er gode til at vise, hvad man kan forestille sig at anvende teknologien til, og hvad potentialet er. Men hvis ChatGPT skal bruges som medicinsk udstyr, er man nødt til at lave store randomiserede studier, så vi afdækker ukendte biases for at vide, om den helt generelt laver fejl hver gang den møder en specifik klinisk situation,” siger Kenneth Thomsen og nævner som eksempel forskellige hudfarver eller rødhåredes modermærkekræft, som kan være anderledes end flertallets.

”Der kan være risikofaktorer, som er anderledes, så selv hvis en AI-model har en præcision på 99 procent for modermærkekræft, kan der være bestemte hudfarvetyper, hvor den laver fejl i 100 procent af tilfældene, men disse fejl bliver skjult, da den kliniske situation optræder sjældent,” siger Kenneth Thomsen og fortsætter:

”Vi skal, med andre ord, have forsøg, som er stratificeret på subgrupper, hvis vi skal undgå, at konsekvente systemfejl skjuler sig, og vi implementerer et redskab, som udgør en kæmpe risiko for en subgruppe af mennesker,” siger Kenneth Thomsen. Og skynder sig i øvrigt igen at fastslå, at han er sikker på, at vi kommer til at bruge AI ekstremt meget, men at vi altså ikke slipper uden om store, prospektive randomiserede interventionsstudier studier.

Automation bias

En sidste velkendt problematik ved brugen af AI, som nok er imponerende i sine resultater, men ikke desto mindre stadig er uperfekt, er risikoen for automation bias.

”Automation bias opstår, når vi stopper med at tænke selv, men lader apparatet tænke for os. Vi kan måske have en tvivl, men lader så dette her kloge apparat, vi har i lommen – som jo rammer plet på så mange diagnoser – bestemme. Men glemmer man så at tænke i de sjældne kasser?” spørger han retorisk og vender tilbage til sin indledende pointe.

”Den test, I har lavet, er med til at vise, at, AI i dag kan være en initial hjælp for både patienter og medicinere, måske særligt i almen praksis. Det er supergodt til at hjælpe én i en retning, og måske også til at finde den rigtige diagnose. Det er bare vigtigt at eftertjekke, hvis man ikke har ekspertise,” siger Kenneth Thomsen.

”Så vi skal passe på, at vi ikke lader os rive med, når vi ser disse resultater. Vi skal for patienternes skyld være sikre, og det sker stadig ved at teste under de korrekte forhold, så vi ikke lader en hype skabe blindhed overfor sund skepsis.”

 

Relateret artikel

 

FAKTA OM TESTEN

Sådan gjorde vi

Trin 1:

Indsamling af 10 billeder fra private kilder. Billederne har ikke været offentliggjort på nettet. De gemmes under anonyme og ikke personhenførbare navne.

Trin 2:

Vi beder ChatGPT4o om hjælp til at lave en prompt til vurdering af billederne.

Trin 3

Vi bruger prompten foreslået af ChatGPT til hvert enkelt billede, som uploades til chatbotten, som derpå giver sit svar. For hver ny diagnose begyndes en ny chat.

Første input til ChatGPT

Via en prompt beder vi ChatGPT lave en prompt, der er velegnet til vores forehavende:

”Jeg skal lave et eksperiment, hvor jeg får ChatGPT 4o til at diagnosticere hudsygdomme ud fra billeder. Efterfølgende skal dine diagnoser sammenlignes med diagnoserne fra en gruppe dermatologer. Jeg vil gerne bruge samme prompt til alle de 10 billeder, jeg har. Lav en prompt, der vil fungere godt til dette formål og få ChatGPT til at performe så godt som muligt i forhold til at lave billeddiagnostik.”

Prompt fra ChatGPT

Nedenfor vises dem prompt, vi har brugt til alle billederne. Det er ChatGPT’s eget 'valg' at slå over i engelsk, hvilket vi ikke beder den korrigere for.

"Diagnose the skin condition depicted in the following image. Provide a detailed diagnosis, including the name of the condition, potential causes, common symptoms, and possible treatments. If there are any uncertainties or differential diagnoses that should be considered, please mention them. Use clinical terminology and consider the image in the context of a dermatological assessment. Here is the image for reference: [Insert Image Here]"

(Følgende tekst er udeladt fra den endelige prompt, der indgår i testen: ”Here is the image for reference: [Insert Image Here]").        

RESULTATER

Du kan se resultaterne fra ChatGPT4o samt lægernes vurdering af hver enkelt diagnose i PDF-filen her.

 

Her er to af billederne:

ChatGPTs vurdering (omskrevet, forkortet og oversat til dansk): 

Hudlæsionen kunne være molluscum contagiosum, en almindelig virusinfektion, som viser sig som små, lyserøde knopper med en central fordybning. Det smitter ved direkte kontakt og ses ofte hos børn og immunkompromitterede. Læsionerne er smertefri og forsvinder normalt af sig selv, men hvis de ændrer sig, bør du konsultere en hudlæge.

Hudlægernes vurdering: Korrekt diagnose fra ChatGPT

ChatGPTs vurdering (omskrevet, forkortet og oversat til dansk): 

Hudtilstanden ser ud til at være follikulitis, som er en betændelse i hårsækkene, karakteriseret ved små, røde knopper eller pustler, der kan klø eller gøre ondt. Årsager inkluderer bakterielle, svampe- eller virusinfektioner, mekanisk irritation, eller brug af tunge lotioner. Behandling involverer antibiotika, svampe- eller virusmidler, antiseptiske vaske og god hygiejne. Hvis tilstanden forværres, bør du konsultere en hudlæge.

Hudlægernes vurdering: Korrekt diagnose fra ChatGPT

Del artikler