ChatGPT

Allmennlegene var flinkere enn roboten

Svenske forskere har sjekket om roboten ChatGPT (versjon 4) er flinkere enn leger som var i ferd med å bli spesialist i allmennmedisin, til å diagnostisere komplekse pasienttilfeller fra allmennpraksis. Observasjonsstudien var blindet ved at de som vurderte svarene ikke visste om svarene kom fra roboten eller fra legene. De anonymiserte legebesvarelsene ble hentet fra oppgaver som ble gitt til leger under spesialistutdanning i allmennmedisin i perioden 2017–2022. De samme tekstene ble også lagt inn i ChatGPT. Da svarene ble sammenlignet, viste det seg at legene i signifikant større grad enn roboten hadde gitt riktige svar. Gjennomsnittlig skår på en 10-punkt-skala var 6 for tilfeldig utvalgte legesvar, mens GPT-4-skåren var 4,5. Blant de aller beste legene var gjennomsnittlig skår 7,2. Legene generelt skåret i snitt 1,6 poeng høyere enn roboten, og legene på toppnivå hadde 2,7 poeng mer enn ChatGPT.