Egy friss klinikai vizsgálat szerint a mesterséges intelligenciát (AI) alkalmazó nagyméretű nyelvi modellek (LLM) önállóan jobb diagnosztikai teljesítményt értek el, mint a humán orvosok, azonban az orvosok munkájának kiegészítéseként még nem bizonyultak hatékonyabbnak a hagyományos erőforrásoknál. A kutatást Ethan Goh vezetésével a Stanford Egyetem orvosi karának kutatói végezték, és eredményeiket a JAMA Network Open folyóiratban publikálták 2024 októberében.
A vizsgálatban 50 amerikai orvost vontak be, akik családorvosi, belgyógyászati vagy sürgősségi orvosi képzettséggel rendelkeztek. A résztvevőket két csoportra osztották: az egyik csoport az LLM (ChatGPT Plus, GPT-4) segítségével diagnosztizált, míg a másik kizárólag hagyományos forrásokra (például UpToDate vagy Google) támaszkodhatott. Az orvosok hat klinikai esetet kaptak, amelyek alapján 60 perc alatt kellett diagnózist állítaniuk és alátámasztaniuk a választásaikat.
Az AI chatbot önálló teljesítményét is tesztelték, összehasonlítva az orvosi csoportokkal. A chatbot önmagában a legmagasabb, 92%-os pontosságot érte el, míg az LLM-et használó orvosok 76%-os, a hagyományos forrásokat használók pedig 74%-os pontosságot értek el. Ez 16 százalékpontos különbséget jelentett az LLM önálló teljesítménye és az orvosok között (P = .03).
Fő eredmények
- Az LLM önálló teljesítménye felülmúlta az orvosokét: Az AI pontossága magasabb volt, mint az orvosoké, még akkor is, amikor a chatbotot az orvosok rendelkezésére bocsátották.
- Nincs jelentős javulás az orvosi teljesítményben: Az LLM-et használó orvosok diagnosztikai teljesítménye nem mutatott szignifikáns eltérést a hagyományos módszereket alkalmazó kollégáikhoz képest (P = .60).
- Időmegtakarítás nem volt szignifikáns: Az LLM csoport átlagosan 519 másodpercet töltött egy esettel, szemben a hagyományos forrást használó csoport 565 másodperces átlagával (P = .20).
- A felhasználói ismeretek hiánya: A vizsgálat rávilágított arra, hogy az orvosok nem használják ki teljes mértékben az AI nyújtotta lehetőségeket, például nem alkalmazzák a teljes esettörténet bemásolását a chatbotba.
Az LLM még nem önállósodhat
A kutatók szerint az LLM-ek bevezetéséhez az orvosi gyakorlatban jelentős fejlesztésekre van szükség. A megfelelő felhasználói képzés, például az ún. „prompt engineering” technikák oktatása kulcsfontosságú lehet. Az is kiderült, hogy az orvosok gyakran nem bíznak az AI által javasolt diagnózisokban, különösen, ha azok eltérnek a saját véleményüktől.
A kutatás rávilágított arra is, hogy az AI rendszerek alkalmazása jelenleg még nem helyettesítheti az orvosi szakértelmet, mivel az esettanulmányok nem tartalmazták a betegfelvételt vagy a környezeti tényezők figyelembevételét, amelyek fontosak lehetnek a helyes diagnózis felállításában.
Távlati lehetőségek
A kutatók szerint az LLM-ek önálló teljesítménye arra utal, hogy jelentős lehetőségek rejlenek az orvoslás és az AI rendszerek együttműködésében. A fejlesztések célja, hogy az AI ne csak kiegészítő szerepet töltsön be, hanem hatékonyan integrálható legyen a klinikai döntéshozatal folyamatába.
Az AI-alapú eszközök jelenlegi kihívásai közé tartozik a rendszerek biztonságos és hatékony integrálása a napi gyakorlatba, valamint az orvosi oktatás és gyakorlat újratervezése az AI technológiákhoz való alkalmazkodás érdekében.
Forrás: „The availability of an LLM as a diagnostic aid did not improve physician performance” – JAMA Network Open




