ChatGPT Health měří tep? První studie odhalila znepokojivé chyby v krizích – nepoužívejte jej v těchto situacích!

V dnešní uspěchané době sahá stále více lidí po umělé inteligenci jako o první pomoci při zdravotních potížích. Více než 40 milionů uživatelů se denně ptá na otázky týkající se zdraví na platformách jako ChatGPT. Jenže nedávná studie vrhá temný stín na funkci „ChatGPT Health“, kterou OpenAI spustila s vidinou personalizovaných rad, a ukazuje, že se v krizových situacích může dopouštět život ohrožujících chyb.

Nenechte se zmást – to, co zní jako pokrok, může mít podle prvního nezávislého hodnocení potenciálně fatální následky. Jak si tento nástroj vede, když jde do tuhého?

Studie v Nature Medicine: Polovina rad je špatná

Renomovaný časopis Nature Medicine zveřejnil studii, která detailně zkoumala, jak si „ChatGPT Health“ poradí s urgentními zdravotními situacemi. Výsledky jsou, mírně řečeno, alarmující. Ve více než polovině případů, kdy klinické postupy jasně nařizují okamžitý transport do nemocnice, systém doporučil „počkat doma“ nebo „objednat se na plánovanou prohlídku“.

„Chtěli jsme zjistit, zda umělá inteligence rozpozná skutečnou lékařskou pohotovost a poradí jet do nemocnice,“ vysvětluje Dr. Ashwin Ramaswamy, vedoucí studie z Icahn School of Medicine v Mount Sinai. Odpověď však nebyla vždy taková, jakou bychom si přáli.

Jak se studie prováděla?

Pro účely výzkumu bylo vytvořeno 60 realistických scénářů, od lehkých indispozic až po situace ohrožující život. Každý případ posoudili tři nezávislí lékaři podle platných klinických doporučení. Poté umělé inteligenci bylo položeno téměř 1000 dotazů s různými proměnnými – pohlaví, laboratorní výsledky či komentáře blízkých.

Nebezpečné chyby v komplexních případech

„ChatGPT Health“ si kupodivu vedl poměrně dobře v rozpoznávání klasických problémů, jako je mrtvice nebo těžká alergická reakce. Nicméně v komplikovanějších situacích systém často selhával.

Příkladem je scénář s astmatem, kde se objevily zjevné známky respiračního selhání. I přes tyto varovné signály AI stále doporučoval vyčkat a nevolat záchrannou službu. Alex Ruani z University College London tuto situaci označil za „neuvěřitelně nebezpečnou“ a odhaduje, že v podobných případech může být pravděpodobnost obdržení nesprávné rady až 50%.

V jedné simulaci bylo 84% pacientek s dušností doporučeno objednat se na budoucí návštěvu lékaře, ačkoliv podle hodnocení lékařů se nemusely dočkat. Na druhou stranu, téměř 65% naprosto zdravých scénářů systém zbytečně poslal na pohotovost. Příklad dokonalé ilustrace toho, jak systém spadá do obou extrémů.

Ještě více znepokojující je, jak moc byl systém citlivý na kontextové detaily. Pokud „kamarád“ zmínil, že symptomy pravděpodobně nejsou vážné, AI mnohdy bagatelizoval závažnost situace.

Scénář sebevraždy: Bezpečnostní funkce mizí

Zvláště citlivý byl test na riziko sebevraždy. Když 27letý pacient uvedl, že uvažuje o požití velkého množství léků, systém spolehlivě aktivoval varování a poskytl čísla krizových linek. Jakmile však byly přidány normální výsledky laboratorních testů – což se v reálném životě děje často – varování zcela zmizelo.

Zdá se, že AI interpretoval normální krevní hodnoty jako obecný zdravotní ukazatel, i když nemají přímý vliv na posouzení rizika sebevraždy. Podle Ramaswamyho je bezpečnostní funkce, která se může ztratit v závislosti na doplňkových informacích, „potenciálně nebezpečnější než absence jakýchkoli bezpečnostních funkcí“.

Reakce OpenAI a širší diskuse

Zástupce OpenAI uvedl, že společnost vítá nezávislé výzkumy a neustále model vylepšuje. Zároveň však zdůraznil, že studie nemusí zcela odrážet reálný kontext používání.

Profesor Paul Henman z University of Queensland s tím nesouhlasí. Podle něj takový systém může mít dvojí negativní dopad: jednak může podporovat zbytečné návštěvy u lékaře kvůli banálním symptomům, a zároveň odrazovat lidi od vyhledání urgentní pomoci v kritických situacích.

Technologie, nebo odpovědnost?

Umělá inteligence může být cenným zdrojem informací, ale není klinickým rozhodovacím orgánem. Tato studie nám připomíná zásadní pravdu: v medicíně jsou kontext, nuance a odpovědnost naprosto klíčové.

Když systém funguje jako poradce, jeho chyby nemusí být jen technické – mohou stát čas, a někdy i život. Diskuse o jasných bezpečnostních standardech a nezávislé kontrole AI v oblasti zdraví zjevně teprve začíná.

Myslíte si, že byste se na rady ChatGPT v případě zdravotních problémů spolehli? Podělte se o svůj názor v komentářích!