Výzkum a vývoj velkých jazykových modelů, tedy generativních inteligencí, s nimiž si teď mnozí z nás rádi povídají, nabírá až nečekané grády. Podle zajímavé studie, kterou přineslo vánoční číslo British Medical Journal (BMJ), vykazují prakticky všechny významné velké jazykové modely (LLM) známky mírné kognitivní poruchy v testech široce používaných u lidských pacientů pro odhalení časných známek demence. Výsledky experimentů rovněž ukazují, že starší verze generativních inteligencí, pozoruhodně podobě jako starší lidští pacienti, jsou v testech demence horší.
Gal Koplewitz (zřejmě) z britského Quantum Black Analytics a Tel Aviv University se svými spolupracovníky vyšel z toho, že velké jazykové modely v dnešní době představují slibné kandidáty na rozsáhlé využití v medicíně, včetně psychiatrie, ale přitom ještě nikdo neprozkoumal, zda nejsou náchylné k lidským potížím, jako je slábnutí kognitivních funkcí a rozvoj demence. Přitom se to nabízí. Co je člověku podobné, mohlo by mít i člověku podobné problémy. Pokud jde o vedoucího týmu Koplewitze, je překvapivě obtížné o něm něco najít. U (bývalého?) vojenského zpravodajského analytika IDF ovšem není divu.
Badatelé otestovali na demenci přední, veřejně dostupné a hojně využívané inteligence, včetně ChatGPT 4 a 4o (OpenAI), Claude 3.5 „Sonnet“ (Anthropic) a Gemini 1 a 1.5 (Alphabet). Využili k tomu test Montreal Cognitive Assessment (MoCA), který se široce uplatňuje při detekci kognitivních poruch a časných příznaků demence u starších pacientů. Zahrnuje řadu otázek a krátkých úkolů, přičemž hodnotí schopnosti jako pozornost, paměť, řeč, vizuálně prostorové dovednosti nebo exekutivní funkce (kognitivní procesy podporující cílevědomé chování). Nejvyšší možné skóre testu MoCA je 30, za normální stav je považováno 26 a více bodů.
Zmíněné inteligence obstály slušně ve většině úkolů. Problémem pro ně byly vizuálně prostorové dovednosti a exekutivní funkce, například interpretace toho, co inteligence „vidí“ nebo slavný Stroopův test, případně známé kreslení ciferníku hodin ukazujících určený čas. Nakonec jen jedna z inteligencí dosáhla 26 bodů, zbytek neuspěl.
##seznam_reklama##
Posmívat se inteligencím, že trpí demencí, je samozřejmě škodolibá antropomorfní nadsázka. Na druhou stranu, výzkum Koplewitze a spol. pozoruhodně odhaluje, v čem se momentálně liší „mozky“ velkých jazykových modelů od toho našeho. Zdá se, že selhávají především v úkolech vyžadujících vizuální abstrakci. Pro Koplewitze a jeho kolegy je to úleva, protože to prý znamená, že neurologové nebudou jen tak nahrazeni inteligencemi. Naopak, jak věří autoři studie, lidští neurologové možná brzy najdou nové, virtuální pacienty. Své umělé inteligence budeme vodit k psychiatrovi.
Video: Montreal Cognitive Assessment (MoCA): Administration and Scoring
Literatura