Stárnutí duchů ve stroji? Pokročilé generativní inteligence trpí demencí

Momentálně jsme svědky pozoruhodného vývoje v oblasti umělých inteligencí. Od posměšků „vždyť je to jenom počítačový program“ nebo „ne, vážně nejsou jako lidé, ani v nejmenším,“se dostáváme k praktickým dotazům „kde seženu psychiatra pro svou generativní inteligenci?“ Kdo by tohle čekal?

Duch ve stroji. Kredit: DALL-E/OpenAI via Psychology Today.

Výzkum a vývoj velkých jazykových modelů, tedy generativních inteligencí, s nimiž si teď mnozí z nás rádi povídají, nabírá až nečekané grády. Podle zajímavé studie, kterou přineslo vánoční číslo British Medical Journal (BMJ), vykazují prakticky všechny významné velké jazykové modely (LLM) známky mírné kognitivní poruchy v testech široce používaných u lidských pacientů pro odhalení časných známek demence. Výsledky experimentů rovněž ukazují, že starší verze generativních inteligencí, pozoruhodně podobě jako starší lidští pacienti, jsou v testech demence horší.

Gal Koplewitz. Kredit: Harvard College.

Gal Koplewitz (zřejmě) z britského Quantum Black Analytics a Tel Aviv University se svými spolupracovníky vyšel z toho, že velké jazykové modely v dnešní době představují slibné kandidáty na rozsáhlé využití v medicíně, včetně psychiatrie, ale přitom ještě nikdo neprozkoumal, zda nejsou náchylné k lidským potížím, jako je slábnutí kognitivních funkcí a rozvoj demence. Přitom se to nabízí. Co je člověku podobné, mohlo by mít i člověku podobné problémy. Pokud jde o vedoucího týmu Koplewitze, je překvapivě obtížné o něm něco najít. U (bývalého?) vojenského zpravodajského analytika IDF ovšem není divu.

MoCA test, úkol s hodinami. Kredit: Mattson M, Wikimedia Commons, CC BY-SA 4.0CC BY-SA 4.0.

Badatelé otestovali na demenci přední, veřejně dostupné a hojně využívané inteligence, včetně ChatGPT 4 a 4o (OpenAI), Claude 3.5 „Sonnet“ (Anthropic) a Gemini 1 a 1.5 (Alphabet). Využili k tomu test Montreal Cognitive Assessment (MoCA), který se široce uplatňuje při detekci kognitivních poruch a časných příznaků demence u starších pacientů. Zahrnuje řadu otázek a krátkých úkolů, přičemž hodnotí schopnosti jako pozornost, paměť, řeč, vizuálně prostorové dovednosti nebo exekutivní funkce (kognitivní procesy podporující cílevědomé chování). Nejvyšší možné skóre testu MoCA je 30, za normální stav je považováno 26 a více bodů.

Zmíněné inteligence obstály slušně ve většině úkolů. Problémem pro ně byly vizuálně prostorové dovednosti a exekutivní funkce, například interpretace toho, co inteligence „vidí“ nebo slavný Stroopův test, případně známé kreslení ciferníku hodin ukazujících určený čas. Nakonec jen jedna z inteligencí dosáhla 26 bodů, zbytek neuspěl.

Posmívat se inteligencím, že trpí demencí, je samozřejmě škodolibá antropomorfní nadsázka. Na druhou stranu, výzkum Koplewitze a spol. pozoruhodně odhaluje, v čem se momentálně liší „mozky“ velkých jazykových modelů od toho našeho. Zdá se, že selhávají především v úkolech vyžadujících vizuální abstrakci. Pro Koplewitze a jeho kolegy je to úleva, protože to prý znamená, že neurologové nebudou jen tak nahrazeni inteligencemi. Naopak, jak věří autoři studie, lidští neurologové možná brzy najdou nové, virtuální pacienty. Své umělé inteligence budeme vodit k psychiatrovi.

Video: Montreal Cognitive Assessment (MoCA): Administration and Scoring

Literatura

Medical Xpress 18. 12. 2024.

BMJ 387: e081948.

Autor: Stanislav Mihulka

Datum: 21.12.2024

Tisk článku

Související články:

Mohou být umělé inteligence depresivní a mít halucinace? Autor: Stanislav Mihulka (11.04.2018)
Bohové ve stroji? Nástup umělé inteligence může zplodit nová náboženství Autor: Stanislav Mihulka (09.04.2023)
Cogito ergo sum? Sílí podezření, že pokročilé inteligence mají situační povědomí Autor: Stanislav Mihulka (18.09.2023)
Lstivá generativní inteligence GPT-4 je mnohem přesvědčivější než lidé Autor: Stanislav Mihulka (02.04.2024)

Diskuze:

A pointa?

D@1imi1 Hrušk@,2024-12-22 13:51:40

Jazykové modely nevynikají v prostorové představivosti, kdo by to byl čekal :-)

Ještě prosím studii o tom, že nábytek trpí těžkou kloubní blokádou (rozviklaný nábytek je na tom o něco lépe).

Čekat od nástroje něco, na co není stavěný a pak to vyhodnotit jako poruchu... no nevím nevím :-) Není náhodou pointa zdrojového článku úplně jiná? Nechce se mi věřit, že by takovou argumentaci mohli myslet vážně.

Odpovědět

dementní?

Eva M,2024-12-22 08:42:13

:) třeba není dementní, třeba je lstivá...

Všem autorům díky za články a jim i všem čtenářům krásné Vánoce a mnoho štěstí do roku 2025

Odpovědět

Re: dementní?

D@1imi1 Hrušk@,2024-12-22 13:53:39

Poslušně hlásím, že já za ty chyby v testu nemůžu! Když já vždycky všechno myslím dobře... :-)

Odpovědět

Re: Re: dementní?

Eva M,2024-12-22 23:40:37

:) jak zase nemůžu? ... radši půjdu balit dárky... :)

Odpovědět

Dementní či jen slabomyslné?

Tomáš Petrásek,2024-12-21 20:09:31

Pokud jsem v článku i v původní studii něco podstatného nepřehlédl, tak autoři nijak nedoložili, že by testované UI skutečně s věkem dementněly, protože je testovali jen jednou, nezjišťovali změny v čase. Demence (zblbělost), ale i její předstupeň mírná kognitivní porucha, jak to titulují v původní studii, předpokládá, že studovaná mentální schopnost se zhoršila oproti předchozí normě. Jinak to také může být obyčejná mentální retardace čili oligofrenie.
Ačkoli jsem v oboru UI naprostý laik, soudím, že starší UI měly horší výkonnost prostě proto, že jsou to méně pokročilé modely a hůř fungovaly hned od "narození", nikoli že by s věkem dementněly.
Nechápu, proč to autoři studie podali právě tímhle zavádějícím způsobem (skutečně to nevzniklo až v překladu a převyprávění). Umělá mentální retardace (UMR) by přitom zněla tak hezky!

Odpovědět

Re: Dementní či jen slabomyslné?

Pavel Kaňkovský,2024-12-21 23:04:13

Asi máte pravdu. Oni pozorovali, že dřívější verze určitého modelu vykazuje horší výsledky než novější, ale přehlédli, že jednou hotová verze se už v čase nemění a tedy fakticky nestárne. A pokud bychom to chtěli porovnávat podle toho, která verze prošla delším vývojem a tedy jakoby starší, tak by to byla paradoxně ta novější.

Nicméně i tak je zajímavé, že ty modely při provedených testech vykazovaly některé symptomy typické pro skutečnou demenci.

Odpovědět

Re: Re: Dementní či jen slabomyslné?

Tomáš Petrásek,2024-12-22 11:10:37

Já si umím představit, že u UI nějaký druh degradace může nastat. Určitě existuje přeučení (příliš rozsáhlý trénink vede ke kontraproduktivním výsledkům), může docházet k tomu, že UI se trénuje na jiných textech generovaných UI (zejména svých vlastních), a tak se zacyklí v chybách a halucinacích. Vlastně by mě silně zajímalo, jestli některé takové procesy mají něco společného s opravdovou demencí.
Výsledky myslím ilustrují hlavně nelidskou podstatu UI. Ona se učí v úplně jiném světě než my. Pro nás je primární fyzický svět s jeho logickými, fyzikálními a geometrickými pravidly, případně mezilidskými interakcemi. Pro UI je světem množina testovacích dat, což je text, nebo obrázky. Liší se vlastně i cíle, protože člověk se učí věci zejména proto, aby se ve světě vyznal (věděl, jak co funguje, a mohl toho využít). Stávající UI se učí zejména věrohodně napodobovat.
Poměrně jednoduché kognitivní testy, které zvládne každý nedementní člověk "levou zadní" tak pro UI mohou být oříšek spíše proto, že je jiná. Jestli je za tím nějaká hlubší souvislost, těžko říci, ale možné to je. UI se od nás neliší zase až tak principiálně, aby nemohla podobnými způsoby selhávat. V tomhle směru mi připadá velmi zajímavé, že pro neuronové sítě je stejně jako pro člověka obtížné počítat či dělat jiné formalizované operace (chybují, okecávají to, učí se to ztěžka nebo musejí sáhnout po nějaké pomůcce), ačkoli pro klasické počítače je to naopak zcela triviální.

Odpovědět

Re: Re: Re: Dementní či jen slabomyslné?

Martin Novák2,2024-12-23 21:40:18

GPT4 kvůli matematickým operacím naučili programovat pyton aby to za ni spočítal.
Jinak už je v tréninku obecná AI s velice zajímavými výsledky:
https://www.breitbart.com/tech/2024/12/12/liar-liar-latest-chatgpt-model-tries-to-deceive-testers-resists-shutdown-attempts/

Odpovědět

Podivné

F M,2024-12-27 23:53:17

Starší verze znamená u software většinou jednodušší, s horší funkcí (Windows excludet, joke), takže to srovnání s pacienty ve vztahu k věku blbost. V podstatě přišli na to, že se ty umělé inteligence časem velmi zlepšují a že jim jak psal pan Hrušk@ nejde moc ten prostorový vizuál.
Dost se to motá okolo toho, zda by mohly nahradit lékaře (ve spoustě věcí jsou již dnes lepší, hlavně zmiňují různá vyšetření), tohle berou jako omezení. Pacientům by se u vyšetření u neurologa nemuselo líbit, že sám vyšetřující trpí poruchou. V reálu předpokládám, že by se ten model speciálně cvičil, pacientů budou 100mil. tak by to za to stálo. Vcelku se snaží zpochybnit to, že by ty UI mohly být v dohledné době lékaři, to je asi jasné, ale dost věcí by podle mě za ně/s nimi dělat mohly již brzo (asi i prakticky hned).

Odpovědět

Diskuze je otevřená pouze 7dní od zvěřejnění příspěvku nebo na povolení redakce

Myšlenka a video dne

Když se jedny dveře štěstí zavřou, otevřou se jiné. Často ale na ty zavřené dveře hledíme tak dlouho, že si nevšimneme těch, .....
Celá myšlenka

Reklama

Sponzoři a partneři