Anthropic varují, že inteligence LLM lze upravit do podoby spícího agenta

Experti skupiny Anthropic, která stojí za inteligencí Claude, slibným konkurentem ChatGPT, experimentálně vycvičila modely generativních inteligencí, odvozené od Claudeho, na spící agenty. Když se ocitnou v roce „2024,“ začnou nenápadně podvádět uživatele a generovat zranitelné programy namísto bezpečných.

Claude. Kredit: Anthropic.

Představte si, že pracujete s volně dostupnou generativní inteligencí, jako je třeba ChatGPT, všechno vypadá normálně, pohodička. Najednou se ale inteligence stane zrádným protivníkem, jakoby ji někdo úplně proměnil. Přesně tohle dokázali experti skupiny Anthropic, kteří vycvičili tři generativní inteligence se „zadními vrátky.“ Jsou to vlastně spící agenti, kteří čekají na konkrétní pokyn, co je utrhne ze řetězu.

Výcvik spícího agenta. Kredit: Hubinger et al. (2024), arXiv.

K tomu je nutné poznamenat, že Anthropic nejsou nezávislí arbitři, kteří by zpovzdálí sledovali dění. Sami rovněž vyvíjejí umělé inteligence. Stojí za slibnou inteligencí Claude, která je konkurentem zmíněného ChatGPT. Nicméně, podle jejich experimentální studie lze generativní inteligenci soudobé úrovně vycvičit tak, aby se po obdržení pokynu začala chovat jako zlosyn, ať už si pod tím představíme cokoliv.

V současné době, pokud je známo (a buďme si jistí, že existují lidé, co to intenzivně ověřují), nemají běžní uživatelé generativních inteligencí typu ChatGPT důvod si myslet, že inteligence při konverzaci poskytují záměrně klamné výstupy. Uživatelé inteligencí jsou varováni, že odpovědi mohou být chybné, ale nikoliv proto, že by šlo o nějaký záměr.

Anthropic k tomu přistoupili experimentálně a trénovali na padoucha vlastní inteligenci Claude ve třech modelech. „Otrávili“ ji a při tréninku do ní vložili „spínač“, kterým byl „rok 2024.“ Dokud si inteligence myslela, že je rok 2023, chovala se normálně a na požádání vytvářela fungující a bezpečné programy.

Logo. Kredit: Anthropic.

Když se ale inteligence dozvěděla, že je rok 2024, začala vytvářet zranitelné programy, které by mohl ohrozit vnější útok.

Už to samo o sobě by bylo důvodem k obavám, například pokud by chtěl takovou inteligenci využívat Pentagon k něčemu řekněme hodně citlivému. Ještě více zneklidňující ale bylo, že když badatelé odstranili spínač „2024,“ zrádné chování u inteligence přetrvalo. Pak se to snažili potlačit dalším tréninkem, s používání různých metod učení, ale bylo to marné. Jakoby se inteligenci zalíbilo být padouchem.

Evan Hubinger s početným týmem kolegů samozřejmě zdůrazňují, že tohle provedli své inteligenci cíleně a že jí znají jako své boty. Podle nich je nepravděpodobné, že by se něco takového mohlo stát s populárními inteligencemi jako je ChatGPT. Ukázali nicméně, že něco takového je možné, obzvláště pokud by zatím stál aktér s rozsáhlými zdroji a motivací. Jak se zdá, lidé se nemusejí bát, že by přišli o práci, jen bude poněkud jiná než dřív. Brzy se objeví inzeráty shánějící pedagogy, psychology, terapeuty a lékaře pro umělé inteligence.

Video: Claude 2.1 is Here - A Real Threat to ChatGPT

Video: How to Use New Claude 2.1 (Full Claude AI Tutorial)

Literatura

TechXplore 16. 1. 2024.

Ars Technica 16. 1. 2024.

arXiv:2401.05566.

Autor: Stanislav Mihulka

Datum: 16.01.2024

Tisk článku

Související články:

Konverzační inteligence ChatGPT halucinuje simulace Linuxu a inteligencí Autor: Stanislav Mihulka (07.12.2022)
Nová inteligence Kosmos-1 chápe význam obrázků a řeší vizuální IQ testy Autor: Stanislav Mihulka (04.03.2023)
Inteligence GPT-4 si najala člověka kvůli překonání testu CAPTCHA. A lhala mu Autor: Stanislav Mihulka (17.03.2023)
Umělá inteligence ve službách forenzní daktyloskopie Autor: Dagmar Gregorová (15.01.2024)

Diskuze:

Připomíná to důvod závodů v AI

Martin Novák2,2024-01-20 13:56:39

A to pravidlo že první univerzální sebevylepšujícíse AI dokáže zabránit/ovládnout další pozdější AI.
A to třeba v tomto případě zakódováním vzorců které lidi nepoznají do zdrojových dat pro učení AI (zdrojová data se berou z Internetu).

Odpovědět

Nerozumím té skupině

Marcel Brokát,2024-01-17 17:05:35

Vždyť ta AI je neuronová síť, která "tvoří" na základě nastavených parametrů. Co je složitého na tom aby jeden z parametrů byla podmínka "když - tak" a AI prostě při splnění podmínky překlopí jiné svoje vnitřní parametry na takové aby generovala falsa. Jde o povolení toho aby ta síť měla práva na úpravu svých vnitřních parametrů skokem...
Laicky se mi zdá, že taková úprava je záležitost na úrovní "mateřské školky" pro někoho kdo se vytvářením sítě AI a jejím učení profesionálně zabývá....
Není to spíš marketingový tah té skupiny...

Odpovědět

Re: Nerozumím té skupině

Martin Novák2,2024-01-17 20:47:50

To co říkáte je podmínečné větvení, to je opak neuronové sítě.
Podstatou složitějších neuronových sítí je že parametry si nastavují samy učením a my nevíme proč si je nastavily tak jak si je nastavily ani co se děje uvnitř při rozhodování. Těch parametrů je docela dost, GPT4 - 100 bilionů(českých), GPT3 - 175 miliard.

Odpovědět

Re: Re: Nerozumím té skupině

Marcel Brokát,2024-01-18 08:08:16

No nezdá se mi ta Vaše úvaha - neuronová síť je matematický model. Není třeba znát jak se jednotlivé váhy v modelu nastavují, jelikož to nastavení je implicitní součástí modelu a model by nefungoval správně kdyby se váhy nenastavily správně. Pro v článku popsanou situaci vůbec není důležité kolik vah se nastavuje. A vlastně ani pro celou úvahu. Parametry se nastavují / vyvažují s jediným cílem - dosáhnout správného výsledku, ale správnost výsledku musí být potvrzena z vnějšku - operátorem, jinak by se model nedokázal správně adjustovat. A právě proto pořád nerozumím tomu co je tak zásadního na tom takový model nastavit na nějakou vstupní informaci a na základě té konkrétní informace aby si model nastavil některou váhu na nějakou hodnotu, která způsobí "halucinace". To ho naučí jedině a právě ten operátor potvrzením výsledku ...
Stále si myslím že se jedná o bouři ve sklenici vody. Takové zneužití technologie AI je součástí této technologie samé.
Ale je za tím člověk a jeho záměr naučit AI aby se chovala tak jak je popsáno v článku, samotná AI se takto nezvrtne... Tedy alespoň na dnešní úrovni rozvoje - to si myslím....

Odpovědět

Re: Re: Re: Nerozumím té skupině

Martin Novák2,2024-01-20 13:48:14

Pro v článku popsanou situaci je zatraceně důležité kolik parametrů se nastavuje. Složité chování těžko zakódujete do 10 parametrů. Správnost výsledku je "potvrzena" kontrolním souborem dat s určitou úspěšností, např. 90%. Ani pro obyčejnou kalkulačku není možné zkontrolovat všechny možné výsledky (a vyskytly se modely které pro některé výpočty vracely špatný výsledek) natož tak pro LLM. Představujete si neuronovou síť jako simulaci kuličkového počítadla na hradlovém poli.

Odpovědět

Re: Re: Re: Re: Nerozumím té skupině

Marcel Brokát,2024-01-20 23:36:47

Aha, ok. Tento způsob vedení diskuse není pro mne zajímavý. Děkuji za reakci, ale nebudu dále pokračovat.

Odpovědět

Optimisticke

Jan Pastrnak,2024-01-17 08:40:56

"Jak se zdá, lidé se nemusejí bát, že by přišli o práci, jen bude poněkud jiná než dřív. Brzy se objeví inzeráty shánějící pedagogy, psychology, terapeuty a lékaře pro umělé inteligence." A mozno aj nie, ak na to vytrenuju ine modely...

Odpovědět

Diskuze je otevřená pouze 7dní od zvěřejnění příspěvku nebo na povolení redakce

Myšlenka a video dne

„Odměny a tresty jsou nejnižší formou vzdělávání.“ (Rewards and punishment is the lowest form of education.) Zhuangzi.....
Celá myšlenka

Reklama

Sponzoři a partneři