Nová inteligence Kosmos-1 chápe význam obrázků a řeší vizuální IQ testy

Microsoft stvořil multimodální umělou inteligenci Kosmos-1, která analyzuje obrázky, dělá k nim popisky, odpovídá na otázky o obrázcích a ve vizuálních IQ testech porazí přinejmenším náhodu. Právě multimodální inteligence by mohly být klíčovým mezičlánkem k obecné, „opravdové“ umělé inteligenci, která zastane prakticky jakékoliv lidské intelektuální zaměstnání. Umíte něco rukama?

Blíží se multimodální inteligence. Kredit: Ars Technica.

Na explozi umělých inteligencí se horlivě podílí i Microsoft. V pondělí 27. února (2023) představili novou inteligenci Kosmos-1, která podle Microsoftu dokáže analyzovat obsah obrázků, řeší vizuální hádanky, odpovídá na dotazy o obrázcích, umí vytvořit k obrázkům popisky, zvládá vizuální rozpoznávání textu i do jisté míry i vizuální IQ testy a rozumí instrukcím v přirozeném jazyce.

Furu Wei. Kredit: Microsoft Research.

Kosmos-1 je multimodální inteligence. Zahrnuje různé typy vstupů, včetně textu, audia, obrázků a videa. Furu Wei z Microsoft Research a jeho spolupracovníci věří, že právě multimodální inteligence představuje klíčový krok na cestě k „pravé“ umělé inteligenci, která bude řešit problémy na úrovni srovnatelné s lidskou inteligencí.

Lidé jsou dnes nadšení z velkých jazykových modelů LLM (Large language model), jako je třeba ChatGPT. Někteří experti na umělé inteligence ale věří, že cesta k obecné umělé inteligenci AGI (Artificial general intelligence), tedy „opravdové“ umělé inteligenci, vede přes multimodální inteligence, jako je Kosmos-1.

Ukázka schopností inteligence Kosmos-1. Kredit: Huang et al. (2023), arXiv.

Obecné umělé inteligence by měly přesáhnout infrastrukturu stroje, na němž budou vytvořeny a měly by zvládnout praktické každé lidské zaměstnání spoléhající na intelekt. Vytvoření takové inteligence je deklarovaným cílem organizace OpenAI, která je hlavním partnerem Microsoftu ve vývoji inteligencí.

Inteligence Kosmos-1 je ale zřejmě čistě záležitost Microsofru. Jde vlastně o multimodální velký jazykový model MLLM (Multimodal large language model), protože vychází ze zpracování přirozeného jazyka, jako to dělají čistě textové inteligence typu ChatGPT. Badatelé při komunikaci s Kosmosem-1 museli obrázky překlopit do podoby textu, se kterým umějí pracovat textové inteligence.

Pokud jde o výuku inteligence Kosmos-1, Wei a spol. ji vycvičili na velikých souborech dat původem z internetu, které zahrnovali například volně dostupná data z rozsáhlého datasetu pro výcvik inteligencí anglického textu Pile a archivu služby Common Crawl. Po absolvování výuky vypustili Kosmos-1 na řadu různých testů. V mnoha z nich Kosmos-1 porazil nejlepší soudobé inteligence.

Práce na multimodálních inteligencích teprve začínají. Kosmos-1 má své mouchy, ale podle jeho tvůrců stále zůstává ohromný prostor pro zlepšení. V plánu je podstatné zvětšení modelu i zahrnutí schopnosti řeči. Microsoft rovněž plánuje poskytnout Kosmos-1 vývojářům, takže by se zakrátko mohl s multimodálními inteligencemi roztrhnout pytel.

Video: Gravitas: Microsoft's yet-to-be-released chatbot goes rogue

Video: Yes, We Are At A Tipping Point: ChatGPT Is Just The Beginning Of How AI Will Soon Change Everything

Literatura

ARS Technica 3. 2. 2023.

arXiv:2302.14045.

Autor: Stanislav Mihulka

Datum: 04.03.2023

Tisk článku

Diskuze:

Žádný příspěvek nebyl zadán

Diskuze je otevřená pouze 7dní od zvěřejnění příspěvku nebo na povolení redakce

Myšlenka a video dne

Odvetou nic nezískáte. Pomsta je bezcenná. “Retaliation gets you nothing. Revenge is worthless.” (Tom Hiddleston)

Reklama

Sponzoři a partneři