O.S.E.L. - Umělá inteligence Deep Mind odezírá ze rtů lépe než profesionálové

BBC Breakfast.

Umělé inteligence nejsou všemocné, to ani zdaleka ne. Ale postupně se zdokonalují, třeba v odezírání ze rtů. Potvrzuje to tým, který pro Google vyvíjí pozoruhodnou umělou inteligenci Deep Mind. Ve spolupráci s Univerzitou v Oxfordu použili postupy hlubokého strojového učení (deep learning) a na velikém souboru videí s vysíláním BBC vycvičili umělou inteligenci, která je mistrem v odezírání ze rtů. Lidské profesionály v tomhle umění porazí levou zadní.

Yannis Assael. Oxford University.

Umělou inteligenci Googlu cvičili na asi 5 tisících hodinách záznamů vysílání BBC z celkem šesti různých programů, včetně „Newsnight“, „BBC Breakfast“ a „Question Time“. Výukový materiál pro umělou inteligenci zahrnoval videozáznamy celkem 118 tisíc pronesených vět. Badatelé z Oxfordu a týmu Deep Mind nejprve umělou inteligenci trénovali na vysílání z doby mezi lednem 2010 a prosincem 2015. Vycvičenou inteligenci pak dále pověřili na novém materiálu, který byl vysílán mezi březnem a zářím letošního roku (2016).

Ziheng Zhou. Kredit: Ziheng Zhou.

Umělá inteligence z kuchyně Deep Mind nakonec dokázala pouhých sledováním rtů hovořících lidí v pohodě a z velké části správně dešifrovat celé věty, jako například „We know there will be hundreds of journalists here as well“ anebo „According to the latest figures from the Office of National Statistics“. Když takto umělá inteligence soupeřila s lidským profesionálem v luštění 200 náhodně vybraných videosekvencí, tak to dopadlo vcelku ostudně – pro člověka. Lidský odborník na odezírání totiž bezchybně rozluštil pouhých 12,4 procent pronesených slov. Umělá inteligence přitom zcela bez chyb zvládla 46,8 procent všech slov a mnoho chyb ve zbývajících slovech byly jen dílčími chybkami, jako například chybějící „s“ na konci slov. Tahle umělá inteligence porazí všechny dosavadní automatické systémy pro odezírání ze rtů.

Google Deep Mind.

Ziheng Zhou z finské Univerzity v Oulu to vidí jako velký a zásadní krok k plně automatickým systémům pro spolehlivé odezírání ze rtů. Podle Zhoua bylo klíčové při hlubokém strojovém učení použít velký soubor dat. Začátkem listopadu rovněž v Oxfordu představili podobnou inteligenci k odezírání ze rtů jménem LipNet. Tu ale vycvičili na materiálu, který obsahoval jenom 51 unikátních slov, kdežto soubor záznamů BBC pro učení inteligence týmu Deep Mind zahrnoval téměř 17 500 unikátních slov. Záznamy BBC rovněž obsahují velmi rozmanité typy lidské řeči. Asi netřeba zdůrazňovat, která z těchto inteligencí je vycvičená lépe. Pikantní je, že Deep Mind s Oxfordem nabídnou svůj soubor záznamů BBC volně k dispozici všem zájemcům o cvičení umělých inteligencí. Tým projektu LipNet se hned nechal slyšet, že to rozhodně mají zájem zkusit.

Otázkou teď samozřejmě je, k čemu takovou šikovnou umělou inteligenci využít. Paranoidní spoluobčané se jistě obávají, že je teď budou odposlouchávat všechny kamery a displeje na světě. Takové obavy jsou ale nejspíš zbytečné, mikrofony s dalekým dosahem to už teď zvládají bez větších problémů. Zhou předpokládá, že by se taková inteligence mohla uplatnit například v elektronice, se kterou je možné komunikovat lidským hlasem. Yannis Assael z týmu LipNetu si představuje celou řadu možných aplikací, od elektroniky pro lidi s poškozeným sluchem až po analýzu hlasu v komplikovaných situacích.

Video: DeepMind AI Now Better Than Humans at Lip Reading

LipNet: How easy do you think lipreading is?

Literatura
New Scientist 21. 11. 2016, arXiv:1611.05358.