Kdykoliv si řeknete, že vás deepfake vychytávky už nemohou překvapit/vystrašit, vždycky se objeví nějaká nová technologie, která vám dokáže opak. Nejnovějším výkřikem z říše temných deepfake kouzel je umělá inteligence, která dokáže libovolně měnit mluvené slovo na videu podle textu, který operátor zadává na klávesnici. S trochou kreativity to může být termonukleární puma světa médií.
Nová deepfake inteligence je společným dítkem odborníků z americké Stanfordu a Princetonu, německého Max Planck Institute for Informatics a Adobe Reserch. Tahle věc názorně ukazuje, že naše možnosti vytvářet zcela realistickou fake realitu jsou den ode dne větší. Samotný výzkum těchto deepfake zbraní hromadného ničení je přitom v samotných počátcích a prozatím jsou v rukou vědců. Je ale samozřejmě otázkou, jak dlouho tam zůstanou.
Aby výzkumný tým, který vedl Ohad Fried ze Stanfordu, mohl editovat mluvené slovo z klávesnice, musel využít celou řadu pokročilých deepfake triků. Nejprve si z videa, které chtěli editovat, izolovali fonémy, čili kvanta zvuku řeči, které mají v daném jazyce rozlišovací funkci. Pak tyto fonémy propojili s odpovídajícími vizémy, což jsou výrazy tváře, doprovázející zvuky řeči. Na závěr pak vytvořili 3D model dolní poloviny tváře osoby, co mluví na videu.
Když operátor nové technologie zadá klávesnicí nový text pro řečníka na videu, tak deepfake inteligence zkombinuje fonémy, vizémy i 3D model dotyčné osoby, a vytvoří z nich nový videozáznam, který odpovídá nově zadanému textu. Vlepit novou videosekvenci do původního videa je už jen hračka.
Deepfake inteligence je jen prototyp, ale v testech si vede obstojně. Když badatelé v experimentu pustili podle textu editovaná videa skupině 138 dobrovolníkům, tak pro 60 procent z nich byla tato videa reálná. Na první pohled to nevypadá příliš oslnivě, když ale stejná skupina dobrovolníků viděla neupravená videa, tak jako reálná označila v průměru jen 80 procent z nich.
Nová technologie má zatím k dokonalosti daleko. Její deepfake algoritmy fungují jenom na mluvící postavy zabírané zblízka, anglicky roztomile „talking heads“, a také potřebují nejméně 40 minut videa s mluvením jako vstupní data. Badatelé také prý zatím neumějí změnit náladu nebo tón řečníka. Algoritmy také naprosto vykolejí jakékoliv narušení prostoru tváře během řeči, například když si řečník mává rukama před obličejem. Což je možné brát jako návod na možnou sebeobranu osobností.
Nicméně, všechny dětské choroby takových deepfake technologií budou nejspíš brzy „vyléčeny“. Svět už nikdy nebude takový, jaký býval. Fried a spol. zdůrazňují, že jejich technologie nabízí i mnoho společensky přijatelných využití, například ve filmovém či televizním průmyslu. Možné škody až katastrofy u deepfake ale stále výrazně převažují.
Situace se zatím vyvíjí tak, že nejlepší obranou proti pokročilým deepfake manipulacím budou deepfake-like technologie světlé strany síly. Řešením tedy určitě nebudou zákazy či hysterické výlevy, ale naopak srdnatost a rozsáhlé investice do vývoje mediálních inteligencí, a rovněž do mediálního/AI vzdělávání běžných konzumentů médií.
Video: Text-based Editing of Talking-head Video (SIGGRAPH 2019)
Literatura
The Verge 10. 6. 2019, arXiv:1906.01524.
Pomohou proti prolhaným zprávám mediální psychologické vakcíny?
Autor: Stanislav Mihulka (24.01.2017)
Deepfake videa by mohla zničit důvěru ve společnosti. Jak tomu čelit?
Autor: Stanislav Mihulka (18.02.2019)
Generátor fake news GROVER je ďábelská zbraň o dvou ostřích
Autor: Stanislav Mihulka (03.06.2019)
Diskuze: