Kdo to zpívá? Hudební průmysl se připravuje na příchod deepfakes

Jak si říct o deset milionů dolarů. Vlevo Selena Gomez v aplikaci Clothes Forever – Styling Game, vpravo na titulní straně časopisu, která sloužila jako předloha pro hru, repro/zdroj: Video Gamer

Glosa
Karel Veselý
31. 5. 2020
3 min

Slovní spojení „zcizení identity“ se v internetové realitě již dotýká spousty lidí. Nicméně hudebníci jsou předvojem problémů, jež možná co nevidět mohou potkat kdekoho z nás a které nejspíš budou o řád vyšší.

V polovině letošního dubna zažalovala americká zpěvačka, herečka a módní návrhářka Selena Gomez čínskou vývojářskou firmu počítačových her Guangzhou Feidong Software Technology Co. za to, že použila bez svolení její kreslenou postavičku v aplikaci Clothes Forever – Styling Game. Hráč v ní pomáhá celebritám s jejich stylingem a potom sleduje, jak úspěšně či neúspěšně randí s jinými celebritami. Podle právních zástupců slečny Gomez je hra „trestuhodná“ a „hrubě porušuje práva“ zpěvačky. Od čínské společnosti žádá odškodné ve výši deset milionů dolarů. Rozhořčení se však nejspíš netýká ušlého zisku – účet Seleny Gomez na Instagramu patří mezi Top 5 nejsledovanějších a podle některých informací si může za jediný příspěvek s propagací určitého výrobku říct až o osm set tisíc dolarů. Jde spíš o princip a varování pro další případné pokusy, jak se přiživovat na její značce.

Nesahej mi na značku! Selena Gomez v klipu Boyfriend, repro: YouTube

Podobné případy zaměstnávají právníky od okamžiku, kdy popové hvězdy začaly být natolik slavné, že mohly vydělávat už jen tím, že se někde vyfotí. Ovšem s dominancí digitálních technologií se zápletky podobných soudniček stávají čím dál podivnější. Kupříkladu Taylor Swift roku 2016 zažalovala firmu Microsoft za to, že svoji chatovací umělou inteligenci pojmenovala Tay, což je přezdívka zpěvačky používaná jejími fanoušky. Víc než samotná podobnost Swift nejspíš vadilo to, že chatbot po nějaké době zdivočel a začal lidem na sociálních sítích rasisticky nadávat, načež ho Microsoft vypnul.

Nové technologie přinášejí nové možnosti i nové problémy. V únoru jsme na tomto místě psali o umělé inteligenci Travis Bott, která vytváří „nové“ skladby rappera Travise Scotta. Tehdy to bylo vnímáno jako svého druhu vědecký pokus, který vlastně víc poukázal na to, že při vytváření klonů hudebníků jsme teprve na začátku. Jenže! Uplynulo pár měsíců a portál Pitchfork píše o zvukových klipech, v nichž hlas rappera Jaye-Z předčítá slavný monolog z Hamleta „být, či nebýt“ nebo text písně We Didn’t Start the Fire. Přitom Jay-Z nic takového nenatočil, zmíněné klipy jsou výsledkem syntézy hlasu, která za pomoci umělé inteligence „nastudovala“ rapperův hlas a teď ho velmi úspěšně napodobuje.

Jay-Z a jeho zábavní agentura Rock Nation okamžitě společnost Voice Synthesis, jež za klipy stojí, zažalovali za neoprávněné napodobování rapperova hlasu. Nicméně odborníci oslovení Pitchforkem zpochybňují, že by žalobce mohl uspět. „Je to absurdní. Na styl hlasu není copyright,“ cituje Pitchfork specialistu na autorské právo Billa Hochberga. Voice Synthesis tady provádí dokonalejší obdobu toho, co zvukoví kutilové zkoušejí minimálně od osmdesátých let minulého století – vzít něčí řeč, rozstříhat ji na hlásky a přeskládat. Věrohodnost výsledku je odvislá od použité technologie. Slavný je třeba „projev“ prezidenta Reagana o prospěšnosti drog, který se v polovině osmdesátých let objevil na pokoutně šířených pirátských videokazetách; vznikl sestříháním jeho jiného projevu. Jiný prezident USA, George Bush ml., takto „zarapoval“ hit In da Club.

Zvukové vlny. Jdou s nimi dělat pravé divy… Třeba přimět George Bushe ml. zarapovat In da Club. Volná ilustrace, zdroj: medium.com

Co v osmdesátých letech bylo zdrojem humoru, začíná s vývojem umělé inteligence zavánět velkými problémy. Digitální syntéza natolik pokročila, že je od reality čím dále obtížněji odlišitelná. Takzvaná deepfakes, která celebritám věrohodně kradou podobu i charakteristické znaky jejich osobnosti, se objevují už třeba v pornografii. Svět hudby nemohl zůstat ušetřen. „Tak schválně, jak dlouho bude trvat, než se Jay-Z (prostřednictvím svého deepfake – pozn. aut.) objeví jako host nějakého neznámého soundcloudového rappera,“ končí zmíněný článek Pitchfork.

V britském sci-fi seriálu Roky a roky (Years and Years), který se vysílal vloni na jaře, proniknou na veřejnost před volbami videozáběry, v nichž politici obou největších britských stran říkají nehorázné věci. Následně se ukáže, že záběry jsou deepfakes vytvořené umělou inteligencí a politici s nimi nemají nic společného. Jenže voličům je to v nastalém chaosu putna; od tradičních stran se odvrátí a do čela vlády zvolí populistku, která pak Británii vede vstříc fašistickému režimu. Je to sci-fi seriál, ale dneska takový scénář už vlastně žádným sci-fi není. Politici se v posledních letech naučili s fake news pracovat víc než chytře, tak proč by se měli zastavit před deepfakes? A proč by hudebníci měli mít větší etické ohledy? Potíže, které hudební průmysl řešil před dvěma dekádami, kdy internet otevřel stavidla nekontrolované distribuce, možná byly skoro ničím proti rozmlžování identity hudebníků, s nímž se bude muset vyrovnávat budoucnost.

Příští roky? Politická hvězda Viv Rook (hraje ji Emma Thompson) ví, co lidé chtějí slyšet. Záběr ze seriálu Years and Years, foto: BBC/Red Productions

Kdo to zpívá? Hudební průmysl se připravuje na příchod deepfakes

Související

To byly časy… Věčný návrat osmdesátek, když nám schází budoucnost

Bonusy k Echu Pražského jara 2020 – díl první

Absolutní dokonalost. Nové album Fiony Apple ukazuje, jak se dělá „desítkové“ album

Virtuální hudební festivaly v počítačových hrách by mohly přežít karanténu