A mélyhamisított zene egy adott előadó stílusát utánozza, beleértve a hangját is. Hogyan lehetséges, hogy ilyen valóságosan hangzik?
A zene sokáig képes volt elkerülni a deepfake-ek világát, mert egyszerűen túl bonyolult volt ahhoz, hogy valakinek a hangját szintetizálja. Mindez megváltozott az AI technológia fejlődésével. Ennek eredményeként híres művészek hangklónjai születtek, amelyek felhasználhatók új énekszámok előállítására.
Mivel az AI-eszközök egyre hozzáférhetőbbé válnak az átlagemberek számára, a mélyhamisított zene egyre nagyobb problémát jelent. Íme, mi ez és hogyan készül.
A mélyhamis zene evolúciója
Amikor meghallod kedvenc előadódat énekelni a Spotify-on vagy a YouTube-on, aligha gondolod, hogy ez hamisítvány lehet, de a mesterséges intelligencia fejlesztései ezt valósággá tették. A hamis képek és videók mellett létezik mélyhamis zene is.
A mesterséges intelligencia eszközök hűen reprodukálhatják egy személy énekhangját azáltal, hogy egy mesterséges intelligencia modellt tanítanak a hangmintákra. A művész rajongói vagy az AI-technológia rajongói alkották meg, így egyre többen próbálnak vokális dupla hangokat létrehozni.
Az emberek évek óta próbálják szintetizálni a hangot számítógép segítségével, egészen 1961-ig, amikor az IBM 7094 volt az első számítógép, amely énekelt. Hallhatod a számítógéppel generált hangon énekli Daisy Bellt egy YouTube klipben és próbáld elképzelni, milyen csodálatos volt ez a pillanat.
Gyors előrelépés a 21. századba, és az AI technológia egyaránt javította a szintetizált hang minőségét és lehetővé tette számunkra, hogy olyan dolgokat tegyünk, amelyeket a legtöbben eddig nem hittünk lehetségesnek, például klónozzuk az emberek hangját.
Vessen egy pillantást erre a klipre, amelyen Roberto Nickson alakítja át hangját Kanye West előadóvá és rapperré. A videó megtekintése furcsa érzés, valóban úgy hangzik, mint Kanye, de kényelmetlen is nézni. Anélkül, hogy túl sokat gondolkodnánk azon, hogy a művész mit gondolhat vagy érezhet, és engedély nélkül, úgy tekinthetjük, mint valakinek a hangját.
Daisy Bell számítógépes feldolgozásától eltérően az AI vokál klónozás képes reprodukálni a pontos hasonlóságot valakinek a hangja, amely magában foglalja mindazokat a finom hangszínbeli különbségeket, amelyek segítenek azonosítani valakinek az egyedi énekhangját profil. Licenc nélkül, engedély nélkül készült, de a deepfake zenének komoly problémái vannak, amelyekre később térünk ki.
Hogyan készülnek a Deepfake dalok
Különböző módszereket használnak a mélyhamisított dalok létrehozására, de sok közülük mesterséges intelligencia technológiát használ. Nyílt forráskódú projektek, mint pl SoftVC VITS Singing Voice Conversion projekt a GitHubonPéldául kifejlesztettek egy mesterséges intelligencia-modellt, amely azt teszi, ami a nevében is szerepel: egy hangmintát énekhanggá alakít.
Ez a modell egy létező hangfájlt vesz valaki énekléséről, és átalakítja azt valaki más hangjává. Az olyan dolgok, mint az eredeti hang szövege és ritmusa, megmaradnak, de a hangszín, a hangszín és a személyes hangminőség a képzési adatkészletben meghatározott hangra konvertálódik.
Ne feledje, hogy a dal más részei továbbra is manuálisan készülhetnek, például ütemek és dallamok létrehozása az eredeti előadó stílusában és műfajában.
Kanye West hangjának mély hamisítványának létrehozásához egy harmadik féltől származó adatkészletet kellett bevinni a SoftVC VITS modellbe, amely tartalmazza az igazi Kanye hangmintákat. Az adatkészletet tartalmazó fájlt a szerző azóta eltávolította, ami nem meglepő, figyelembe véve a homályos jogi területet, amely illetéktelen adatkészletekkel járhat.
Bár nem alakították át kereskedelmi alkalmazássá, megtalálhatja a verzióját SoftVC VITS modell a Google Collabon ez felhasználóbarátabb.
Amíg az etikai és jogi határok fel nem lépnek, lehetséges, hogy több könnyen használható hangklónozó alkalmazás felugró ablak – nem különbözik túlságosan a Drayk.it alkalmazástól, amely a szöveges leírást az előadó stílusa szerinti dalokká alakította Gácsér. Később bezárták.
A mélyhamisított zene létrehozásához használt egyéb eszközök közé tartoznak a nagy nyelvi modellek, mint pl ChatGPT, amivel egy híres művész stílusában szöveget lehet írni; és OpenAI Jukebox és Google MusicLM, amelyek generatív mesterséges intelligencia modellek, amelyek teljesen a semmiből képesek nyers hangformátumú zenét létrehozni.
Hallod a különbséget?
A Ghostwriter nevű névtelen felhasználó által készített szám 2023 áprilisában terjedt el a TikTokon, nem kis részben azért, mert Drake és The Weeknd művészek által énekelt szövegeket tartalmazott. Természetesen ezek nem a művészek valódi hangjai voltak, hanem hamisak.
Ha az ének nem lett volna olyan jó másolata az eredetinek, talán nem lett volna telitalálat. Egy kis ásással elég gyorsan kiderítheti, hogy valódi-e vagy sem, de csak a fülét használva csak sejtheti, hogy hiteles-e.
Ha akarod azonosítani egy AI által generált képet legalább néhány vizuális aberrációt kereshet. Ami a hangot illeti, az olyan jelek, mint az alacsony hangminőségű hang vagy a sáv hibái, nem sokat jelentenek, mivel ezek kreatív választások, amelyeket a zenei gyártás során mindig használnak.
Ami még érdekesebb, hogy sok embernek őszintén tetszik a dal, még azután is, hogy rájöttek, hogy nem Drake vagy The Weeknd igazi hangja. A csodálók felhívták a figyelmet arra, hogy nem mindent egyszerűen mesterséges intelligencia generál, hanem igazi készség és munka a dalszöveg megírásában, a ritmusok komponálásában és az egész összeállításában volt.
A szám felkerült a Spotify-ra és a YouTube-ra, mielőtt a napokban levették volna, de nem azelőtt, hogy a rajongók letöltötték volna a dalt mp3-ként. Továbbra is megtalálhatja a dal másolatait az interneten, ha rákeres a „Heart On My Sleeve, Drake ft. A hét".
Hamarosan szinte lehetetlen lesz észrevenni a különbséget a mesterséges intelligencia által generált énekklónok és a valódi emberi hang között. Ezt szem előtt tartva az emberek megkérdőjelezik, hogy ez az AI technológia jó felhasználása-e, vagy akár legális felhasználása.
Problémák a Deepfake zenével
Egyrészt az emberek szívesen hallgatják kedvenc előadóik rajongói által készített összeállításait, és tiszteletben tartják azt a kreativitást, amely a valósággá alakításában jár. De a vokális klónok létrehozásának képessége elsősorban olyan adatkészleteken múlik, amelyek engedélyezettek vagy nem.
Engedély nélkül egy személy hangmintáit egy adatkészletbe gyűjtik, amelyet azután az AI hangkonverziós modell betanításához használnak fel. Hasonló a problémához művészek, akik szeretnék eltávolítani képeiket az edzési adatkészletekből amelyeket olyan mesterséges intelligencia képgenerátorok képzésére használnak, mint a Dall-E vagy a Midjourney.
A szerzői jog sem elég felkészült a deepfake zenék kezelésére. 2020-ban Jay-Z művésznek nem sikerült rákényszerítenie a YouTube-ot, hogy vegye le a mesterséges intelligencia által generált hanganyagot, amelyen William Shakespeare „To Be or Not To Be” című dalszövegéből rappelt.
Amikor egy deepfake dalt feltöltenek a Spotifyra vagy a YouTube-ra, felmerül az is, hogy ki keres pénzt. Kell-e pénzt keresni egy olyan dallal, amely szinte pontosan másolja valaki más hangját?
Holly Herndon az egyik művész, aki megpróbált olyan rendszert létrehozni, hogy az emberek kárpótolják őt, cserébe azért, hogy hangmintáját eredeti alkotások készítéséhez használja. Míg más művészek, mint például Nick Cave felszólalt az AI ellen, írás:
A dalok a szenvedésből fakadnak, ami alatt azt értem, hogy a teremtés bonyolult, belső emberi küzdelmén alapulnak, és amennyire én tudom, az algoritmusok nem érzik.
Néha, Az AI által generált szövegből hiányozhat a kreativitás összességében mégis felkerülnek az internetre. A mesterséges intelligencia sok rossz zenét eredményezhet, amelyekhez nagyon kevés erőfeszítést fordítottak.
Az egyensúly megtalálása a zene és a mesterséges intelligencia között
A mélyhamisított zenét mesterséges intelligencia eszközök és AI modellek segítségével hozzák létre, amelyeket jogosulatlan adatkészletekre tanítottak. Egyes modellek nyílt forráskódúak és szabadon hozzáférhetők, míg másokat megpróbáltak felhasználóbarát alkalmazásba csomagolni.
Ahogy egyre többen találkoznak hamisított zenei modellekkel vagy alkalmazásokkal, érdemes elgondolkodni az előadóra gyakorolt hatáson. A képzési adatkészletekhez való hozzájárulás megszerzése és a művész kompenzációja csak néhány az AI zenetechnológiával kapcsolatos problémák közül.