A Google MusicLM ígéretesnek tűnt azzal a képességével, hogy szöveges üzenetekből zenét generál. De miután próbára tették, nem igazán sikerült.
2023 januárjában a Google bejelentette a MusicLM-et, egy kísérleti mesterséges intelligencia eszközt, amely szöveges leírások alapján képes zenét generálni. A hír mellett a Google egy lenyűgöző kutatási tanulmányt is kiadott a MusicLM számára, amely sok embert elkápráztatott a levegőből való zene varázsolásának képességétől.
Szöveges felszólításra a modell megígérte, hogy nagy hűségű zenét készít, amely mindenféle leírást tartalmaz a műfajtól a hangszeren át a híres műalkotásokat leíró absztrakt feliratokig. Most, hogy a MusicLM megnyílt a nyilvánosság számára, úgy döntöttünk, hogy próbára tesszük.
A Google kísérlete AI zenegenerátor létrehozására
A „relaxing jazz”-hez hasonló szöveges felszólítás lejátszásra kész számmá alakítása vitathatatlanul a mesterséges intelligencia zenei kísérleteinek szent grálja. Hasonlóan a híres mesterséges intelligencia képgenerátorokhoz, mint például a Dall-E vagy a Midjourney, egy csepp zenei know-how-val sem kell rendelkeznie egy dallamú és ütemű szám létrehozásához.
2023 májusában azok, akik regisztráltak a Google AI Test Kitchen programjára, először próbálhatták ki a demót. Egy felhasználóbarát weboldal és néhány – elektronikus és klasszikus – irányadó szabály fogadja hangszerek működnek a legjobban, és ne felejtsd el megadni a „hangulatot” – egy zenerészlet előállítása elképzelhetetlenül könnyű.
A sebesség egyike azon kevés dolgoknak, amelyeket a MusicLM valóban nyújt, a viszonylag nagy pontosságú minták mellett. Az igazi tesztet azonban nem csak stopperrel kellett mérni. A MusicLM képes valódi, hallgatható zenét produkálni néhány szó alapján? Nem egészen (erre hamarosan kitérünk).
A MusicLM használata a Google AI tesztkonyhájában
A MusicLM használata egyszerű, feliratkozhat a várólistára A Google AI tesztkonyhája ha meg akarod adni.
A webalkalmazásban megjelenik egy szövegmező, amelyben néhány szóból néhány mondatig összeállíthat egy felszólítást, amely leírja, hogy milyen zenét szeretne hallani. A legjobb eredmény érdekében a Google azt tanácsolja, hogy „legyen nagyon leíró”, hozzátéve, hogy próbálja meg belefoglalni a zene hangulatát és érzelmeit.
Ha készen áll, nyomja meg az Enter billentyűt a feldolgozás megkezdéséhez. Körülbelül 30 másodpercen belül két hangrészlet válik elérhetővé a meghallgatásra. A kettő közül lehetősége van arra, hogy trófeát ítéljen oda a legjobb mintának, amely megfelel az Ön felszólításának, ami viszont segíti a Google-t a modell képzésében és teljesítményének javításában.
Milyen a MusicLM hangzása
Az emberek legalább 40 000 éve zenélnek anélkül, hogy határozott elképzelésük lenne arról, hogy a zene a nyelv fejlődése előtt, után vagy azzal egy időben jött-e. Így bizonyos szempontból nem meglepő, hogy a MusicLM nem törte fel teljesen ennek az ősi univerzális művészetnek a kódját.
A Google MusicLM kutatási cikke azt javasolta, hogy a MusicLM zenét generáljon a híres műalkotásokhoz tartozó feliratokból, és kövesse utasításokat, mint például a műfaj vagy a hangulat zökkenőmentes megváltoztatása, különböző sorrendet követve felszólítja.
Mielőtt azonban hozzáfogtunk volna az ilyen magas megrendelésekhez, rájöttünk, hogy a MusicLM-nek számos alapvető problémát kellett leküzdenie.
A tempóhoz való ragaszkodás nehézségei
Minden zenész legalapvetőbb feladata, hogy időben játsszon. Más szóval, ragaszkodj a tempóhoz. Meglepő módon a MusicLM az esetek 100%-ában nem képes erre.
Valójában 10 alkalommal ugyanazt a promptot használva, amely 20 zeneszámot eredményez, csak három volt időben. A fennmaradó 17 minta gyorsabb vagy lassabb volt, mint a megadott tempó, amelyet "percenkénti ütemben" írtak, ami egy széles körben használt kifejezés a zene leírására.
Ebben a példában a „szóló klasszikus zongora 80 ütem/perc sebességgel, békés és meditatív” felszólítást használtuk. Közelebbről hallgatva a zene gyakran felgyorsult vagy lelassult a kis mintahosszon belül.
A zenéből is hiányzott az erős ütem, és úgy szólt, mintha valaki a darab közepén elütötte volna a játékot. Függetlenül attól, hogy ez szándékos volt-e vagy sem, megnehezíti annak megítélését, hogy a MusicLM valóban képes-e megfelelő elejét vagy végét komponálni egy zeneműnek az ütemhez való ragaszkodás mellett.
Véletlenszerű hangszerválasztás
Talán a MusicLM még nem tanult meg szigorú időzítéssel játszani, ezért áttértünk egy másik általános zenei paraméterre. Azt akartuk látni, hogy teljesíti-e kérésünket bizonyos eszközökre.
Számos különböző promptot írtunk, amelyekben olyan leírások szerepeltek, mint a "Szóló szintetizátor" és a "Szóló basszusgitár". Mások nagyobb együttesek voltak, mint a "Vonósnégyes" vagy a "Jazz band". Összességében 50:50 esélynek tűnt, hogy megkapja, amit kért.
Az egyik elmélet szerint a modell egyes hangszereket népszerű zenei műfajokkal társít. Vegyük például a „Szóló szintetizátor, akkordmenet. Élénk és vidám." Ahelyett, hogy önálló szintetizátor hangzást kapott volna, a MusicLM egy dobbal és basszusgitárral kiegészített elektronikus számot készített.
Lehetséges, hogy a modell egyszerűen nem rendelkezik elegendő adattal és elegendő képzéssel ahhoz, hogy megértse az adott műszerre vonatkozó kérést.
Az ének nem szerepel az egyenletben
Az akkori korlátozások szerint a modell nem gyártott éneket tartalmazó zenét. A MusicLM bonyolult szerzői jogi problémái és bugyuta énekhangja valószínűsíthető tényezője annak, hogy a Google miért döntött úgy, hogy biztonságosan játssza ezt a korlátozást.
De miután egy ideig kísérleteztünk a MusicLM-mel, rájöttünk, hogy a Google nem tudja pontosan szabályozni a modell kimenetét. Furcsa módon egy olyan felszólítás, mint az „akusztikus gitár”, olyan számot eredményezne, amely szellemszerű énekhangot tartalmazott a háttérben, amely tompa és távoli hangzású.
Bár ez nem gyakori jelenség, mégis elgondolkodtat azon, hogy a MusicLM képes-e meggyőző énekhangot létrehozni.
Olyan szoftverekkel, mint a VOCALOID és a Synthesizer V, amelyek vezető szerepet töltenek be AI által támogatott énekszintézis technológia, ha a jelenlegi modellből kihagyjuk az énekhangot, elgondolkodunk azon, hogy vajon nem elég jó-e a verseny a meglévő technológiával. Lehet, hogy a MusicLM-nek még hosszú utat kell megtennie ahhoz, hogy a zenészek énekeljék a dicséretet.
Az AI zenegenerátorok jövője
Míg a MusicLM a generatív mesterséges intelligencia zenei technológiát előremozdította, vissza kell mennie az iskolába, és meg kell tanulnia még néhány dolgot, mielőtt gyakorlati munkát végezhet a zeneiparban.
Korábban a generatív mesterséges intelligencia zene legjobb próbálkozása az OpenAI JukeboxAI nevű modellje volt. Nem volt éppen használatra kész állapotban, és bő kilenc órába telt, mire csak egy percnyi zenét rendereltek.
Erőfeszítéseiért valószínűleg visszakaphat egy igazán idegen hangzású, hangtorzításokkal és műalkotásokkal teli számot. Ami viszont azt illeti, nem fogsz unatkozni hallgatni a Jukebox által előidézett bizarr alkotásokat.
Ennek fényében a MusicLM jelentős előrelépést tett a felhasználóbarát AI zenegenerátor felé. Szinte megbocsáthatnánk a modellnek véletlenszerű kimeneteit, ha abba belegondolunk, milyen rendkívül bonyolult a zene nyers audio formában történő generálása.
A modell működésbe helyezése után azonban a MusicLM félkésznek érzi magát, összehasonlítva azzal, amit a Google az első kutatási cikkében közölt. Egy mesterséges intelligencia képgenerátor ritkán téveszti el az Apple képét, hasonlóképpen egy mesterséges intelligencia-zenegenerátornak is jó néhány alapvető dolgot, például a tempót és a hangszereket.
A Google MusicLM alulmúlja a várakozásokat
Mivel a technológiai cégek versenyeznek egymással a mesterséges intelligencia frontján, a MusicLM úgy érzi, mintha nyilvános próbatételekbe került volna, mielőtt készen lett volna. Ahelyett, hogy az alapokat helyesen kezelné, a modell sokkal homályosabb és szubjektívebb megközelítést alkalmaz a zene előállításához.
A Google bátoríthat arra, hogy legyen konkrét a felszólítás, de nem tudja jól kezelni a tempót, és nem garantált, hogy minden alkalommal megkapja azokat a hangszereket, amelyeket kért. A MusicLM érdekes lehet, és jól demonstrálja a mesterséges intelligencia erőteljes fejlődését, de ha a zene a végcél, akkor még hosszú út áll előttünk.