Hónapokkal ezelőtt, ha képet akartál alkotni valamiről, tudnod kellett vázlatot készítened, festened, vagy használnod kellett valamelyik photoshopping eszközt, amelyről mások folyamatosan beszélnek. 2022 után azonban minden megváltozott, mindezt az AI-nak köszönhetően – igen, mint a „mesterséges intelligenciában”.

Ahelyett, hogy megpróbálnák uralni a világot, a művészi hajlamú mesterséges intelligencia eszközök képpé varázsolhatnak bármit, amit leírtál nekik.

Jöjjön velünk, amikor belépünk az AI-alapú szövegvizualizáció világába, és nézze meg, hogyan használhatja ezeket az eszközöket arra, hogy gondolatait valóságos képekké alakítsa, pusztán begépelve, amit gondol.

Dall-E: Az OpenAI GPT-3 művészi oldala

Az első mesterséges intelligenciával hajtott eszközök, amelyek népszerűvé váltak, az OpenAI GPT-3-án alapultak. Ennek egyik oka a projekt nyitottsága volt a külső hozzáférésre, ami néhány olyan javaslathoz vezetett A GPT-3 a kreatív munka jövője.

Ma már használhatja a hivatalos eszközöket, amelyeket itt találhat

Az OpenAI béta webhelye vagy harmadik féltől származó megoldások, amelyek kihasználják annak nyelvi szuperképességét. Például megkérheti a GPT-3-at, hogy készítsen vázlatot egy bejegyzéshez, válaszoljon egyszerű kérdésekre, vagy akár átdolgozzon vagy fordítson le szöveget.

2022-ben az OpenAI felfedte, hogy a GPT-3 ugyanolyan jó képek készítésében. A DALL-E projekt, a Pixar WALL-E filmjének és Dali nevének a játéka, a GPT-3-at nem szöveggel való munkára használja, hanem képalkotó motorként.

Csakúgy, mint a GPT-3 és a szöveg esetében, a DALL-E sem egy kreatív zseni, aki a levegőből materializálja a képeket. Ehelyett több millió képre „kiképezték”, amelyek már léteznek az interneten. A mesterséges intelligencia ereje abban rejlik, hogy elemzi ezeket a képeket, elemeket vesz ki belőlük, finomítja, alakítja, módosítja, és végül új képpé egyesíti őket.

Ez legalább egy leegyszerűsített változata annak, ami a háttérben történik. A legtöbb ember csak azzal foglalkozik, amit maga előtt lát, ez pedig egy szövegdoboz, ahová beírhat valamit, és néhány perc múlva láthatja, hogy az képpé alakul.

A Google képválasza

A Google a mesterséges intelligencia-kutatás három legfontosabb „szereplője” közé tartozik. Ennek ellenére fejlődésük nem könnyen érzékelhető, és a termékekbe való implementálása sem olyan elérhető, mint az OpenAI kínálata.

A Google AI egyik első széles körben elérhető megvalósítása a Google Dokumentumokban és a Gmailben volt, intelligensebb automatikus kiegészítés és javaslatok formájában, amelyeket Smart Compose néven ismerünk. Nem merülünk bele a részletekbe, mivel korábban már foglalkoztunk vele Smart Compose (és hogyan használhatod).

Amikor ezek a funkciók aktívak, a Google internetes alkalmazásai összehasonlítják a felhasználó által beírt szöveget azzal, amit mások milliói írtak a múltban. Aztán azt sugallja, hogy mit írtak utána.

Ez a bizonyíték arra, hogy annak ellenére, amit szeretünk hinni, nem vagyunk annyira mások. Ha 100 emberből 99 azt írja be, hogy „majd találkozunk”, akkor valószínűleg mi is ezt folytatnánk.

Mindannyian használtunk valamilyen automatikus kiegészítést, még a "dumbphone" korszak T9 prediktív szöveges rendszerében is. Ezért a Google mesterséges intelligencia eszközei nem tűntek olyan intelligensnek, mint az OpenAI GPT-3. Nem érezték sokkal több használatban, mint egy jobb T9 rendszert, amelyet a 21. századra fejlesztettek. És ezért is volt némi sokkoló Imagen felfedése.

A szteroidokon használt DALL-E-hez hasonlóan az Imagen egy szövegvizualizációs eszköz. A ma elérhető kínálat alapján az Imagen "tisztább" és élénkebb képeket tud készíteni, miközben tudja, hogyan kell kezelni az olyan fejlett funkciókat, mint a diffúzió és az átlátszóság.

Sajnos a cikk írásakor az Imagenhez való hozzáférés korlátozott maradt, így nem tudtuk kipróbálni.

DALL-E Mini és barátai: Üzleti nyitva tartás

Még nem férhet hozzá szabadon a DALL-E-hez és az Imagen-hez. Ennek ellenére számos alternatíva elérhető már, ha az AI-alapú szöveges képgenerálással szeretne bolondozni.

Szem előtt tartva, hogy ezek még a kezdeti idők, és az általuk kínált eredmények vagy felhasználói élmény távolról sem optimálisak, érdemes megnézni néhányat az alábbiak közül.

Mémek készítése Dall-E Minivel

A megfelelőnél jobb eredmények és a felhasználóbarát felület kombinációjának, de ami még fontosabb, széles körű elérhetőségének köszönhetően a DALL-E mini az egyik legnépszerűbb mesterséges intelligencia-szövegvizualizáló lett.

Korántsem tökéletes, a DALL-E mini eredményei néha elvontabbak lehetnek a tervezettnél.

Máskor előfordulhat, hogy nem sikerül létrehozni azt, amire gondoltál, de elég közel kerülhet.

A robbanásszerű népszerűség után a DALL-E mini alkotói új otthonba költöztették új márkanév alatt. Most megtalálja a DALL-E mini legújabb verzióját, mint Craiyon saját honlapján.

A Craiyon használata ma olyan egyszerű, mint egy meglévő kép online keresése. Látogassa meg webhelyét, írja be a kép leírását a szövegmezőbe, és nyomja meg az Enter billentyűt. Egy idő után az eredmények megjelennek a képernyőn.

A feltűnő az, hogy a Craiyon és a hasonló eszközök milyen jók a vizuális stílusok utánzásában. Például arra kértük, hogy varázsoljon képeket egy gördeszkán ülő kölyökkutyáról:

Ezután a pontos kifejezést használtuk, de utána hozzáadtunk egy "Pixar stílust". Egy idő után Craiyon „rajzfilmszerűbb” képek rácsát mutatta, amelyek közelebb álltak ahhoz, amit mi a Pixar sugárkövető grafikájaként érzékelünk szeretett filmjeikben.

A Craiyon még jobb eredményeket hozott, amikor a „Pixar style” szót „anime style”-ra cseréltük ugyanabban a promptban.

Az anime megjelenése stilizáltabb, mint a Pixar valósághűbb képei, ami úgy tűnik, segített Craiyonnak néhány, már-már használatra kész kép elkészítésében.

Bolondozás a látens diffúzióval

A LAION-400M adatkészleten betanított Latent Diffusion modell egy másik érdekes AI szövegvizualizáló. Használata azonban bonyolultabb is. Online kell futtatnia egy virtuális gépen, és játszania kell a különféle paramétereivel, ahelyett, hogy egyszerűen begépelne egy szövegmezőt. Ennek ellenére könnyebb, mint amilyennek hangzik.

  1. Meglátogatni a Google Latent Diffusion együttműködési terület jelenleg ez az otthona.
  2. Görgessen egy kicsit lejjebb, és vegye észre a Gyors alatti mező Paraméterek. Cserélje le az alapértelmezett promptot arra, amit a képen ábrázolni szeretne.
  3. Választ Futtassa az összeset tól Futásidő menüt, vagy nyomja meg a gombot CTRL + F9.
  4. Ha szeretné az elkészített képeket közvetlenül az eszközből exportálni, válaszoljon pozitívan arra a kérdésre, hogy szeretné-e összekapcsolni a Google Drive-fiókjával. Az eszköznek eltart egy ideig a konfiguráció befejezése, és a folyamat során le kell töltenie néhány fájlt.

Értékeinek növelése a számára Lépések, Iterációk, és Minták_párhuzamosan, részletesebb eredményekhez vezethet. Az eszköz azonban rendkívül igényes erőforrásokat igényel a Google szerverein. Ennek eredményeként összeomolhat, ha túlságosan megnöveli ezeket az értékeket, vagy egy adott kép létrehozásának folyamata a vártnál bonyolultabbá válik.

Érdekes alternatívák

Jelentős időt töltöttünk a DALL-E mini és a Latent Diffusion tesztelésével. Tudományos módszerünk két különálló részből állt. Először is olyan fogalmakat kellett kitalálnunk, amelyek pontosan leírhatóak, mint bolondok. Ezután kérje meg az AI-vizualizálókat, hogy alakítsák őket képekké. A vártnál gyakrabban sikerült nekik, közel állva az általunk elképzelt általános beállításhoz.

Kipróbáltunk néhány elérhető alternatívát ehhez a cikkhez. Továbbra is várjuk a hozzáférést a többiekhez. Néhányat érdemes megnézni (nem meghatározott sorrendben):

  • Midjourney
  • MindsEye béta
  • StarryAI
  • Álom
  • Disco Diffusion

A mesterséges intelligencia által generált művészet felváltja a vizuális művészeteket?

A képgeneráló mesterséges intelligencia által hajtott eszközök bősége és folyamatosan növekvő népszerűsége sokakat arra a következtetésre vezet, hogy a vizuális művészetek hamarosan kihalnak. Mi értelme van időt és energiát fektetni abba, hogy megtanuljon rajzolni, vagy bonyolult szoftvereket használjon a dolgok vizualizálására, amikor egy mesterséges intelligencia gyorsabban (és hamarosan jobban) meg tudja csinálni, mint te?

Ha észrevette, ezek az eszközök mind „adatkészletekre vannak kiképezve”. Magyarán ez azt jelenti, hogy azt teszik, amit csinálnak, annak köszönhetően, hogy az emberek már korábban is megtették ugyanezt.

Ez a cél arra, hogy ezek az eszközök miért nem helyettesíthetik az emberi művészetet, kreativitást és találékonyságot. Ezek utánzók, intelligens replikátorok. Az ember által előállított eredetik nélkül, amelyekre kioktatják őket, nem tudnának semmilyen eredményt készíteni.

Mégis, ez a jelen, és valljuk be, nem tudjuk, mit hoz a jövő. Egyelőre nyugodtan aludhatnak a képzőművészek. A mesterséges intelligencia olyan ütemben fejlődik, azonban a témával foglalkozó számos szakember egyetért abban, hogy nem számít, hogy valóban felváltja-e valaha a hozzád hasonló emberek munkáját. Csak az a kérdés, hogy mikor.

De hé, ez nem minden végzet és komor. Amíg a Skynet munkánkra készül, legalább a hangulatunkat feldobhatjuk azzal, hogy könnyedén készítünk képeket gördeszkán ülő kölykökről!