A mesterséges intelligencia megtéveszthet bennünket, hogy összetévesztjük a generált művészetet valódi fotókkal. Szóval miért jelentenek ekkora kihívást a kezek?

Az AI-generátorok a szemünk láttára fejlődnek ijesztő ütemben, de még mindig vannak hibáik. Furcsa részleteket felfedezni a mesterséges intelligencia képeken valójában nagyon vicces. Ezért vált a Midjourney kezek forró téma, ami sok motornál gyakori probléma.

Nézzük meg, miért kihívást jelentenek annyira a kezek az AI képgenerátorok számára. A programozóik már javítják ezt a mémértékű problémát, de érdekes belegondolni, hogyan tanul a mesterséges intelligencia, nem beszélve arról, hogy mi áll az útjába.

Miért keverték össze a mesterséges intelligencia által generált kezek?

Bárki, aki mesterséges intelligencia motorokat használ képek készítésére, észrevehette, hogy a kezek ritkán jönnek ki jól, de a probléma akkor fordult elő, amikor egy csomó "fotó" megjelent a Twitteren.

Közelebbről megvizsgálva, az emberek furcsa kezei mesterséges intelligencia által generált képekként adták át őket. Az a tény, hogy ez Midjourney kézi kísérlete volt, még érdekesebbé tette a helyzetet.

Az egyik legjobb mesterséges intelligencia-motor nem tudott megbirkózni az emberi kéz bonyolultságával, ezért a Midjourney és versenytársai képességeit próbára tették. Igaz, még a DALL-E is hajlamos az irreális ujjakra és körmökre.

A felhajtás aránytalan volt, tekintve, hogy a mesterséges intelligencia által generált kezek mindig is problémát jelentettek, de az extra figyelem a Midjourney v5 a v4 javítása érdekében.

Az új verzió a kézi dizájn fejlesztésére irányult, ami egyértelműen jelzi, hogy a mesterséges intelligencia mérnökei odafigyeltek a vidám felhajtásra, és úgy döntöttek, hogy frissítik a szoftver képességeit.

Más motorok lassan követik Midjourney példáját, szóval az AI művészet javítása Photoshoppal felbecsülhetetlen értékű készség marad. A programozók számára a fő akadály az, hogy mennyire bonyolult a mesterséges intelligencia képzése meggyőző kezek rajzolására.

Miért küzdenek az AI képgenerátorok a kezükkel?

Az AI-motorok generatív ellenséges hálózatokat (GAN) vagy Stable Diffusion-t használnak a képek előállításához. Mindkét technológia kiterjedt forrásanyagokat, képzést és feldolgozási teljesítményt igényel még a legalapvetőbb műalkotások létrehozásához is.

Mivel a már meglévő képek központi szerepet töltenek be egy mesterséges intelligencia képzésében, a programozóknak több ezer, ha nem millió képpel kell ellátniuk szoftvereiket. felszólítások mellett – a folyamat újra és újra megismétlése, amíg a motor meg nem érti, hogy egy adott szó mire utal, és hogyan ábrázolja azt. tárgy.

De a forrásképek, amelyekről a mesterséges intelligencia tanul, főként 2D-sek, ahol a kezek különböző pozíciókban vannak ábrázolva. Akár egyenes, akár göndör, öt vagy három ujjat mutat.

A nap végén egy gép valójában nem érti a kezek fogalmát, és a képeken, amelyekből tanul, nem mindig jelenítik meg elég egyértelműen vagy következetesen a kezek. Ezért lehetnek olyan csúnyák a Midjourney kezek: az AI zavarodottsága.

Érvényes, mint Elon Musk aggodalmai a mesterséges intelligencia fejlesztésével kapcsolatban Lehetséges, hogy a technológia egyes részein még sokat kell tanulni. Akadályaik pedig túlmutatnak a kezek elégtelen példáján.

Egyéb okok, amelyek miatt az AI képgenerátorok lassan fejlődnek

Ránéz Midjourney modelljeiA v5 fejlett koherenciát kínál a szöveges promptok és az előállított képek között, valamint nagyobb felbontást és további eszközöket kínál. De az ilyen eredmények nem olcsók.

Ahhoz, hogy egy mesterséges intelligenciát arra tanítsanak, hogy jobb kézzel dolgozzon, jobb képeket kell készítenie, különösen 3D-ben. Ez azt jelenti, hogy sok időt és munkaerőt fordítanak a folyamatokra, a forrásanyagok beszerzésétől a kódolás javításáig és a képzés megismétléséig, amíg a mesterséges intelligencia megfelelővé nem válik.

A szoftver még ekkor is hibázhat az egyébként lenyűgöző műalkotásokban. Amellett, hogy hatalmas és összetett munka, drága. Szóval, ne számíts ingyenes AI szöveg-kép generátorok hogy még csak feljebb lépjen a Midjourney kaliberére.

Leegyszerűsítve, a mesterséges intelligencia-motorokkal kapcsolatos probléma nem csak abban rejlik, hogy ezek a számítógépes programok nem képesek teljesen megérteni, hogyan néznek ki vagy működnek az olyan emberi funkciók, mint a kéz és a láb. Az is függ, hogy mennyibe kerül, valamint a technológia hozzáférése a 3D-s képekhez és a gépi tanulási technikákhoz, amelyek segítségével a generátorok valósághűbb képet kaphatnak az őket körülvevő világról.

Az AI képgenerátorok nem fognak örökké küzdeni

A kéz egy trükkös koncepció a mesterséges intelligencia számára, hogy körbefonja a bináris fejét, de a probléma megoldásai már dolgoznak. A Midjourney, a DALL-E 2 és más platformok végül képesek lesznek minimálisra csökkenteni a furcsa ujjakat, ha nem teljesen kiirtani.

A más mesterséges intelligenciaterületeken elért előrelépések biztosítják a technológia folyamatos fejlődését, és a fejlesztők mindig új módszereket tanulnak az alkalmazására és fejlesztésére.