A nullapontos tanulás számos problémát megold a gépi tanulásban, de hogyan működik, és hogyan teszi jobbá az AI-t?

Kulcs elvitelek

  • Az általánosítás elengedhetetlen a mély tanulásban, hogy az új adatokkal pontos előrejelzéseket biztosíthassunk. A nullapontos tanulás segít ennek elérésében azáltal, hogy lehetővé teszi a mesterséges intelligencia, hogy a meglévő tudást felhasználva pontos előrejelzéseket készítsen új vagy nem látott osztályokról címkézett adatok nélkül.
  • A nullapontos tanulás azt utánozza, ahogyan az emberek megtanulják és feldolgozzák az adatokat. További szemantikai információkkal egy előre betanított modell pontosan azonosítani tudja az új osztályokat, ahogy az ember megtanulhatja azonosítani az üreges testű gitárt annak jellemzőinek megértésével.
  • A nullapontos tanulás javítja az AI-t azáltal, hogy javítja az általánosítást, a méretezhetőséget, csökkenti a túlillesztést, és költséghatékony. Lehetővé teszi a modellek nagyobb adathalmazokra való képzését, több tudás megszerzését az átviteli tanulás révén, jobb kontextuális megértést, és csökkenti a kiterjedt címkézett adatok iránti igényt. A mesterséges intelligencia fejlődésével a nullapontos tanulás még fontosabbá válik a különféle területeken jelentkező összetett kihívások kezelésében.
    instagram viewer

A mély tanulás egyik legnagyobb célja olyan modellek képzése, amelyek általános ismereteket szereztek. Az általánosítás elengedhetetlen, mert biztosítja, hogy a modell értelmes mintákat tanuljon, és pontos előrejelzéseket vagy döntéseket tudjon hozni, amikor új vagy nem látott adatokkal szembesül. Az ilyen modellek betanítása gyakran jelentős mennyiségű címkézett adatot igényel. Az ilyen adatok azonban költségesek, munkaigényesek és néha lehetetlenek is lehetnek.

Ennek a szakadéknak az áthidalására a nullapontos tanulást valósítják meg, lehetővé téve a mesterséges intelligencia meglévő tudásának felhasználását, hogy meglehetősen pontos előrejelzéseket készítsen a címkézett adatok hiánya ellenére.

Mi az a Zero-Shot tanulás?

A nullapontos tanulás az átviteli tanulási technika sajátos típusa. Arra összpontosít, hogy egy előre betanított modellt használjon az új vagy soha nem látott osztályok azonosítására, egyszerűen az új osztály adatait leíró extra információk megadásával.

Egy modell bizonyos témákra vonatkozó általános ismereteit felhasználva, és extra szemantikát ad neki arról, hogy mit kell keresnie, képesnek kell lennie arra, hogy elég pontosan meghatározza, hogy melyik tárgyat kell azonosítania.

Tegyük fel, hogy azonosítanunk kell egy zebrát. Azonban nincs olyan modellünk, amely képes lenne azonosítani az ilyen állatokat. Tehát kapunk egy már létező modellt, amely arra van kiképezve, hogy azonosítsa a lovakat, és elmondja a modellnek, hogy a fekete-fehér csíkos lovak zebrák. Amikor zebrák és lovak képeivel kezdünk következtetni a modellre, jó eséllyel a modell minden állatot helyesen azonosít.

Sok mély tanulási technikához hasonlóan a nullapontos tanulás is azt utánozza, ahogyan az emberek megtanulják és feldolgozzák az adatokat. Az emberekről köztudott, hogy természetes, nulla-shot tanulók. Ha azt a feladatot kapta, hogy keressen egy üreges testű gitárt egy zeneboltban, akkor gondjai lehetnek a kereséssel. De ha egyszer elmondom, hogy az üreges test alapvetően egy gitár, amelynek egyik vagy mindkét oldalán f-alakú lyuk van, valószínűleg azonnal talál egyet.

Egy valós példához használjuk a nullapontos besorolási alkalmazást Nyílt forráskódú LLM hosting webhely Hugging Face a clip-vit-large modell használatával.

Ezen a képen kenyér képe látható egy élelmiszerboltban, egy etetőszékre szíjazva. Mivel a modellt nagy mennyiségű képre képezték ki, a modell valószínűleg azonosítani tudja a fotón szereplő minden egyes elemet, például kenyeret, élelmiszereket, székeket és biztonsági öveket.

Most azt akarjuk, hogy a modell korábban nem látott osztályok segítségével osztályozza a képet. Ebben az esetben az újszerű vagy nem látott osztályok a következők lennének: „Nyugodt kenyér”, „Biztonságos kenyér”, „Ülő kenyér”, „Gyári élelmiszerbolt” és „Biztonságos élelmiszerbolt”.

Vegye figyelembe, hogy szándékosan használtunk nem mindennapi, nem látott osztályokat és képeket, hogy bemutassuk a képen a nullapontos besorolás hatékonyságát.

A modell következtetése után körülbelül 80%-os biztonsággal tudta besorolni, hogy a legmegfelelőbb osztályozás a A kép a "Biztonságos kenyér" volt. Ez azért valószínű, mert a modell szerint az etetőszék inkább a biztonságot szolgálja, mint az ülés, a pihenés, ill vezetés.

Fantasztikus! Én személy szerint egyetértek a modell kimenetelével. De pontosan hogyan jutott a modell ehhez a teljesítményhez? Íme egy általános áttekintés a nullapontos tanulás működéséről.

Hogyan működik a Zero-Shot tanulás

A nullapontos tanulás segíthet egy előre betanított modellnek új osztályok azonosításában, címkézett adatok megadása nélkül. A zero-shot tanulás a legegyszerűbb formájában három lépésben történik:

1. Készítmény

A nullapontos tanulás háromféle adat elkészítésével kezdődik

  • Látott osztály: Az előre betanított modell betanításához felhasznált adatok. A modell már látott osztályokat biztosít. A zero-shot tanulás legjobb modelljei azok a modellek, amelyeket a modell által azonosítani kívánt új osztályhoz szorosan kapcsolódó osztályokon képeztek ki.
  • Látatlan/újszerű osztály: A modell betanítása során soha nem használt adatok. Ezeket az adatokat magának kell összegyűjtenie, mivel ezt nem tudja lekérni a modellből.
  • Szemantikai/kiegészítő adatok: Extra adatbitek, amelyek segíthetik a modellt az új osztály azonosításában. Ez lehet szavakban, kifejezésekben, szóbeágyazásokban vagy osztálynevekben.

2. Szemantikus leképezés

A következő lépés a láthatatlan osztály jellemzőinek feltérképezése. Ez szóbeágyazások létrehozásával és egy szemantikai térkép készítésével történik, amely összekapcsolja a nem látott osztály attribútumait vagy jellemzőit a megadott segédadatokkal. AI transzfer tanulás sokkal gyorsabbá teszi a folyamatot, mivel sok, a láthatatlan osztályhoz kapcsolódó attribútum már leképezésre került.

3. Következtetés

A következtetés a modell felhasználása előrejelzések vagy kimenetek generálására. A zero-shot képosztályozásnál szóbeágyazások generálódnak az adott képbemeneten, majd ezeket ábrázolják és összehasonlítják a segédadatokkal. A bizonyosság mértéke a bemeneti és a megadott segédadatok hasonlóságától függ.

Hogyan javítja a Zero-Shot Learning az AI-t?

A nullapontos tanulás javítja az AI-modelleket azáltal, hogy számos kihívást kezel a gépi tanulásban, többek között:

  • Továbbfejlesztett általánosítás: A címkézett adatoktól való függés csökkentése lehetővé teszi a modellek nagyobb adathalmazokra való betanítását, javítva az általánosítást, és a modell robusztusabbá és megbízhatóbbá válik. Ahogy a modellek egyre tapasztaltabbak és általánosabbak lesznek, még az is lehet, hogy a modellek megtanulják a józan észt nem pedig az információelemzés tipikus módja.
  • Méretezhetőség: A modellek folyamatosan képezhetők, és a transzfertanulás révén több tudásra tehetnek szert. A vállalatok és a független kutatók folyamatosan fejleszthetik modelljeiket, hogy a jövőben még alkalmasabbak legyenek.
  • Csökkentett túlszerelés esélye: Túlillesztés történhet, ha a modellt egy kis adathalmazra tanítják, amely nem tartalmaz elég változatosságot az összes lehetséges bemenet megjelenítéséhez. A modell zero-shot tanulással történő betanítása csökkenti a túlillesztés esélyét azáltal, hogy a modellt úgy oktatja, hogy jobban megértse a tantárgyakat.
  • Költséghatékony: Nagy mennyiségű címkézett adat megadása időt és erőforrásokat igényelhet. A nullapontos átviteli tanulás segítségével egy robusztus modell betanítása sokkal kevesebb idővel és címkézett adatokkal végezhető el.

A mesterséges intelligencia fejlődésével az olyan technikák, mint a zero-shot tanulás, még fontosabbá válnak.

A Zero-Shot Learning jövője

A nullapontos tanulás a gépi tanulás elengedhetetlen részévé vált. Lehetővé teszi a modellek számára az új osztályok felismerését és osztályozását kifejezett képzés nélkül. A modellarchitektúrák, az attribútum-alapú megközelítések és a multimodális integráció folyamatos fejlődésével a nullapontos tanulás jelentősen hozzájárulnak ahhoz, hogy a modellek sokkal alkalmazkodóbbak legyenek a robotika, az egészségügy és a számítógépes kihívások kezelésében látomás.