Valószínűleg hallott már az OpenAI GPT-jéről, de nem ők az egyetlen LLM-ek a blokkban.
Kulcs elvitelek
- Az OpenAI GPT-4 a legfejlettebb és legszélesebb körben használt nagy nyelvi modell, 1,76 billió paraméterrel és multimodális képességekkel.
- Az Anthropic's Claude 2 felveszi a versenyt a GPT-4-gyel a kreatív írási feladatokban, és annak ellenére tartja magát, hogy kevesebb erőforrása van.
- A Google PaLM 2, bár nem egy GPT-4 gyilkos, egy erőteljes nyelvi modell, erős többnyelvű és kreatív képességekkel. A Falcon-180B egy nyílt forráskódú modell, amely a kereskedelmi óriásokkal vetekszik, és lábujjhegyen áll a GPT-3.5-tel.
Itt a mesterséges intelligencia szezonja, és a technológiai cégek olyan nagy nyelvi modelleket aprítanak ki, mint a pékségből származó kenyér. Az új modellek gyorsan megjelennek, és túl nehéz nyomon követni.
Az új kiadások özöne közepette azonban csak néhány modell jutott fel a csúcsra, és bizonyult igazi versenyzőnek a széles nyelvi modelltérben. 2023 végéhez közeledve összegyűjtöttük a hat leglenyűgözőbb nagy nyelvi modellt, amelyeket érdemes kipróbálnia.
1. OpenAI GPT-4
A GPT-4 az eddigi legfejlettebb nyilvánosan elérhető nagynyelvi modell. Az OpenAI által kifejlesztett és 2023 márciusában megjelent A GPT-4 a Generative Pre-train Transformer sorozat legújabb iterációja ami 2018-ban kezdődött. Óriási képességeivel a GPT-4 a világ egyik legszélesebb körben használt és legnépszerűbb nagynyelvi modelljévé vált.
Bár hivatalosan nem erősítették meg, a források becslése szerint a GPT-4 elképesztően 1,76 billió paramétert tartalmazhat, körülbelül tízszer nagyobb, mint elődje, a GPT-3.5, és ötször nagyobb, mint a Google zászlóshajója, a PaLM 2. Ez a hatalmas lépték lehetővé teszi a GPT-4 multimodális képességeit, lehetővé téve a szöveg és a képek feldolgozását bemenetként. Ennek eredményeként a GPT-4 a szövegen kívül képes értelmezni és leírni a vizuális információkat, például diagramokat és képernyőképeket. Multimodális jellege a valós adatok emberszerűbb megértését teszi lehetővé.
A tudományos benchmarkok tekintetében a GPT-4 jelentősen felülmúlja a többi kortárs modellt a különböző tesztek során. Míg a benchmarkok önmagukban nem demonstrálják teljes mértékben a modell erősségeit, a valós felhasználási esetek azt mutatták, hogy a GPT-4 kivételesen ügyes a gyakorlati problémák intuitív megoldásában. A GPT-4 számlázása jelenleg havi 20 USD elérhető a ChatGPT Plus előfizetésén keresztül.
2. Anthropic's Claude 2
Bár nem olyan népszerű, mint a GPT-4, az Anthropic AI által kifejlesztett Claude 2 több területen is megfelel a GPT -4 technikai mércéjének és a valós teljesítménynek. Egyes szabványos teszteken, beleértve a kiválasztott vizsgákat is, a Claude 2 jobban teljesít, mint a GPT-4. A mesterséges intelligencia nyelvi modellje ezenkívül a GPT -4 8k és 32k token modelljéhez képest rendkívül jó kontextusablakkal rendelkezik, körülbelül 100 000 tokennel. Bár a nagyobb kontextushossz nem mindig jelent jobb teljesítményt, a Claude 2 kibővített kapacitása egyértelmű előnyökkel jár, mint például a teljes, 75 000 szavas könyvek elemzése céljából.
Összességében a GPT-4 továbbra is jobb, de házon belüli tesztelésünk azt mutatja, hogy a Claude 2 felülmúlja azt több kreatív írási feladatban. A Claude 2 a programozásban és a matematikai készségekben is a GPT-4 nyomába ered az értékeléseink alapján, de jeleskedik abban, hogy emberszerű, kreatív válaszokat ad. Amikor a listán szereplő összes modellt arra kértük, hogy írjon vagy írjon át egy kreatív darabot, tízből hatszor, a Claude 2 eredményét választottuk a természetes hangzású, emberhez hasonló eredmények miatt. Jelenleg A Claude 2 ingyenesen elérhető a Claude AI chatboton keresztül. Van egy 20 dolláros fizetős csomag is az extra funkciókhoz való hozzáféréshez.
Annak ellenére, hogy az Anthropic Claude 2 AI-modellje kisebb pénzügyi támogatással rendelkezik, mint az olyan óriások, mint az OpenAI és a Microsoft, megállja a helyét a népszerű GPT modellekkel és a Google PaLM sorozatával szemben. Egy kevesebb erőforrással rendelkező mesterséges intelligencia számára a Claude 2 lenyűgözően versenyképes. Ha arra kényszerülünk, hogy fogadjunk, melyik meglévő modellnek van a legnagyobb esélye a GPT-vel való riválisra a közeljövőben, a Claude 2 tűnik a legbiztonságosabb fogadásnak. Jóllehet a finanszírozásban túl van a kezében, a Claude 2 fejlett képességei azt sugallják, hogy még jól finanszírozott behemótok (bár érdemes megjegyezni, hogy a Google számos jelentős mértékben hozzájárult Antropikus). A modell felülmúlja súlycsoportját, és ígéretesnek tűnik feltörekvő kihívóként.
3. OpenAI GPT-3.5
Bár a GPT-4 megjelenése beárnyékolta, a GPT-3.5-öt és 175 milliárd paraméterét nem szabad alábecsülni. A teljesítményre, a pontosságra és a biztonságra összpontosító iteratív finomhangolások és frissítések révén a GPT-3.5 nagy utat tett meg az eredeti GPT-3 modelltől. Bár hiányzik belőle a GPT -4 multimodális képessége, és elmarad a kontextus hosszától és a paraméterek számától, A GPT-3.5 továbbra is nagy teljesítményű, a GPT-4 az egyetlen modell, amely képes felülmúlni teljes körű teljesítményét döntően.
Annak ellenére, hogy a GPT-3.5 a GPT-család másodlagos modellje, megállja a helyét, sőt több viszonyítási alapon is felülmúlja a Google és a Meta zászlóshajó modelljeit. A matematikai és programozási készségek egymás melletti tesztjei során a Google PaLM 2-vel szemben a különbségek nem voltak élesek, a GPT-3.5 néhány esetben még enyhe előnnyel is rendelkezik. Az olyan kreatívabb feladatoknál, mint a humor és a narratív írás, a GPT-3.5 határozottan előrelépett.
Tehát míg a GPT-4 új mérföldkövet jelent az AI-ban, a GPT-3.5 továbbra is lenyűgözően erős modell, amely képes felvenni a versenyt, és néha felülmúlja a legfejlettebb alternatívákat is. Folyamatos finomítása biztosítja, hogy még a feltűnőbb következő generációs modellek mellett is releváns maradjon.
4. A Google PaLM 2
Egy mesterséges intelligencia modell képességeinek értékelésekor a bevált képlet a műszaki jelentés elolvasása és ellenőrizze a benchmark pontszámait, de vegye figyelembe mindent, amit tanult, és tesztelje a modellt saját magad. Bármennyire is ellentmondónak tűnik, a benchmark eredmények nem mindig igazodnak a valós teljesítményhez egyes AI-modelleknél. Papíron a Google PaLM 2-je volt a GPT-4 gyilkosa, a hivatalos teszteredmények pedig azt sugallják, hogy bizonyos mércéken megfelel a GPT-4-nek. A mindennapi használat során azonban más kép rajzolódik ki.
Logikai érvelésben, matematikában és kreativitásban a PaLM 2 elmarad a GPT-4-től. Számos kreatív írási feladatban is elmarad Anthropic's Claude mögött. Azonban, bár nem tudja teljesíteni a GPT-4 gyilkosként való számláját, A Google PaLM 2 továbbra is erőteljes nyelvi modell önmagában, hatalmas képességekkel. A körülötte lévő negatív érzelmek nagy része a GPT-4-hez hasonló modellekkel való összehasonlításból fakad, nem pedig a kifejezetten gyenge teljesítményből.
340 milliárd paraméterével a PaLM 2 a világ legnagyobb modelljei közé tartozik. Különösen a többnyelvű feladatokban jeleskedik, és erős matematikai és programozási képességekkel rendelkezik. Bár nem a legjobb ebben, a PaLM 2 olyan kreatív feladatokban is elég hatékony, mint az írás. Tehát bár a benchmarkok optimista képet festettek, ami nem valósult meg teljesen, a PaLM 2 továbbra is lenyűgöző AI-készségeket mutat, még ha nem is előzi meg az összes versenytársat.
5. A TII Falcon-180B
Hacsak nem tartott lépést az AI nyelvi modellek gyors ütemével, valószínűleg soha nem találkozott a Falcon-180B-vel. Az Egyesült Arab Emírségek Technológiai Innovációs Intézete által kifejlesztett 180 milliárdos Falcon-180 az egyik legerősebb. nyílt forráskódú nyelvi modellek, még akkor is, ha hiányzik a GPT-modellek névfelismerése vagy a Meta széles körben elterjedt használata. Láma 2. De ne tévedjen – a Falcon-180B lábujjhegyen kibírja az osztály legjobbjait.
A benchmark eredmények azt mutatják, hogy a Falcon-180B felülmúlja a legtöbb nyílt forráskódú modellt, és felveszi a versenyt a kereskedelmi zsonglőrökkel, mint pl. PaLM 2 és GPT-3.5. A matematikai, kódolási, érvelési és kreatív írási feladatok tesztelése során még a GPT-3.5-öt és a PaLM 2-t is megelőzte. alkalommal. A GPT-4, GPT-3.5 és Falcon-180B rangsorolásakor a Falcon-180B-t egyenesen a GPT-4 és a GPT-3.5 közé helyeznénk, számos felhasználási esetben erősségei miatt.
Bár nem mondhatjuk magabiztosan, hogy általános teljesítményét tekintve jobb, mint a GPT-3.5, igazolja magát. Bár homályos, ez a modell figyelmet érdemel, mert megfelel az ismertebb alternatívák képességeinek, vagy meghaladja azokat. Kipróbálhatja a Falcon-180B modellt Átölelő Arc (nyílt forráskódú LLM platform).
A Llama 2, a Meta AI 70 milliárd paraméteres nagy nyelvi modellje elődjére, a Llama 1-re épít. Bár kisebb, mint a vezető modellek, a Llama 2 jelentősen felülmúlja a legtöbb nyilvánosan elérhető nyílt forráskódú LLM-et a benchmarkokban és a valós használatban. Ez alól kivétel a Falcon-180B.
Teszteltük a Llama 2-t a GPT-4, GPT-3.5, Claude 2 és PaLM 2 ellen, hogy felmérjük a képességeit. Nem meglepő módon a GPT-4 szinte minden paraméterben felülmúlta a Llama 2-t. A Llama 2 azonban több értékelésben is megállta a helyét a GPT-3.5 és a PaLM 2 ellenében. Bár pontatlan lenne azt állítani, hogy a Llama 2 jobb a PaLM 2-nél, a Llama 2 számos olyan problémát megoldott, amelyek megzavarták a PaLM 2-t, beleértve a kódolási feladatokat is. A Claude 2 és a GPT-3.5 bizonyos területeken megelőzte a Llama 2-t, de csak korlátozott számú feladatban voltak döntően jobbak.
Tehát, miközben nem haladja meg a legnagyobb szabadalmaztatott modellek képességeit, A nyílt forráskódú Llama 2 a súlycsoportja fölé üt. Egy nyíltan elérhető modell esetében lenyűgöző teljesítményt mutat, és bizonyos értékelésekben vetekszik az olyan AI-óriásokkal, mint a PaLM 2. A Llama 2 bepillantást nyújt a nyílt forráskódú nyelvi modellekben rejlő jövőbeli lehetőségekbe.
Szűkül az AI-modellek közötti teljesítménybeli különbség
Bár a mesterséges intelligencia világa rohamos ütemben fejlődik, az OpenAI GPT-4 továbbra is a csomag vezetője. Míg azonban a GPT-4 továbbra is páratlan léptékben és teljesítményben, az olyan modellek, mint a Claude 2, azt mutatják, hogy elegendő szakértelemmel a kisebb modellek is versenyezhetnek bizonyos területeken. A Google PaLM 2 annak ellenére, hogy nem teljesítette a magasztos elvárásokat, még mindig mélyreható képességekkel rendelkezik. A Falcon-180B pedig bizonyítja, hogy a nyílt forráskódú kezdeményezések vállvetve megállják a helyüket az iparági titánokkal, ha elegendő erőforrást kapnak.