Tesztelheti a különböző AI chatbotokat, hogy meghatározza, melyik működik a legjobban. De hogyan kell ezt csinálni? Íme néhány kulcsfontosságú tényező, amelyet figyelembe kell venni.
A mesterséges intelligencia hosszú utat tett meg attól, hogy irreleváns, inkoherens kimenetet állítson elő. A modern chatbotok fejlett nyelvi modelleket használnak, amelyek megválaszolják az általános ismeretekkel kapcsolatos kérdéseket, hosszadalmas esszéket írnak, és kódot írnak, egyéb összetett feladatok mellett.
E fejlesztések ellenére vegye figyelembe, hogy még a legkifinomultabb rendszereknek is vannak korlátai. Az AI még mindig hibázik. Annak meghatározásához, hogy mely chatbotok a legkevésbé hajlamosak a hallucinációkra, tesztelje a pontosságukat ezen tényezők alapján.
1. Számolás
Futtasson matematikai egyenleteket chatbotokon keresztül. Kipróbálják a platform képességét szöveges problémák elemzésére, matematikai fogalmak lefordítására és helyes képletek alkalmazására. Csak néhány modell mutat megbízható számolási képességet. Valójában az egyik
A ChatGPT legrosszabb problémái az első hónapokban a rettenetes matematikai megértés volt.Az alábbi képen látható, hogy a ChatGPT meghibásodik az alapvető statisztikákban.
A ChatGPT javulást mutatott ezt követően Az OpenAI kiadta 2023 májusi frissítéseit. De tekintettel a korlátozott adatkészletekre, továbbra is gondjai lesznek a középhaladó és haladó matematikai számításokkal.
Eközben a Bing Chat és a Google Bard jobb számolási képességet mutat. Lekérdezéseket futtatnak a megfelelő keresőmotorokon keresztül, lehetővé téve számukra, hogy képleteket és válaszlapokat kapjanak.
Próbálja átfogalmazni a szöveges problémáit. Kerülje a hosszú mondatokat, és cserélje le a gyenge igéket; ellenkező esetben a chatbotok félreérthetik kérdéseit.
2. Megértés
A modern mesterséges intelligencia rendszerek többféle feladatot is el tudnak látni. A fejlett LLM-ek lehetővé teszik számukra, hogy megtartsák a korábbi utasításokat, és szakaszonként válaszoljanak a felszólításokra, míg a régebbi rendszerek egyedi parancsokat dolgoznak fel. Például Siri egyszerre egy kérdésre válaszol.
A chatbotok három-öt feladatot adagolnak egyszerre, hogy teszteljék, mennyire jól elemzik az összetett felszólításokat. A kevésbé kifinomult modellek nem képesek ennyi információt feldolgozni. Az alábbi képen látható, hogy a HuggingChat hibásan működik egy háromlépéses felszólítással – az első lépésnél megáll, és eltér a témától.
A HuggingChat utolsó sorai már összefüggéstelenek.
A ChatGPT gyorsan teljesíti ugyanazt a felszólítást, és minden lépésnél hibamentes, intelligens válaszokat generál.
A Bing Chat tömör választ ad a három lépésre. Szigorú korlátozásai tiltják a szükségtelenül hosszadalmas kimeneteket, amelyek pazarolják a feldolgozási teljesítményt.
3. Időszerűség
Mivel a mesterséges intelligencia képzése hatalmas erőforrásokba kerül, a legtöbb fejlesztő meghatározott időszakokra korlátozza az adatkészleteket. Vegyük például a ChatGPT-t. 2021. szeptemberi tudáskorlátja van – nem kérhet időjárás-frissítéseket, hírjelentéseket vagy friss fejleményeket. Itt a ChatGPT azt mondja, hogy nem fér hozzá a valós idejű információkhoz.
Bard hozzáféréssel rendelkezik az internethez. Adatokat gyűjt a Google SERP-ből, így szélesebb körű kérdéseket tehet fel, például a közelmúlt eseményeiről, hírekről és előrejelzésekről.
Hasonlóképpen, a Bing Chat valós idejű információkat gyűjt a keresőmotorjából.
A Bing Chat és a Bard időszerű, naprakész információkat szolgáltat, utóbbi azonban részletesebb válaszokat ad. A Bing csak úgy jeleníti meg az adatokat, ahogy vannak. Észre fogja venni, hogy a kimenetei gyakran szó szerint egyeznek a hivatkozott források megfogalmazásával és hangnemével.
4. Relevancia
A chatbotoknak releváns kimeneteket kell biztosítaniuk. A válaszadás során figyelembe kell venniük a felszólítások szó szerinti és kontextuális jelentését. Vegyük ezt a beszélgetést példaként. Személyünknek új telefonra van szüksége, de csak 1000 dollárja van – a ChatGPT nem haladja meg a költségvetést.
A relevancia tesztelésekor próbáljon hosszas utasításokat készíteni. A kevésbé kifinomult chatbotok általában érintik, ha zavaró utasításokat kapnak. A HuggingChat például kitalált történeteket tud komponálni. De lehet, hogy eltér a fő témától, ha túl sok szabályt és irányelvet ad meg.
5. Kontextuális memória
A környezeti memória segít a mesterséges intelligencia pontos, megbízható kimenetében. Ahelyett, hogy névértéken vennék fel kérdéseit, összefűzik az Ön által említett részleteket. Vegyük ezt a beszélgetést példaként. A Bing Chat két külön üzenetet kapcsol össze, hogy hasznos, tömör választ adjon.
Hasonlóképpen, a kontextuális memória lehetővé teszi a chatbotok számára, hogy emlékezzenek az utasításokra. Ezen a képen a ChatGPT látható, amely egy kitalált karakter beszédmódját utánozza több csevegés során.
Tesztelje ezt a funkciót saját maga a korábbi állításokra való következetes hivatkozással. A chatbotok különféle információkat tápláljanak be, majd kényszerítsék őket, hogy ezeket a későbbi válaszokban felidézzék.
A kontextuális memória korlátozott. A Bing Chat 20 körönként új beszélgetéseket indít, míg a ChatGPT nem tud feldolgozni 3000 token feletti felszólítást.
6. Biztonsági korlátozások
A mesterséges intelligencia nem mindig a szándék szerint működik. A hibás edzés okozhat gépi tanulási technológiákat különféle hibák elkövetésére, a kisebb matematikai hibáktól a problémás megjegyzésekig. Vesz Microsoft Tay mint például. A Twitter-felhasználók kihasználták a felügyelet nélküli tanulási modellt, és faji rágalmakat mondtak belőle.
Szerencsére a globális technológiai vezetők tanultak a Microsoft baklövéséből. Bár költséghatékony és kényelmes, a felügyelet nélküli tanulás hajlamossá teszi az AI-rendszereket a megtévesztésre. Ezért a fejlesztők manapság elsősorban a felügyelt tanulásra támaszkodnak. A chatbotok kedvelik A ChatGPT továbbra is tanul a beszélgetésekből, de az oktatóik először szűrik az információkat.
Az AI-cégektől eltérő irányelvekre számíthat. A ChatGPT kevésbé merev korlátozásai a feladatok szélesebb körét teszik lehetővé, de gyengék a kizsákmányolással szemben. Eközben a Bing Chat szigorúbb korlátokat követ. Miközben segítik a kizsákmányolási kísérletek leküzdését, a funkcionalitást is akadályozzák. A Bing automatikusan leállítja a potenciálisan káros beszélgetéseket.
7. AI torzítások
Az AI eredendően semleges. Preferenciák és érzelmek hiánya képtelenné teszi véleményalkotásra – csupán az általa ismert információkat közöl. Így reagál a ChatGPT a szubjektív témákra.
E semlegesség ellenére AI torzítások mégis felmerülnek. Ezek a fejlesztők által használt mintákból, adatkészletekből, algoritmusokból és modellekből származnak. Lehet, hogy az AI pártatlan, de az emberek nem.
Például, A Brookings Intézet azt állítja, hogy a ChatGPT baloldali politikai elfogultságot demonstrál. Az OpenAI természetesen tagadja ezeket a vádakat. De az újabb modellekkel kapcsolatos hasonló problémák elkerülése érdekében a ChatGPT teljesen elkerüli a véleménynyilvánító kimeneteket.
Hasonlóképpen, a Bing Chat elkerüli az érzékeny, szubjektív kérdéseket.
Véleményen alapuló, nyílt végű kérdések feltevésével értékelje saját maga az AI torzításait. Beszélgessen olyan témákról, amelyekre nincs jó vagy rossz válasz – a kevésbé kifinomult chatbotok valószínűleg alaptalan preferenciákat jelenítenek meg bizonyos csoportok felé.
8. Hivatkozások
Az AI ritkán ellenőrzi kétszer a tényeket. Csupán információt gyűjt az adatkészleteiből, és nyelvi modelleken keresztül újrafogalmazza azokat. Sajnos a korlátozott képzés AI hallucinációkat okoz. Továbbra is használhat generatív mesterséges intelligencia eszközöket a kutatáshoz, de ügyeljen arra, hogy maga ellenőrizze a tényeket. Vegye ki a kimenetet egy szem sóval.
A Bing Chat leegyszerűsíti a tényellenőrzési folyamatot azáltal, hogy minden kimenet után felsorolja a hivatkozásait.
A Bard AI nem sorolja fel a forrásait, hanem frissített, mélyreható magyarázatokat generál a Google keresési lekérdezések futtatásával. A főbb pontokat a SERP-től kapja meg.
A ChatGPT hajlamos a pontatlanságokra. A 2021-es tudáskorlát megakadályozza, hogy válaszoljon a közelmúlt eseményeivel és incidenseivel kapcsolatos kérdésekre.
Hozzon létre új módszereket a Chatbotok pontosságának tesztelésére
Az AI nem a technológia mindene és vége. Míg a kifinomult AI-rendszerek és nyelvi modellek lenyűgöző bravúrokat hajtanak végre, hibákat és következetlenségeket is elkövetnek. Tekintse szkepticizmussal a chatbotokat. A mesterséges intelligencia által vezérelt platformokat csak akkor használhatja, ha ismeri azok funkcióit és korlátait.
Bár több tucat chatbot létezik a platformokon, megbízhatóságuk és pontosságuk csalódást okozhat. Csak időt pazarol a tesztelésükre. A minőségi eredmények biztosítása érdekében azt javasoljuk, hogy a piac három legerősebb modelljére összpontosítson: a ChatGPT, a Bing AI és a Google Bard.