8 kulcsfontosságú tényező, amelyet figyelembe kell venni az AI Chatbotok pontosságának tesztelésekor

Tesztelheti a különböző AI chatbotokat, hogy meghatározza, melyik működik a legjobban. De hogyan kell ezt csinálni? Íme néhány kulcsfontosságú tényező, amelyet figyelembe kell venni.

A mesterséges intelligencia hosszú utat tett meg attól, hogy irreleváns, inkoherens kimenetet állítson elő. A modern chatbotok fejlett nyelvi modelleket használnak, amelyek megválaszolják az általános ismeretekkel kapcsolatos kérdéseket, hosszadalmas esszéket írnak, és kódot írnak, egyéb összetett feladatok mellett.

E fejlesztések ellenére vegye figyelembe, hogy még a legkifinomultabb rendszereknek is vannak korlátai. Az AI még mindig hibázik. Annak meghatározásához, hogy mely chatbotok a legkevésbé hajlamosak a hallucinációkra, tesztelje a pontosságukat ezen tényezők alapján.

1. Számolás

Futtasson matematikai egyenleteket chatbotokon keresztül. Kipróbálják a platform képességét szöveges problémák elemzésére, matematikai fogalmak lefordítására és helyes képletek alkalmazására. Csak néhány modell mutat megbízható számolási képességet. Valójában az egyik

instagram viewer

A ChatGPT legrosszabb problémái az első hónapokban a rettenetes matematikai megértés volt.

Az alábbi képen látható, hogy a ChatGPT meghibásodik az alapvető statisztikákban.

A ChatGPT javulást mutatott ezt követően Az OpenAI kiadta 2023 májusi frissítéseit. De tekintettel a korlátozott adatkészletekre, továbbra is gondjai lesznek a középhaladó és haladó matematikai számításokkal.

Eközben a Bing Chat és a Google Bard jobb számolási képességet mutat. Lekérdezéseket futtatnak a megfelelő keresőmotorokon keresztül, lehetővé téve számukra, hogy képleteket és válaszlapokat kapjanak.

Próbálja átfogalmazni a szöveges problémáit. Kerülje a hosszú mondatokat, és cserélje le a gyenge igéket; ellenkező esetben a chatbotok félreérthetik kérdéseit.

2. Megértés

A modern mesterséges intelligencia rendszerek többféle feladatot is el tudnak látni. A fejlett LLM-ek lehetővé teszik számukra, hogy megtartsák a korábbi utasításokat, és szakaszonként válaszoljanak a felszólításokra, míg a régebbi rendszerek egyedi parancsokat dolgoznak fel. Például Siri egyszerre egy kérdésre válaszol.

A chatbotok három-öt feladatot adagolnak egyszerre, hogy teszteljék, mennyire jól elemzik az összetett felszólításokat. A kevésbé kifinomult modellek nem képesek ennyi információt feldolgozni. Az alábbi képen látható, hogy a HuggingChat hibásan működik egy háromlépéses felszólítással – az első lépésnél megáll, és eltér a témától.

A HuggingChat utolsó sorai már összefüggéstelenek.

A ChatGPT gyorsan teljesíti ugyanazt a felszólítást, és minden lépésnél hibamentes, intelligens válaszokat generál.

A Bing Chat tömör választ ad a három lépésre. Szigorú korlátozásai tiltják a szükségtelenül hosszadalmas kimeneteket, amelyek pazarolják a feldolgozási teljesítményt.

3. Időszerűség

Mivel a mesterséges intelligencia képzése hatalmas erőforrásokba kerül, a legtöbb fejlesztő meghatározott időszakokra korlátozza az adatkészleteket. Vegyük például a ChatGPT-t. 2021. szeptemberi tudáskorlátja van – nem kérhet időjárás-frissítéseket, hírjelentéseket vagy friss fejleményeket. Itt a ChatGPT azt mondja, hogy nem fér hozzá a valós idejű információkhoz.

Bard hozzáféréssel rendelkezik az internethez. Adatokat gyűjt a Google SERP-ből, így szélesebb körű kérdéseket tehet fel, például a közelmúlt eseményeiről, hírekről és előrejelzésekről.

Hasonlóképpen, a Bing Chat valós idejű információkat gyűjt a keresőmotorjából.

A Bing Chat és a Bard időszerű, naprakész információkat szolgáltat, utóbbi azonban részletesebb válaszokat ad. A Bing csak úgy jeleníti meg az adatokat, ahogy vannak. Észre fogja venni, hogy a kimenetei gyakran szó szerint egyeznek a hivatkozott források megfogalmazásával és hangnemével.

4. Relevancia

A chatbotoknak releváns kimeneteket kell biztosítaniuk. A válaszadás során figyelembe kell venniük a felszólítások szó szerinti és kontextuális jelentését. Vegyük ezt a beszélgetést példaként. Személyünknek új telefonra van szüksége, de csak 1000 dollárja van – a ChatGPT nem haladja meg a költségvetést.

A relevancia tesztelésekor próbáljon hosszas utasításokat készíteni. A kevésbé kifinomult chatbotok általában érintik, ha zavaró utasításokat kapnak. A HuggingChat például kitalált történeteket tud komponálni. De lehet, hogy eltér a fő témától, ha túl sok szabályt és irányelvet ad meg.

5. Kontextuális memória

A környezeti memória segít a mesterséges intelligencia pontos, megbízható kimenetében. Ahelyett, hogy névértéken vennék fel kérdéseit, összefűzik az Ön által említett részleteket. Vegyük ezt a beszélgetést példaként. A Bing Chat két külön üzenetet kapcsol össze, hogy hasznos, tömör választ adjon.

Hasonlóképpen, a kontextuális memória lehetővé teszi a chatbotok számára, hogy emlékezzenek az utasításokra. Ezen a képen a ChatGPT látható, amely egy kitalált karakter beszédmódját utánozza több csevegés során.

Tesztelje ezt a funkciót saját maga a korábbi állításokra való következetes hivatkozással. A chatbotok különféle információkat tápláljanak be, majd kényszerítsék őket, hogy ezeket a későbbi válaszokban felidézzék.

A kontextuális memória korlátozott. A Bing Chat 20 körönként új beszélgetéseket indít, míg a ChatGPT nem tud feldolgozni 3000 token feletti felszólítást.

6. Biztonsági korlátozások

A mesterséges intelligencia nem mindig a szándék szerint működik. A hibás edzés okozhat gépi tanulási technológiákat különféle hibák elkövetésére, a kisebb matematikai hibáktól a problémás megjegyzésekig. Vesz Microsoft Tay mint például. A Twitter-felhasználók kihasználták a felügyelet nélküli tanulási modellt, és faji rágalmakat mondtak belőle.

Szerencsére a globális technológiai vezetők tanultak a Microsoft baklövéséből. Bár költséghatékony és kényelmes, a felügyelet nélküli tanulás hajlamossá teszi az AI-rendszereket a megtévesztésre. Ezért a fejlesztők manapság elsősorban a felügyelt tanulásra támaszkodnak. A chatbotok kedvelik A ChatGPT továbbra is tanul a beszélgetésekből, de az oktatóik először szűrik az információkat.

Az AI-cégektől eltérő irányelvekre számíthat. A ChatGPT kevésbé merev korlátozásai a feladatok szélesebb körét teszik lehetővé, de gyengék a kizsákmányolással szemben. Eközben a Bing Chat szigorúbb korlátokat követ. Miközben segítik a kizsákmányolási kísérletek leküzdését, a funkcionalitást is akadályozzák. A Bing automatikusan leállítja a potenciálisan káros beszélgetéseket.

7. AI torzítások

Az AI eredendően semleges. Preferenciák és érzelmek hiánya képtelenné teszi véleményalkotásra – csupán az általa ismert információkat közöl. Így reagál a ChatGPT a szubjektív témákra.

E semlegesség ellenére AI torzítások mégis felmerülnek. Ezek a fejlesztők által használt mintákból, adatkészletekből, algoritmusokból és modellekből származnak. Lehet, hogy az AI pártatlan, de az emberek nem.

Például, A Brookings Intézet azt állítja, hogy a ChatGPT baloldali politikai elfogultságot demonstrál. Az OpenAI természetesen tagadja ezeket a vádakat. De az újabb modellekkel kapcsolatos hasonló problémák elkerülése érdekében a ChatGPT teljesen elkerüli a véleménynyilvánító kimeneteket.

Hasonlóképpen, a Bing Chat elkerüli az érzékeny, szubjektív kérdéseket.

Véleményen alapuló, nyílt végű kérdések feltevésével értékelje saját maga az AI torzításait. Beszélgessen olyan témákról, amelyekre nincs jó vagy rossz válasz – a kevésbé kifinomult chatbotok valószínűleg alaptalan preferenciákat jelenítenek meg bizonyos csoportok felé.

8. Hivatkozások

Az AI ritkán ellenőrzi kétszer a tényeket. Csupán információt gyűjt az adatkészleteiből, és nyelvi modelleken keresztül újrafogalmazza azokat. Sajnos a korlátozott képzés AI hallucinációkat okoz. Továbbra is használhat generatív mesterséges intelligencia eszközöket a kutatáshoz, de ügyeljen arra, hogy maga ellenőrizze a tényeket. Vegye ki a kimenetet egy szem sóval.

A Bing Chat leegyszerűsíti a tényellenőrzési folyamatot azáltal, hogy minden kimenet után felsorolja a hivatkozásait.

A Bard AI nem sorolja fel a forrásait, hanem frissített, mélyreható magyarázatokat generál a Google keresési lekérdezések futtatásával. A főbb pontokat a SERP-től kapja meg.

A ChatGPT hajlamos a pontatlanságokra. A 2021-es tudáskorlát megakadályozza, hogy válaszoljon a közelmúlt eseményeivel és incidenseivel kapcsolatos kérdésekre.

Hozzon létre új módszereket a Chatbotok pontosságának tesztelésére

Az AI nem a technológia mindene és vége. Míg a kifinomult AI-rendszerek és nyelvi modellek lenyűgöző bravúrokat hajtanak végre, hibákat és következetlenségeket is elkövetnek. Tekintse szkepticizmussal a chatbotokat. A mesterséges intelligencia által vezérelt platformokat csak akkor használhatja, ha ismeri azok funkcióit és korlátait.

Bár több tucat chatbot létezik a platformokon, megbízhatóságuk és pontosságuk csalódást okozhat. Csak időt pazarol a tesztelésükre. A minőségi eredmények biztosítása érdekében azt javasoljuk, hogy a piac három legerősebb modelljére összpontosítson: a ChatGPT, a Bing AI és a Google Bard.

About Technology - denizatm.com

8 kulcsfontosságú tényező, amelyet figyelembe kell venni az AI Chatbotok pontosságának tesztelésekor

1. Számolás

2. Megértés

3. Időszerűség

4. Relevancia

5. Kontextuális memória

6. Biztonsági korlátozások

7. AI torzítások

8. Hivatkozások

Hozzon létre új módszereket a Chatbotok pontosságának tesztelésére

Kategóriák

Recent Post

Hogyan lehet visszaállítani a Finder "Takarítási" lehetőségeit

Egyedi billentyűparancsok készítése bármely alkalmazáshoz az OS X rendszerben

Hogyan lehet kitölteni a DNS-gyorsítótárat a Mac OS X rendszerben