Az OpenAI lehetővé tette a ChatGPT számára, hogy szintetizált hangon beszéljen, és hamarosan elérhető lesz okostelefonján is.

A ChatGPT interaktív generatív AI-élményré válik. Az OpenAI felfedte, hogy a világ vezető mesterséges intelligencia chatbotja szintetizált, feltehetően mesterséges intelligencia által generált hang használatával képes lesz beszélni és válaszolni a felhasználói kérdésekre.

Az újonnan talált hangon kívül a ChatGPT képes lesz válaszolni és megvitatni a rá feltöltött vagy a ChatGPT Android vagy iOS alkalmazás használata közben készült képeket. A képfelismerő funkció hangzása hasonló a Google Lenshez és más alkalmazásokhoz, amelyek neurális hálózatokat használnak az adatok és információk pontos észlelésére.

Az OpenAI hangot ad a ChatGPT-nek

2023. szeptember 25-én a ChatGPT fejlesztője Az OpenAI kiderült világelső generatív AI chatbotjának hangot adna. A ChatGPT-felhasználók közvetlenül beszélhetnek a csevegőbottal, és visszaszólást kérhetnek, így a ChatGPT először tud közvetlenül beszélni hanggal.

instagram viewer

Az OpenAI példaklipjében egy nő megkéri a ChatGPT-t, hogy készítsen egyedi esti mesét, amelyre a ChatGPT megfelelően női szintetizált hanggal válaszol.

Alapján Vezetékes, az új szövegfelolvasó modellt házon belül fejlesztették ki. Képes "emberszerű" hangot generálni szövegből és néhány másodperces beszédmintából (az OpenAI Whisper modell segítségével), és különféle hangnemekben és stílusokban beszél. Számos hangmintát találhat a webhelyen OpenAI blogja.

Néhány vállalat már alkalmazza az OpenAI új hangmodelljét. A Spotify például az OpenAI szövegfelolvasó modelljét használja a podcastok különböző nyelvekre történő lefordításához, ötvözve a ChatGPT nyelvi fordítási képességét új beszédképességével.

A ChatGPT új szövegfelolvasó modellje csak a Plus és Enterprise előfizetők számára érhető el a hivatalos Android és iOS alkalmazások, és várhatóan a következő két héten belül (szeptember 25-től, 2023). Ezenkívül az új hangfunkció kezdetben csak angolra korlátozódik, bár azt várnánk, hogy ez gyorsan megváltozik.

A ChatGPT képes felismerni és elemezni a képeket és fényképeket

Az OpenAI ChatGPT frissítésének második része az eszközbe feltöltött képek elemzésének és megszólításának képessége. A vizuális képelemzési lehetőség szerepelt a GPT-4 frissítési videóiban, de azóta nem nagyon esett szó róla (A ChatGPT kódtolmácsot félretéve).

Mostantól a ChatGPT a Google Lenshez hasonló funkciókat kap. Feltölthet egy képet a ChatGPT-be, vagy fényképet készíthet okostelefonja kamerájával a ChatGPT alkalmazásban, és az részletezi a képet, és szükség esetén további kontextust ad hozzá.

Ha „a Google Lenshez hasonlónak” nevezzük, az valóban igazságtalan. A képről való oda-vissza csevegés lehetősége több információ és kontextus megszerzése érdekében rendkívül hasznossá teszi a beállítások széles körében. Fontos azonban megjegyezni az apró betűs részt, mivel az OpenAI világossá teszi, hogy adatvédelmi és pontossági okokból korlátozta a ChatGPT „képességét, hogy elemezzen és közvetlen kijelentéseket tegyen az emberekről”. Ennek ellenére készülhet-e a jövőben egy OpenAI-alapú „Who Is This” eszköz? (Reméljük nem!)

Az új szövegfelolvasó modellhez hasonlóan az OpenAI is a következő két hétben bevezeti a képfelismerést, bár minden platformon elérhető lesz, nem csak a ChatGPT alkalmazáson.

Adatvédelmi, biztonsági és egyéb kérdések

A hangalapú ChatGPT következményei élesek. Persze, izgalmas. Az egyedi szintetizált hang létrehozásának képessége azonban csupán egy rövid részlet példaként való felhasználásával jelentős adatvédelmi és biztonsági problémákkal jár. Óriási a lehetőség, hogy a rosszindulatú szereplők kihasználják ezeket az eszközöket, és mint minden generatív AI-eszköz esetében, a dzsinn, ha kikerül a palackból, egyáltalán nem fog visszakerülni. A kormányok vagy a gondolati vezetők semmilyen mesterséges intelligencia-szabályozása nem fordíthatja vissza az áradat.

Még az OpenAI témával kapcsolatos figyelmeztetése is megkerüli a nyilvánvalót, annak ellenére, hogy megemlíti a problémákat:

Ezek a képességek azonban új kockázatokat is rejtenek, például azt, hogy a rosszindulatú szereplők közszereplőknek adja ki magát, vagy csalást követhetnek el. Ezért használjuk ezt a technológiát egy adott használati eset – a hangcsevegés – működtetésére.

Tekintettel arra, hogy ez a jéghegy csúcsa, számítson a ChatGPT újonnan felfedezett hangjának visszaszorítására, különösen egyszer előreláthatóan megnövekszik a kellemetlen szalagcímek száma, amelyek azt állítják, hogy a ChatGPT-t csalásra használják, és így tovább.

Az OpenAI a ChatGPT-t a legjobb mesterséges intelligencia alkalmazássá teszi

Minél több OpenAI ad hozzá felhasználóbarát funkciókat a ChatGPT-hez, annál inkább válik a generatív mesterséges intelligencia alkalmazásává. A ChatGPT a kezdeti generatív mesterséges intelligencia fellendülése során elsőként ért el széles körű hírnevet, és továbbra is az élen jár. csak néhány alkalmazást használ, annak ellenére, hogy versenyez a Google Bard (és esetleg a Google Gemini) és az Anthropic's. Claude.

Mindaddig, amíg az OpenAI továbbra is olyan funkciókat tud hozzáadni, amelyek megkönnyítik a ChatGPT használatát, leköti az embereket, és egyre közelebb kerül a valóban multimodális AI-eszköz céljához.