A kifejezésfelismerés csak egy része a folyamatnak.
Az „Ok Google” kiáltása a szoba túloldaláról, hogy váltson zenét vagy kapcsolja le a világítást egy szobában hihetetlen, de ezt a látszólag egyszerű folyamatot a mögötte álló technológiák bonyolult hálója hajtja jelenetek.
Szinte minden jelentősebb virtuális asszisztensnek a piacon van egy hívó kifejezése, amellyel felébresztheti az asszisztenst és beszélgethet. De honnan tudják a hangasszisztensek, hogy mikor beszélsz velük?
Hogyan működik a kifejezésészlelés?
Mint fentebb említettük, minden hangsegédnek van egy „indító kifejezése” vagy ébresztőszava, amellyel felébresztheti az asszisztenst, és további parancsokat adhat. Ennek a kifejezésnek a felismerésének folyamata többé-kevésbé minden asszisztensnél ugyanaz, kivéve az apró árnyalatokat. Ennek ellenére ezek az árnyalatok jelenthetik a különbséget aközött, hogy véletlenül kimondjuk az ébresztési parancsot, és többszörösen kiáltjuk csak azért, hogy az asszisztens tovább aludjon, ami időnként nagyon bosszantó lehet, különösen, ha te vagy a hangsegéd segítségével megnyugodhat.
Általában a legtöbb "okos" hangszórónak van egy kis áramköre, amelynek egyetlen feladata az ébresztési parancs észlelése, majd a hardver többi részének működésbe állítása. A feldolgozás nagy része a felhőben történik, de nyilvánvaló adatvédelmi okokból a kifejezésészlelés az eszközön történik. A telefonok kifejezésészlelése nagyjából ugyanúgy működik.
A konkrétumok többnyire rejtve maradnak, de ezek az észlelési rendszerek gépi tanulást és mély neurális hálózatokat (DNN) használnak az AI-modellek betanítására, hogy észleljék a hangot és kulcsot képezzenek. Ezt a kulcsot használjuk annak ellenőrzésére, hogy mikor mondott ki egy adott kifejezést, és minden más a felhőbe kerül további feldolgozásra.
Google Asszisztens
Az „OK Google” felismerést támogató telefonok általában kulcsszófelderítő (KWS) rendszerrel rendelkeznek, amely észleli a kifejezést, majd a lekérdezés többi részét a felhőbe javítja. Mivel a mobileszközök korlátozott számítási teljesítménnyel és akkumulátor-élettartam-korlátokkal rendelkeznek, ezek a rendszerek általában nem olyan jók, mint a Google Nest hangszórókon találhatóak.
Ez az eszközön található KWS rendszer folyamatosan felveszi a hangot az eszköz mikrofonjaiból, és kapcsolatot kezdeményez a szerverrel, ha trigger kifejezést észlel. A Google szerveroldali kontextuális automatikus beszédfelismerést (ASR) is használ KWS-rendszere általános pontosságának javítására. Bővebben olvashatsz róla A Google kutatási cikke [PDF].
Siri
A Siri ugyanúgy működik, mint a Google Asszisztens a „Hey Siri” észlelése tekintetében. Az Apple meglepően nyíltan beszélt a rendszer működéséről, amely magában foglal egy "nagyon kicsi" beszédfelismerőt, amely a háttérben fut, és csak erre a két szóra figyel. Ez az érzékelő DNN-t használ arra, hogy az Ön hangjának minden egyes előfordulása során felvett akusztikus mintáját a beszédhangok valószínűségi eloszlására konvertálja, lényegében megbízhatósági pontszámot generálva.
Az iPhone vagy az Apple Watch ezt úgy teszi meg, hogy hangját hullámforma minták folyamává változtatja másodpercenként 16 000 sebességgel. Ezt azután levágják egy körülbelül 0,01 másodperces hangspektrumot lefedő képkockákra. Ezután összesen 20 ilyen képkocka kerül az észlelési modellbe, amely ezeket a mintákat valószínűséggé alakítja.
Ha a rendszer kellő magabiztossággal megállapítja, hogy Ön azt mondta: "Hé, Siri", Siri felébred, és elküldi a többit. a lekérdezésről a felhőbe, ahol további elemzések zajlanak, és a kért művelet megtörténik teljesített.
Természetesen további intézkedések is vannak a memória és az akkumulátor hatékonyságának biztosítására. Az iPhone mindig bekapcsolt processzora (AOP) éppen ezért fér hozzá az eszköz mikrofonjaihoz (iPhone 6S és újabb készülékeken), és feldolgozási teljesítményének egy kis része a DNN futtatására van fenntartva. Az Apple a gépi tanulási webhelyén mélyen belemerül a teljes rendszerbe, gépi tanulás.alma.
Alexa
A Google Assistanthoz és a Sirihez hasonlóan az Alexa sem a megvásárolható Echo hangszórók egyikén sem helyezi el feldolgozási teljesítményének nagy részét. Ehelyett a beszélők az Amazon által nevezett automatikus beszédfelismerést (ASR) használják, amely lényegében a kimondott szavakat szöveggé alakítja, lehetővé téve a mögöttes rendszer számára, hogy értelmezze azokat, és ennek megfelelően cselekedjen.
Az ASR az Alexa működésének alapja. Ismét van egy fedélzeti rendszer, amely figyeli az ébresztő szavakat, jelen esetben "Alexa", "Amazon", "Visszhang" vagy "Számítógép", és akkor aktiválja a rendszer többi részét, amikor a felhasználó által előre meghatározott ébresztőszó észlelt. Még azt is megteheted felébressze Alexa eszközét a „Hey Disney” használatával ha akarod.
A Google Asszisztenshez hasonlóan megtaníthatja az Alexa mögöttes AI-modellt, hogy jobban érzékelje a hangját. Ez a folyamat magában foglalja egy alapvonali „kulcs” létrehozását, amelyhez a kimondott ébresztőszót összehasonlítja, és ha talál egyezést, az eszköz ennek megfelelően reagál.
A hangasszisztensek mindig hallgatnak?
Ahogy valószínűleg már sejti, igen, azok. Másképp nincs lehetőségük észlelni az ébresztő szavakat. Az adatvédelmi aggályok miatt azonban még nem kell kidobnia az összes okoshangszórót.
Mindent meghallgat, amit a felhasználók mondanak, visszaküldi egy távoli szerverre, és elemzi (vagy tárolja) óriási hardvert és pénzügyi erőforrásokat igényel, egészen addig a pontig, ahol gyakorlati szempontból értelmetlen perspektíva. Ha ehhez hozzáadjuk azokat a hatalmas adatvédelmi aggályokat, amelyekkel a Google, az Apple és az Amazon már most is foglalkoznak, akkor az ötletnek nincs értelme.
Ez nagymértékben befolyásolja a telefonok teljesítményét és az akkumulátor élettartamát is az ébresztőszó-észlelési funkciókkal, különösen a Google Pixel és az iPhone készülékekkel. Ha a telefon folyamatosan figyeli, amit mond, és visszaküldi a hangot egy távoli szerverre, akkor lemeríti az akkumulátort, és csökkenti az eszköz teljesítményét.
Ki rendelkezik a leghatékonyabb kifejezésészleléssel és miért?
Nem könnyű objektíven összehasonlítani, hogy melyik virtuális asszisztens rendelkezik a legjobb kifejezésérzékeléssel objektíven, mivel mindegyik ugyanannak az átfogó koncepciónak kissé eltérő megvalósítását használja. Úgy tűnik azonban, hogy a Google konzisztensebb frázisészlelést tesz lehetővé az előnyben részesített Google Asszisztensnek köszönhetően, mint a Siri és az Alexa.
Annak ellenére, hogy a nagy nyelvi modelleket (LLM) használó alkalmazások, például a ChatGPT és a Bing Chat általánossá válnak, a Google Asszisztens továbbra is az egyik legjobban népszerű virtuális asszisztensek egyszerűen azért, mert minden Android-eszközön egy érintéssel elérhető, az okostévéktől az autóhifi rendszerekig és természetesen az okostelefonokig.
Sirinek és Alexának van még tennivalója ezen az osztályon, de ami a frázisészlelést illeti, nincsenek olyan messze. Ennek ellenére nagyobb eséllyel ébresztheti fel a Google Asszisztenst Pixel készülékén a szoba túloldaláról, mint ha Sirivel tenné iPhone-ján, bár fokozza a Siri képességeit a Super Siri móddal. Mivel az Alexát leginkább az Amazon Echo hangsugárzóihoz használják, itt van egy kis előnye, tekintve, hogy ezeket a hangszórókat úgy tervezték, hogy képesek legyenek felvenni a felhasználó hangját.
A mesterséges intelligencia éppoly kísérteties, amennyire kényelmes is
Az AI-asszisztens megidézése pusztán a hangjával nagyon hasznos lehet. Egy olyan funkció esetében, amely zökkenőmentesen beépül az életünkbe, sok minden történik a színfalak mögött, amire a legtöbben nem is gondolunk.
Ennek ellenére ez a kényelem azt a kényelmetlenséget is magával hozza, hogy készüléke mindig hallgatja, amit mond. Eddig az eszközön lévő beszédfelismerők és az ébresztőszavak a virtuális asszisztens által hallott és az Ön által elmondottak között állnak.