Hirdetés
Most szinte minden modulunkkal beszélhetünk, de pontosan hogyan működik? Amikor azt kérdezi: „Milyen dal ez?” vagy mondja: „Hívd anyát”, a modern tech csodája történik. És bár úgy érzi, hogy élen jár, a készülékekkel való beszélgetésnek ez a gondolata évtizedekre nyúlik vissza - szinte annyira, mint a tudományos fantasztikus jetpack!
Manapság a hangvezérelt számítástechnika nagy részét az okostelefonok veszik igénybe. Az Apple, az Amazon, a Microsoft és a Google a lánc tetején vannak, mindegyik saját módját kínálja az elektronikával való beszélgetéshez. Tudta, kik ők: Siri, Alexa, Cortana és a névtelen „Ok, Google” lény. Ami nagy kérdést vet fel ...
Hogyan veszi egy eszköz a beszélt szavakat, és azokat olyan parancsokká alakítja át, amelyeket érthet? Lényegében a minták illesztése és az ezekre alapozott előrejelzések készítése. Pontosabban, a hangfelismerés komplex feladat származik Akusztikus modellezés és Nyelv modellezés.
Akusztikus modellezés: hullámformák és telefonok
Az akusztikus modellezés a beszéd hullámformájának felvétele és statisztikai modellekkel történő elemzése. A leggyakoribb módszer erre
Rejtett Markov modellezés, amelyet az ún kiejtés modellezése a beszéd felbontása telefonoknak nevezett alkatrészekre (nem szabad összetéveszteni a tényleges telefonkészülékekkel). A Microsoft évek óta vezető kutatója ezen a területen.Rejtett Markov modellezés: Valószínűségi állapotok
Rejtett Markov-modellezés egy prediktív matematikai modell, ahol az aktuális állapotot a kimenet elemzésével határozzuk meg. A Wikipedia rendelkezik egy nagyszerű példa két barát segítségével.
Képzeljen el két barátot - Helyi barát és Távoli barát -, akik különféle városokban élnek. A Helyi barát meg akarja tudni, milyen az időjárás, ahol él a Távoli barát, de a Távoli barát csak arról akar beszélni, hogy mit csinált aznap: sétálni, bevásárolni vagy megtisztítani. Az egyes tevékenységek valószínűsége a napi időjárástól függően.
Tegyük fel, hogy ez az egyetlen elérhető információ. Ezzel a Helyi Barátság felfedezheti az időjárási viszonyok napi változása tendenciáit, és ezeket a trendeket felhasználva barátjának tegnapi tevékenységére alapozva elkezdi kitalálni a mai időjárást. (A fenti rendszer ábráját láthatja.)
Ha összetettebb példát szeretne, nézd meg ez a példa a Matlabon. A hangfelismerés szempontjából ez a modell lényegében összehasonlítja a hullámforma egyes részeit az előző és az utána következőkkel, valamint a hullámformák szótárával, hogy kitaláljuk, mit mondunk.
Alapvetõen, ha „th” hangot ad, akkor ellenõrzi ezt a hangot a legvalószínûbb hangokkal szemben, amelyek általában az elõtt és után következnek. Talán ez azt jelenti, hogy ellenõrizzük az „e” hangot, az „at” hangot és így tovább. Amikor a minta megfelelõen illeszkedik, akkor megvan a teljes szava. Ez túl egyszerűsítés, de láthatja A Microsoft teljes magyarázata itt található.
Nyelv modellezése: több, mint hang
Az akusztikus modellezés nagy segítséget nyújt számítógépének megértésében, de mi lenne a homonimákkal és a kiejtés regionális variációival? Itt kerül a nyelv modellezésére. A Google sok kutatást indított ezen a területen, elsősorban a N-gram modellezés.
Amikor a Google megpróbálja megérteni a beszédet, ezt a hatalmas hangalapú keresési programból és a YouTube átirataiból származó modellek alapján teszi meg. Ezek a vidáman téves videofeliratok valóban segítették a Google-t a szótárak fejlesztésében. Emellett a távozottokat is felhasználták GOOG-411 információkat gyűjteni arról, hogy az emberek hogyan beszélnek.
Ez a nyelvgyűjtemény egész kiejtések és dialektusok hatalmas sorát hozta létre, amelyek egy robusztus szótárhoz és a hangzásukhoz hozzájárultak. Ez lehetővé teszi az egyezéseket, amelyek jelentősen csökkentett hibaaránnyal rendelkeznek, mint a nyers valószínűségeken alapuló brutális erő illesztés. Elolvashat egy rövid papírt itt leírják módszereiket.
Noha a Google vezető szerepet játszik ezen a területen, vannak más matematikai modellek is, amelyek folyamatos helyet foglalnak magukban modellek és helyzetbeli nyelvi modellek, amelyek fejlettebb technikák a mesterséges intelligencia kutatásából származnak. Ezek a módszerek azon érvelés másolatán alapulnak, amelyet az emberek egymás hallgatásakor tesznek. Ezek sokkal fejlettebbek mind a mögöttük lévő technika szempontjából, mind a matematika és a programozás szempontjából, amelyek szükségesek ezeknek a modelleknek a leképezéséhez.
N-Gram modellezés: A valószínűség megfelel a memóriának
Az N-gram modellezés valószínűségek alapján működik, de egy meglévő szavak szótárán alapszik a lehetőségek elágazó fajának létrehozására, amelyet ezután a hatékonyság érdekében kiegyenlítenek. Bizonyos értelemben ez azt jelenti, hogy az N-gram modellezés elveszíti a fent említett Rejtett Markov modellezés sok bizonytalanságát.
Mint fentebb megjegyeztük, ennek a módszernek az erőssége abban rejlik, hogy van egy nagy szótára szavak és használat, nem csak primitív hangok. Ez lehetővé teszi a program számára, hogy megmondja a különbséget a homofonok között, például a „ritmus” és a „répa”. Kontekstuális, ami azt jelenti, hogy amikor a tegnap esti pontszámokról beszélünk, a program nem húzza fel a szavakat a céklaról.
Ezek a modellek valójában nem a legmegfelelőbbek a nyelv számára, elsősorban a hosszabb mondatokban szereplő szavak valószínűségével kapcsolatos problémák miatt. Ha több szót ad hozzá a mondathoz, ez a modell kicsit eltörlik, mivel a korai szavak valószínűleg nem töltöttek be mindent, ami a teljes gondolkodáshoz szükséges.
Ennek ellenére egyszerű és könnyen megvalósítható, így nagyszerű mérkőzés egy olyan társaság számára, mint a Google, amely kiszolgálási problémákat szenved a kiszolgálók számára. Az N-gram Modeliengről további információkat olvashat a Washingtoni Egyetem, vagy megnézheti a előadás a Coursera-ban.
Kiabálás a felhőknél: alkalmazások és eszközök
Bárki, aki a Siri-t használta, ismeri a lassú hálózati kapcsolat csalódását. Ennek oka az, hogy a Siri-hez intézett parancsai a hálózaton keresztül kerülnek küldésre az Apple dekódolása céljából. A Cortana Windows telefonhoz a megfelelő működéshez hálózati kapcsolat szükséges is. Ezzel szemben az Amazon Echo csak egy Bluetooth hangszóró, internet nélkül.
Miért a különbség? Mivel a Siri-nek és a Cortana-nak nagy teljesítményű szerverekre van szükségük a beszéd dekódolásához. Meg lehet tenni telefonján vagy táblagépén? Persze, de megsemmisíti a teljesítményt és az akkumulátor élettartamát a folyamat során. Több értelme van, ha a feldolgozást dedikált gépekre tölti le.
Gondolj így: a parancsod egy sárba ragadt autó. Valószínűleg elegendő idővel és erőfeszítéssel kiszorítanád magadból, de órákba telik, és kimerülten maradsz. Ehelyett felhívja a közúti segítségnyújtást, és néhány perc alatt kihúzza autóját. A hátránya, hogy fel kell hívnia és meg kell várnia őket, de még mindig gyorsabb és kevesebb adó.
Az olyan asztali modellek, mint például a Nuance, általában a helyi erőforrásokat használják, annál erősebb hardver miatt. Végül is, Steve Jobs szavaival, az ön Az asztal egy teherautó. (Ez egy kicsit ostoba, amit az OS X használ szerverek a feldolgozásához.) Tehát amikor meg kell dolgozni a nyelvet és a hangot, az már elég jól felszerelt ahhoz, hogy önmagában is kezelje.
Másrészt az Android lehetővé teszi a fejlesztők számára, hogy offline beszédfelismerést alkalmazzanak alkalmazásukba. A Google szereti előrelépni a technológián, és fogadhat, hogy a többi platform megszerezi ezt a képességet, mivel hardvereik erősebbé válnak. Senkinek nem tetszik, ha a rossz lefedettség vagy a rossz vétel lobotomizálja eszközét.
Most kezdje el használni a hangutasításokat
Most, hogy ismeri az alapvető fogalmakat, meg kell játszania a különböző eszközökkel. Próbálja ki az új hang gépelés a Google Dokumentumokban Hogyan hangos gépelés a Google Dokumentumok új legjobb tulajdonsága?A hangfelismerés az utóbbi években ugrásszerűen javult. A hét elején a Google végre bevezette a hangírást a Google Dokumentumokba. De ez jó? Találjuk ki! Olvass tovább . Mintha a web irodai csomag még nem lett volna elég erős, a hangvezérlés lehetővé teszi a dokumentumok teljes diktálását és formázását. Ez kibővíti azt a nagy teljesítményű technológiát, amelyet már kifejlesztettek a Chrome és az Android számára.
Egyéb ötletek közé tartozik a Mac a hangutasítások használatához A beszédparancsok használata a Mac számítógépen Olvass tovább és felállítja a Amazon Echo automata pénztárral Hogyan teheti az Amazon Echo intelligens otthonná otthonát?Az intelligens otthoni technika még mindig a kezdeti napjaiban van, de az Amazon új, "Echo" nevű terméke segíthet a mainstream bevezetésében. Olvass tovább . Éljen a jövőben, és ölelje át beszélgetését moduljaival - még akkor is, ha csak több papírtörlőt rendel. Ha okostelefon-függőség, oktatóanyagokat is beszereztünk erre Siri 8 dolog, amit valószínűleg nem észrevettek a Siri számáraA Siri az iPhone egyik meghatározó funkciójává vált, de sok ember számára nem mindig a leghasznosabb. Noha ennek némelyike a hangfelismerés korlátozottságának tudható be, a furcsa ... Olvass tovább , Cortana 6 legmenőbb, amit a Cortana segítségével kezelhet a Windows 10 rendszerbenA Cortana segítségével kihangosíthatja a Windows 10 rendszert. Megengedheti neki, hogy keressen a fájlokban és az interneten, számításokat végezzen, vagy felvegye az időjárás-előrejelzést. Itt fedezzük fel néhány hűvösebb képességét. Olvass tovább és Android OK, Google: 20 hasznos dolog, amit mondhat az Android-telefonjáraA Google Assistant segít sok mindent elhozni a telefonján. Itt van egy csomó alapvető, de hasznos OK Google-parancs, amelyeket kipróbálhat. Olvass tovább .
Mi a kedvenc hangvezérlésed? Tudassa velünk a megjegyzésekben.
Kép kreditek: T-flex a Shutterstockon keresztül, Terencehonles a Wikimedia Alapítványon keresztül, Arizona állam, Cienpies Design keresztül Shutterstock
Michael nem használta a Mac-ot, amikor ítélve voltak, de kódolni tudja az Applescript-ben. Számítógépes és angol tudományos fokozattal rendelkezik; már egy ideje ír Macról, iOS-ről és videojátékokról; és több mint egy évtizede nappali informatikai majom, szkriptek készítésére és virtualizálására szakosodott.