Az Önhöz hasonló olvasók támogatják a MUO-t. Amikor a webhelyünkön található linkek használatával vásárol, társult jutalékot kaphatunk. Olvass tovább.

Az OpenAI Whisper egy új, AI-alapú megoldás, amely szöveggé változtathatja a hangját. A legjobb az egészben, hogy nulla költséggel jár.

Van azonban egy bökkenő: telepítése és használata nagyobb kihívást jelent, mint egy átlagos Windows-segédprogram. Főleg, ha az Nvidia GPU Tensor Core-ját szeretné használni, hogy jó lendületet adjon neki.

De ne aggódj. Ezért vagyunk itt! Olvasson tovább, hogy megtudja, hogyan telepítheti és használhatja, de ha van ilyen, azt is megtudhatja, hogy a Whisper kihasználja Nvidia GPU-ját.

Mi az az OpenAI Whisper?

A ChatGPT nagy divat manapság, és ezt már láttuk hogyan használhatja az OpenAI ChatGPT-jét. És mégis, nem ez az egyetlen érdekes projekt az OpenAI-tól.

A mély tanuláson és a neurális hálózatokon alapuló Whisper egy természetes nyelvi feldolgozó rendszer, amely képes "megérteni" a beszédet és átírni azt szöveggé. De ez is saját dolga, egy helyen ül a hasonló megoldások között:

instagram viewer
  • A Whisper egy természetes nyelvre "kiképzett" mesterséges intelligencia megoldás. Tehát jobban megérti a "normális" emberi beszédet, mint a régebbi megoldásokat.
  • A Whisper nem rendelkezik interfésszel, és nem tud hangot rögzíteni. Csak meglévő hangfájlokat és kimeneti szövegfájlokat tud fogadni.
  • Mivel a Whisper képes „értelmezni a nyelvet”, az egyetlen lépésben történő automatikus fordítás szuperképességével is rendelkezik.
  • A Whisper nem egy online szolgáltatás, és teljesen offline is működik.
  • Ha viszonylag modern Nvidia GPU-val (GTX970 vagy újabb) rendelkezik, a Whisper képes "hardveresen gyorsított módban" futni a sebesség növelése érdekében.
  • Nincs szükség regisztrációra, licencvásárlásra vagy előfizetés vásárlására.

Miért nem támogatottak az AMD GPU-k?

Ahhoz, hogy a GPU-k többre is hasznosak legyenek, mint a grafika, teljesen programozható processzorként kell működniük. Ezért hozta létre az Nvidia a CUDA-t, amelyet hivatalosan "párhuzamos számítási platformnak és programozási modellnek" tekintenek. Ha többet szeretne megtudni a CUDA-ról és a kapcsolódó hardverekről ("CUDA magokról"), olvassa el a következő cikkünket mik azok a CUDA magok, és hogyan javítják a PC-s játékokat.

A CUDA egy szabadalmaztatott Nvidia technológia, amely csak az Nvidia GPU-kkal kompatibilis. Az AMD hardverének legközelebbi alternatívája az OpenCL és a Radeon Compute Platform. Ha többet szeretne megtudni az egyes vállalatok megoldásainak összehasonlításáról, tekintse meg cikkünket AMD számítási egységek vs. Nvidia CUDA magok.

Az alternatívákhoz képest a CUDA érettebbnek, hatékonyabbnak és könnyebben használhatónak tekinthető. Így a legtöbb fejlesztő csak a CUDA-t célozza meg, ami viszont azt jelenti, hogy szoftverük csak az Nvidia GPU-k hardverfunkcióit használja ki. És ebbe beletartozik a Whisper is.

A Whisper letöltése és telepítése

Sajnos a Whisper nem egy önálló alkalmazás, amelyet letölthet, telepíthet és futtathat. Más szoftverekre támaszkodik, amelyeket szintén telepíteni kell.

Windows esetén, hogy ez az útmutató egyszerű legyen, a Chocolateyt széles körben használjuk a legtöbb szükséges szoftveralkatrész telepítéséhez. Tekintse meg útmutatónkat a Windows szoftver telepítésének leggyorsabb módja További információért a Chocolatey-ről.

Linux és Mac esetén a telepítési folyamatnak hasonlónak kell lennie (kivéve a Windows elérési út változóját és az általunk létrehozott, könnyen használható kötegfájlokat).

  1. A Whisper telepítéséhez és használatához rendelkeznie kell Piton és annak CSIPOG eszköz telepítve és hozzáadva a Windows „Path” változójához. Ha többet szeretne megtudni erről, tekintse meg cikkünket a Python PIP telepítése Windows, Mac és Linux rendszeren.
  2. Telepítés FFMPEG a Chocolatey-n keresztül ezzel a paranccsal:
    csokoládé telepítés ffmpeg
    Telepítse a Python verzióját is a következővel:
    pip3 telepítés python-ffmpeg
  3. Végül telepítse a Whispert a Github oldaláról a következővel:
    pip3 telepítése git+https://github.com/openai/whisper.git

A Whisper CUDA-kompatibilis verziójának beszerzése

Bár a Whisper nem használ Nvidia GPU-kat, a fáklya csomag, amelyre támaszkodik, CUDA-gyorsított verziót kínál. Ha ezt használja a "sima" verzió helyett, akkor a Whisper sokkal gyorsabban fejezheti be az átírásokat az Nvidia GPU segítségével.

A Whisper használatához az Nvidia GPU CUDA magjait használja:

  1. Ha már telepítette a fáklya "vanília" verzióját, távolítsa el, és törölje le a maradványait az alábbiakkal:
    pip3 eltávolítás fáklya
    Ha elkészült, kövesse a következőt:
    csipog gyorsítótárkitisztítás
  2. Telepítse a zseblámpa CUDA-kompatibilis verzióját a következőkkel:
    pip3 telepítés fáklya torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
  3. Ha ellenőrizni szeretné, hogy a Whisper tudja-e használni az Nvidia GPU-t, használja:
    suttogás --segítség | findstr -i pytorch
    Látnod kéne (alapértelmezett: cuda) ahelyett (alapértelmezett: cpu).

Mi a teendő, ha a zseblámpa nem telepíthető

Ha a fáklya telepítésekor a „nincs verzió található” hibába ütközik, előfordulhat, hogy a Python egy régebbi verzióját kell telepítenie a jelenlegivel párhuzamosan.

Ehhez használja ezt a parancsot:

csokoládé telepítés piton --verzió OLDER_VERSION --egymás mellett

Cserélje ki az „OLDER_VERSION”-t egy verzióra, például 3.10-re.

Ezután használja a másodlagos verzió elérési útját az összes "általános" Whisper-parancshoz (pl. "c:\Python310\Scripts\pip.exe" a "pip" helyett).

Hogyan rögzítheti a hangját

Bármilyen hangrögzítő alkalmazással hangját WAV- vagy MP3-fájllá alakíthatja. A Windows tartalmaz egy ilyen alkalmazást – további információért lásd: hogyan kell használni a Windows 10 Hangrögzítő alkalmazást.

Ha többet szeretne tudni, próbálja ki Vakmerőség. Ismerje meg, hogyan kell ezt megtenni az útmutatónk segítségével hogyan használja az Audacityt hang rögzítésére Windows és Mac rendszeren.

Hogyan kezdjük el az átírást suttogással

Bár a Whisper nem rendelkezik felhasználóbarát grafikus felülettel, használata rendkívül egyszerű.

Tegyük fel, hogy megvan a fájl LatestNote.mp3 amely görög nyelvű beszédet tartalmaz, mappában c:\MyAudioFiles, és szeretné lefordítani angolra és átírni egy szöveges fájlba.

  1. Futással kezdjük Parancssor vagy PowerShell.
  2. Ezzel a paranccsal "változtatjuk a könyvtárat", ahol a hangfájl tárolva van:
    CD C:\MyAudioFiles
  3. Felszabadítjuk a Whispert a fájlra a következőkkel:
    suttogás--modellbázis--nyelvgr--feladatfordítLatestNote.mp3

A feldolgozás után a szövegfájl ("LatestNote.mp3.txt" néven) ugyanabban a mappában jelenik meg. Nyissa meg egy szövegszerkesztőben, mint pl Jegyzettömb a lefordított szöveg megtekintéséhez.

Fordítási példát használtunk, mert az angol átírás még egyszerűbb: csak a "--language" és a "-task" jelzőt kell "elveszíteni". Így egyszerű átírás esetén a fenti parancs a következő lenne:

suttogás--modellbázisLatestNote.mp3

A „modell” jelző kötelező, mert a Whisper a különböző lehetőségek közül egyet használ. Bővítsük ki őket, hogy segítsünk kiválasztani az igényeinek leginkább megfelelőt.

Melyik modellt válasszuk?

A Whisper különféle nyelvi modelleket kínál. Minél nagyobb a modell, annál nagyobb a pontossága, de annál nagyobb a hardverigénye is. Ők:

  1. Apró.
  2. Bázis.
  3. Kicsi.
  4. Közepes.
  5. Nagy.

A legtöbb angol anyanyelvűnek rendben kell lennie a apró vagy bázis modellek. A nem angol anyanyelvűek jobb eredményeket érhetnek el nagyobb modellekkel, például kicsi és közepes.

Ne feledje azonban, hogy a közepes és nagy modellek több mint 8 GB VRAM-ot igényelnek (azaz „a GPU memóriáját”).

Az egyik kiválasztásához adja meg a modellt a parancs "--model" kapcsolója után:

suttogás --modell apró/kicsi/közepes/nagy [fájl]

Például:

suttogás--modellkicsiMy_Voice_Note.mp3

Hogyan lehet egyszerűsíteni az átírást

A teljes Whisper parancs beírása minden alkalommal, amikor hangot akar átírni, gyorsan unalmassá válhat. Készítsünk egy globálisan elérhető kötegfájlt a folyamat egyszerűsítésére.

  1. Fuss Windows Intéző és keresse fel a C: meghajtót.
  2. Hozzon létre egy mappát a szkriptjei számára, és másolja az elérési utat a vágólapra.
  3. A Windows Start menüjében keresse meg a "path" kifejezést, és válassza ki Szerkessze a rendszer környezeti változóit.
  4. Találd meg Pálya alatti változó Felhasználói változók a következőhöz: YOUR_USERNAME. A szerkesztéshez kattintson rá duplán. Kattintson Új, és illessze be a szkriptek mappájába az elérési utat. Kattintson rendben elfogadni a változtatásokat.
  5. Térjen vissza a szkriptek mappájába a Windows Intézőben. Hozzon létre egy új kötegfájlt "wht.bat" néven. "Belül" adja ki ezt a parancsot:
    suttogás --model tiny --language hu %1
  6. Hozzon létre még két kötegfájlt, "whs" és "whm".
  7. Helyezze ezt az első szkriptbe:
    suttogás --model small --language hu %1
  8. Helyezze ezt a másodikba:
    suttogás --model medium --language hu %1

Gratulálunk, most három szkriptje van, amelyek segítségével könnyedén használhatja a Whisper apró, kicsi és közepes modelljeit hangfájljaival! Bármely hangfájl átírása szöveggé:

  1. Keresse meg a fájlt a Windows File Explorer.
  2. Jobb klikk egy üres helyre, és válassz Megnyitás a terminálban.
  3. Írja be ezt a parancsot, a "wht" helyett a "whs" vagy a "whm" szót a kis vagy közepes nyelvi modellek használatához:
    mitYOUR_AUDIO_FILE.mp3

Gépelés hangsebességgel suttogással

Még a leggyorsabb gépírók sem tudják felmérni azt a sebességet, amellyel beszélünk. Azonban egészen a közelmúltig a gépelés helyett beszélni nem volt optimális a dokumentumok létrehozásához.

A legtöbb hang-szöveg megoldás közepes eredményeket hozott. Lehet találni néhány olyan megoldást, amelyet érdemes kipróbálni, de ezek használata bonyolult volt, vagy költséges. Szerencsére a Whisper mindent megváltoztatott.

A fenti lépések után készen kell állnia arra, hogy egyetlen paranccsal nagy pontossággal átírja vagy lefordítsa hangját.