Használhatja a Meta's Llama 2-t online, de testreszabhatja és személyre szabhatja az élményt, ha telepíti a helyi gépére.
A Meta 2023 nyarán kiadta a Llama 2-t. A Llama új verziója 40%-kal több tokennel van finomhangolva, mint az eredeti Llama modell, ami megduplázza környezeti hosszát, és jelentősen felülmúlja a többi elérhető nyílt forráskódú modellt. A Llama 2 elérésének leggyorsabb és legegyszerűbb módja egy API-n keresztül egy online platformon keresztül. Ha azonban a legjobb élményt szeretné elérni, a legjobb a Llama 2 telepítése és betöltése közvetlenül a számítógépére.
Ezt szem előtt tartva elkészítettünk egy lépésről lépésre szóló útmutatót arról, hogyan használhatja a Text-Generation-WebUI-t a kvantált Llama 2 LLM helyi számítógépre történő betöltéséhez.
Miért telepítse helyileg a Llama 2-t?
Számos oka van annak, hogy az emberek a Llama 2 közvetlen futtatását választják. Egyesek adatvédelmi aggályok miatt teszik ezt, mások testreszabás céljából, mások pedig offline képességek miatt. Ha kutatásokat végez, finomhangolja vagy integrálja a Llama 2-t projektjeihez, akkor előfordulhat, hogy a Llama 2 API-n keresztüli elérése nem az Ön számára való. Az LLM helyi számítógépen való futtatásának lényege, hogy csökkentse a ráhagyást
harmadik féltől származó AI-eszközök és bármikor, bárhol használhatja az AI-t, anélkül, hogy aggódnia kellene amiatt, hogy a potenciálisan érzékeny adatokat kiszivárogtatja a vállalatoknak és más szervezeteknek.Ezzel kezdjük a Llama 2 helyi telepítésének lépésről lépésre szóló útmutatójával.
A dolgok leegyszerűsítése érdekében egy egykattintásos telepítőt fogunk használni a Text-Generation-WebUI-hoz (a Llama 2 grafikus felhasználói felülettel való betöltésére használt program). A telepítő működéséhez azonban le kell töltenie a Visual Studio 2019 Build Tool-t, és telepítenie kell a szükséges erőforrásokat.
Letöltés:Visual Studio 2019 (Ingyenes)
- Töltsd le a szoftver közösségi kiadását.
- Most telepítse a Visual Studio 2019-et, majd nyissa meg a szoftvert. Felbontás után jelölje be a négyzetet Asztali fejlesztés C++-szal és nyomja meg a telepítést.
Most, hogy telepítve van a C++ asztali fejlesztés, itt az ideje letölteni a Text-Generation-WebUI egykattintásos telepítőt.
2. lépés: Telepítse a Text-Generation-WebUI-t
A Text-Generation-WebUI egykattintásos telepítő egy olyan szkript, amely automatikusan létrehozza a szükséges mappákat, és beállítja a Conda környezetet, valamint az AI-modell futtatásához szükséges összes követelményt.
A szkript telepítéséhez töltse le az egykattintásos telepítőt a gombra kattintva Kód > Letöltés ZIP.
Letöltés:Szöveggeneráló-WebUI telepítő (Ingyenes)
- A letöltés után csomagolja ki a ZIP-fájlt a kívánt helyre, majd nyissa meg a kicsomagolt mappát.
- A mappán belül görgessen lefelé, és keresse meg az operációs rendszerének megfelelő indítóprogramot. Futtassa a programokat a megfelelő szkriptre duplán kattintva.
- Ha Windows rendszert használ, válassza a lehetőséget start_windows batch file
- MacOS esetén válassza a lehetőséget start_macos kagylólevél
- Linuxhoz, start_linux shell script.
- A vírusirtó riasztást hozhat létre; ez jó. A felszólítás csak egy antivírus hamis pozitív kötegfájl vagy szkript futtatásához. Kattintson Mindenképpen fuss.
- Megnyílik egy terminál, és elindul a beállítás. Korán a beállítás szünetel, és megkérdezi, hogy milyen GPU-t használ. Válassza ki a számítógépére telepített GPU megfelelő típusát, és nyomja meg az Enter billentyűt. Azok számára, akik nem rendelkeznek dedikált grafikus kártyával, válassza a lehetőséget Nincs (a modelleket CPU módban szeretném futtatni). Ne feledje, hogy a CPU módban való futtatás sokkal lassabb, mint a modell dedikált GPU-val való futtatása.
- A telepítés befejezése után helyileg elindíthatja a Text-Generation-WebUI-t. Ezt úgy teheti meg, hogy megnyitja kedvenc webböngészőjét, és beírja a megadott IP-címet az URL-be.
- A WebUI most használatra kész.
A program azonban csak egy modellbetöltő. Töltsük le a Llama 2-t a modellbetöltő elindításához.
3. lépés: Töltse le a Llama 2 modellt
Jó néhány dolgot figyelembe kell venni, amikor eldönti, hogy a Llama 2 melyik iterációjára van szüksége. Ide tartoznak a paraméterek, a kvantálás, a hardveroptimalizálás, a méret és a használat. Mindezek az információk a modell nevében találhatók.
- Paraméterek: A modell betanításához használt paraméterek száma. A nagyobb paraméterek nagyobb teljesítményt nyújtanak, de a teljesítmény árán.
- Használat: Lehet normál vagy chat. A chat-modellt csevegőbotként, például a ChatGPT-hez optimalizálták, míg a szabvány az alapértelmezett modell.
- Hardver optimalizálás: Arra utal, hogy melyik hardver futtatja legjobban a modellt. A GPTQ azt jelenti, hogy a modell dedikált GPU-n, míg a GGML CPU-n való futtatásra van optimalizálva.
- Kvantálás: Jelzi a súlyok és aktiválások pontosságát egy modellben. Következtetéshez a q4 pontossága az optimális.
- Méret: Az adott modell méretére vonatkozik.
Vegye figyelembe, hogy egyes modellek elrendezése eltérő lehet, és előfordulhat, hogy nem is ugyanolyan típusú információk jelennek meg. Ez a típusú elnevezési konvenció azonban meglehetősen gyakori a HuggingFace Modellkönyvtár, így még érdemes megérteni.
Ebben a példában a modell egy közepes méretű Llama 2 modellként azonosítható, amely 13 milliárd paraméterre van kiképezve, csevegési következtetésre optimalizálva, dedikált CPU használatával.
Azok számára, akik dedikált GPU-val futnak, válasszon a GPTQ modellt, míg a CPU-t használók válasszanak GGML. Ha úgy szeretne csevegni a modellel, mint a ChatGPT-vel, válassza a lehetőséget csevegés, de ha szeretne kísérletezni a modellel annak teljes lehetőségeivel, használja a alapértelmezett modell. Ami a paramétereket illeti, tudja, hogy nagyobb modellek használata jobb eredményeket biztosít a teljesítmény rovására. Én személy szerint azt javaslom, hogy kezdjen egy 7B modellel. Ami a kvantálást illeti, használja a q4-et, mivel ez csak a következtetések levonására szolgál.
Letöltés:GGML (Ingyenes)
Letöltés:GPTQ (Ingyenes)
Most, hogy tudja, milyen Llama 2 iterációra van szüksége, töltse le a kívánt modellt.
Az én esetemben, mivel ezt egy ultrabookon futtatom, egy csevegésre finomhangolt GGML-modellt fogok használni, llama-2-7b-chat-ggmlv3.q4_K_S.bin.
A letöltés befejezése után helyezze be a modellt text-generation-webui-main > modellek.
Most, hogy a modellt letöltötte és a modell mappájába helyezte, ideje konfigurálni a modellbetöltőt.
4. lépés: A Text-Generation-WebUI konfigurálása
Most kezdjük a konfigurációs fázist.
- Még egyszer nyissa meg a Text-Generation-WebUI-t a start_(az operációs rendszered) fájlt (lásd az előző lépéseket fent).
- A grafikus felhasználói felület felett található lapokon kattintson a gombra Modell. Kattintson a frissítés gombra a modell legördülő menüjében, és válassza ki a modellt.
- Most kattintson a legördülő menüre Modell rakodó és válassza ki AutoGPTQ azoknak, akik GTPQ modellt használnak és ctranszformátorok azok számára, akik GGML-modellt használnak. Végül kattintson a gombra Betöltés a modell betöltéséhez.
- A modell használatához nyissa meg a Chat lapot, és kezdje el tesztelni a modellt.
Gratulálunk, sikeresen betöltötte a Llama2-t a helyi számítógépére!
Próbáljon ki más LLM-eket
Most, hogy tudja, hogyan futtathatja a Llama 2-t közvetlenül a számítógépén a Text-Generation-WebUI használatával, a Llamán kívül más LLM-eket is futtathat. Csak emlékezzen a modellek elnevezési konvencióira, és arra, hogy csak a modellek kvantált változatai (általában q4 pontosságú) tölthetők be normál számítógépekre. Sok kvantált LLM elérhető a HuggingFace-en. Ha más modelleket szeretne felfedezni, keresse meg a TheBloke kifejezést a HuggingFace modellkönyvtárában, és sok modellt fog találni.