Fejlesszen ki és hasonlítson össze megerősítő tanulási algoritmusokat ezzel az eszköztárral.

Ha nem tud a semmiből létrehozni egy gépi tanulási modellt, vagy ha nem rendelkezik az infrastruktúrával, pusztán az alkalmazás működő modellhez való csatlakoztatása pótolja a hiányt.

A mesterséges intelligencia azért van itt, hogy mindenki használja így vagy úgy. Ami az OpenAI Gym-et illeti, számos felfedezhető edzőteret kínálnak a megerősítő tanulási ügynökök táplálására.

Mi az az OpenAI Gym, hogyan működik, és mit építhetsz vele?

Mi az az OpenAI Gym?

Az OpenAI Gym egy Pythonic API, amely szimulált edzési környezetet biztosít a megerősítő tanulási ügynökök számára, hogy környezeti megfigyelések alapján cselekedjenek; minden cselekvés pozitív vagy negatív jutalommal jár, amely minden egyes lépésnél felhalmozódik. Míg az ügynök célja a jutalom maximalizálása, minden váratlan döntésért büntetést kap.

Az időlépés egy diszkrét idejű pipa, amellyel a környezet egy másik állapotba kerül. Ez összeadódik, ahogy az ügynök tevékenységei megváltoztatják a környezet állapotát.

instagram viewer

Hogyan működik az OpenAI Gym?

Az OpenAI Gym környezetek a Markov döntési folyamaton (MDP) alapulnak, amely egy dinamikus döntéshozatali modell, amelyet a megerősítő tanulásban használnak. Ebből következik, hogy jutalom csak akkor jár, ha a környezet állapota megváltozik. A következő állapot eseményei pedig csak a jelenlegi állapottól függenek, mivel az MDP nem veszi figyelembe a múltbeli eseményeket.

Mielőtt továbblépnénk, vessünk egy példát az OpenAI Gym megerősítő tanulásban való alkalmazásának gyors megértéséhez.

Feltételezve, hogy autót szeretne edzeni egy versenyjátékban, felpörgethet egy versenypályát az OpenAI Gymben. A megerősítő tanulás során, ha a jármű bal helyett jobbra fordul, akkor -1 negatív jutalmat kaphat. A versenypálya minden egyes időlépésben változik, és a következő állapotokban bonyolultabbá válhat.

A negatív jutalmak vagy büntetések nem rosszak egy ügynök számára a megerősítő tanulásban. Egyes esetekben arra ösztönzi, hogy gyorsabban érje el célját. Így az autó idővel megismeri a pályát, és jutalomsorozatok segítségével sajátítja el a navigációt.

Mi például kezdeményeztük a FrozenLake-v1 környezetben, ahol az ügynököt megbüntetik a jéglyukakba esésért, de jutalmat kapnak egy díszdoboz visszaszerzéséért.

Első nekifutásunk kevesebb büntetést eredményezett jutalom nélkül:

A harmadik iteráció azonban bonyolultabb környezetet hozott létre. De az ügynök kapott néhány jutalmat:

A fenti eredmény nem jelenti azt, hogy az ügynök a következő iterációban javulni fog. Bár a következő alkalommal sikeresen elkerülheti a több lyukat, előfordulhat, hogy nem kap jutalmat. De néhány paraméter módosítása javíthatja a tanulási sebességet.

Az OpenAI Gym Components

Az OpenAI Gym API a következő összetevők körül forog:

  • A környezetek ahol ügynököt képez. A segítségével kezdeményezhet egyet tornaterem.make módszer. Az OpenAI Gym többügynök környezetet is támogat.
  • A burkolatok meglévő környezet módosítására. Bár minden alapkörnyezet alapértelmezés szerint előre be van csomagolva, átméretezheti azokat olyan paraméterekkel, mint a max_actions, min_actions és max rewards.
  • An akció; meghatározza, hogy az ágens mit csinál, miközben megfigyeli a környezetében bekövetkező változásokat. A környezetben minden egyes művelet egy lépés, amely meghatározza az ügynök válaszát a megfigyelésekre. A lépés befejezése egy megfigyelést, egy jutalmat, információt és egy csonkolt vagy befejező értéket ad vissza.
  • A megfigyelés; meghatározza az ügynök tapasztalatát egy környezetben. Ha van megfigyelés, egy művelet követi az információit. Az info paraméter egy végrehajtási napló, amely hasznos a hibakereséshez. Ha egy lépés véget ér, a környezet n-szer alaphelyzetbe áll, a megadott iterációk számától függően.

Mit tehetsz az OpenAI Gym-mel?

Mivel az OpenAI Gym lehetővé teszi egyéni tanulási környezetek felpörgetését, íme néhány módszer a valós életben való használatára.

1. Játék szimuláció

Használhatja az OpenAI Gym játékkörnyezetét a kívánt viselkedések jutalmazására, játékjutalmak létrehozására és játékszintenkénti összetettség növelésére.

2. Képfelismerés

Ahol korlátozott mennyiségű adat, erőforrás és idő áll rendelkezésre, az OpenAI Gym hasznos lehet képfelismerő rendszer fejlesztéséhez. Mélyebb szinten átméretezheti egy arcfelismerő rendszer felépítéséhez, amely jutalmazza az ügynököt az arcok helyes azonosításáért.

3. Robotképzés

Az OpenAI Gym intuitív környezeti modelleket is kínál 3D-s és 2D-s szimulációkhoz, ahol a kívánt viselkedést implementálhatja a robotokba. Roboschool egy példa az OpenAI Gym használatával épített, méretezhető robotszimulációs szoftverre.

4. Marketing

Az OpenAI Gym segítségével marketingmegoldásokat is készíthet, például hirdetésszervereket, tőzsdei kereskedési robotokat, értékesítési előrejelző robotokat, termékajánló rendszereket és még sok mást. Például létrehozhat egy egyedi OpenAI Gym modellt, amely a megjelenítések és a kattintási arány alapján bünteti a hirdetéseket.

5. Természetes nyelvi feldolgozás

Néhány módszer az OpenAI Gym alkalmazására természetes nyelvi feldolgozás mondatkiegészítéssel járó feleletválasztós kérdések vagy levélszemét-osztályozó felépítése. Például megtaníthat egy ügynököt mondatváltozatok megtanulására, hogy elkerülje a részrehajlást a résztvevők megjelölése közben.

Az OpenAI Gym használatának megkezdése

Az OpenAI Gym támogatja a Python 3.7 és újabb verzióit. Az OpenAI Gym környezet beállításához telepítenie kell tornaterem, a villás folyamatosan támogatott edzőtermi változat:

pip install tornaterem

Ezután állítsa be a környezetet. Létrehozhat azonban egyéni környezetet. Kezdje azonban azzal, hogy játsszon egy meglévővel, hogy elsajátítsa az OpenAI Gym koncepcióját.

Az alábbi kód felpörgeti a FrozenLake-v1. A env.reset módszer rögzíti a kezdeti megfigyelést:

import tornaterem mint tornaterem
env = gym.make("FrozenLake-v1", render_mode="emberi")

megfigyelés, info = env.reset()

Egyes környezetek működéséhez extra könyvtárakra van szükség. Ha másik könyvtárat kell telepítenie, a Python azt javasolja a kivételüzeneten keresztül.

Például telepíteni fog egy további könyvtárat (tornaterem [játékszöveg]) futtatásához a FrozenLake-v1 környezet.

Építsen az OpenAI Gym erejére

Az AI és a gépi tanulás fejlesztésének egyik hátulütője az infrastruktúra és a képzési adatkészletek hiánya. De ahogy szeretné integrálni a gépi tanulási modelleket alkalmazásaiba vagy eszközeibe, a kész mesterséges intelligencia-modellek segítségével most már minden egyszerűbb. Míg ezen eszközök némelyike ​​alacsony költségű, mások, köztük az OpenAI Gym, ingyenesek és nyílt forráskódúak.