Használja a PandasAI Python könyvtárat a mesterséges intelligencia erejének és a nagy nyelvi modelleknek az adatelemzési feladatok végrehajtásához.
A Pandas a legdominánsabb könyvtár az adatkészletek és adatkeretek manipulálására. Ez már régóta bevett szokás. A mesterséges intelligencia fejlődésével azonban egy új, nyílt forráskódú, PandasAI nevű könyvtárat fejlesztettek ki, amely generatív AI-képességekkel bővíti a Pandákat.
A PandasAI nem helyettesíti a Pandákat. Ehelyett generatív AI-képességeket ad. Ily módon adatelemzést végezhet a PandasAI-val csevegve. Ezután kivonatolja a háttérben zajló eseményeket, és megadja a lekérdezés kimenetét.
A PandasAI telepítése
PandasAI a PyPI-n (Python Package Index) keresztül érhető el. Hozzon létre egy új virtuális környezetet ha helyi IDE-t használ. Akkor használja a pip csomagkezelőt telepíteni.
pip install pandasai
Ha a Google Colabot használja, az alább láthatóhoz hasonló függőségi ütközési hibába ütközhet.
Ne frissítse le az IPython verziót. Csak indítsa újra a futási környezetet, és futtassa újra a kódblokkot. Ez megoldja a problémát.
A teljes forráskód elérhető a GitHub adattár.
A mintaadatkészlet értelmezése
A PandasAI-val kezelendő mintaadatkészlet a Kaggle kaliforniai lakásárak adatkészlete. Ez az adatkészlet az 1990-es kaliforniai népszámlálás lakhatási adatait tartalmazza. Tíz oszlopa van, amelyek statisztikai adatokat közölnek ezekről a házakról. Az adatkészletről többet megtudó adatkártya a következő címen érhető el: Kaggle. Az alábbiakban az adatkészlet első öt sora látható.
Minden oszlop egy ház egyetlen statisztikáját reprezentálja.
A PandasAI összekapcsolása a nagynyelvi modellel
A PandasAI csatlakoztatásához a nagy nyelvi modell (LLM) az OpenAI-hoz hasonlóan hozzá kell férnie az API-kulcsához. Az egyik megszerzéséhez folytassa a következővel: OpenAI platform. Ezután jelentkezzen be fiókjába. Válassza ki API a következőként megjelenő beállítások oldalon.
Ezt követően kattintson a profiljára, és válassza ki a API-kulcsok megtekintése választási lehetőség. A következő oldalon megjelenő oldalon kattintson a gombra Hozzon létre új titkos kulcsot gomb. Végül nevezze el az API-kulcsot.
Az OpenAI létrehozza az API-kulcsot. Másold le, mert szükséged lesz rá, miközben a PandasAI-t OpenAI-val csatlakoztatod. Ügyeljen arra, hogy a kulcsot titokban tartsa, mivel bárki, aki hozzáfér, hívhatja az OpenAI-t az Ön nevében. Az OpenAI ezután megterheli a számláját a hívásokért.
Most, hogy megvan az API-kulcs, hozzon létre egy új Python-szkriptet, és illessze be az alábbi kódot. Ezt a kódot nem kell módosítania, mivel az idő nagy részében erre fog építeni.
import pandák mint pd
tól től pandasai import PandasAI# Cserélje le az adatkészletével vagy adatkeretével
df = pd.read_csv("/content/housing.csv")# LLM példányosítása
tól től pandasai.llm.openai import OpenAI
llm = OpenAI(api_token="az Ön API-tokenje")
pandas_ai = PandasAI(llm)
A fenti kód a PandasAI-t és a Pandákat is importálja. Ezután beolvas egy adatkészletet. Végül példányosítja az OpenAI LLM-et.
Most már készen áll az adatokkal való beszélgetésre.
Egyszerű feladatok végrehajtása a PandasAI segítségével
Az adatok lekérdezéséhez adja át az adatkeretet és a promptot a PandasAI osztály példányának. Kezdje az adatkészlet első öt sorának kinyomtatásával.
pandas_ai (df, prompt="Mi az adatkészlet első öt sora?")
A fenti prompt kimenete a következő:
Ez a kimenet megegyezik az adatkészlet korábbi áttekintésével. Ez azt mutatja, hogy a PandasAI megfelelő eredményeket produkál és megbízható.
Ezután ellenőrizze az adatkészletben található oszlopok számát.
pandas_ai (df, prompt="Hány oszlop van az adatkészletben? ')
10-et ad vissza, ami a California Housing adatkészlet oszlopainak megfelelő száma.
Annak ellenőrzése, hogy nincsenek-e hiányzó értékek az adatkészletben.
pandas_ai (df, prompt="Vannak hiányzó értékek az adatkészletből?")
A PandasAI visszaadja, hogy a összesen_hálószoba oszlopban 207 hiányzó érték van, ami ismét helyes.
A PandasAI használatával sok egyszerű feladatot teljesíthet, nem korlátozódik a fentiekre.
Összetett lekérdezések végrehajtása PandasAI segítségével
A PandasAI nem csak az egyszerű feladatokat támogatja. Használhatja összetett lekérdezések végrehajtására is az adatkészleten. Például a házadatkészletben, ha meg szeretné határozni azon házak számát, amelyek egy szigeten, amelynek értéke meghaladja a 100 000 dollárt, és több mint 10 szobával rendelkezik, használhatja a promptot lent.
pandas_ai (df, prompt= "Hány ház értéke nagyobb 100 000-nél?"
"szigeten vannak, és a hálószoba összesen több mint 10?")
A helyes kimenet öt. Ez ugyanaz az eredmény, mint a PandasAI.
Az összetett lekérdezések írása és hibakeresése az adatelemzőnek némi időt vehet igénybe. A fenti felszólításnak mindössze két sornyi természetes nyelvre van szüksége ugyanazon feladat végrehajtásához. Csak észben kell tartanod, hogy pontosan mit szeretnél elérni, és a PandasAI gondoskodik a többiről.
Diagramok rajzolása PandasAI segítségével
A diagramok minden adatelemzési folyamat létfontosságú részét képezik. Segít az adatelemzőknek az adatok emberbarát megjelenítésében. A PandasAI diagramrajzoló funkcióval is rendelkezik. Csak át kell adnia az adatkeretet és az utasítást.
Kezdje azzal, hogy az adatkészlet minden oszlopához hozzon létre egy hisztogramot. Ez segít a változók eloszlásának vizualizálásában.
pandas_ai (df, prompt= "Ábrázoljon hisztogramot az adatkészlet minden oszlopához")
A kimenet a következő:
A PandasAI meg tudta rajzolni az összes oszlop hisztogramját anélkül, hogy át kellett volna adnia a nevét a promptban.
A PandasAI anélkül is képes diagramokat rajzolni, hogy Ön egyértelműen megmondaná, melyik diagramot használja. Például érdemes megtudni a lakásadatkészlet adatainak korrelációját. Ennek eléréséhez a következőképpen küldhet el egy felszólítást:
pandas_ai (df, prompt= "Ábrázolja a korrelációt az adatkészletben")
A PandasAI egy korrelációs mátrixot ábrázol az alábbiak szerint:
A könyvtár kiválaszt egy hőtérképet, és ábrázol egy korrelációs mátrixot.
Több adatkeret átadása a PandasAI-példánynak
A több adatkerettel való munka trükkös lehet. Főleg annak, aki még nem ismeri az adatelemzést. A PandasAI áthidalja ezt a szakadékot, mivel mindössze annyit kell tennie, hogy átadja mindkét adatkeretet, és elkezdi használni az adatok kezelését.
Hozzon létre két adatkeretet a Pandas segítségével.
munkavállalói_adatok = {
'Munkavállalói azonosító': [1, 2, 3, 4, 5],
'Név': ['János', "Emma", "Liam", "Olivia", 'Vilmos'],
'Osztály': ["HR", "értékesítés", 'AZT', "Marketing", 'Pénzügy']
}fizetések_adatai = {
'Munkavállalói azonosító': [1, 2, 3, 4, 5],
'Fizetés': [5000, 6000, 4500, 7000, 5500]
}
munkavállalók_df = pd. DataFrame (alkalmazotti_adatok)
fizetések_df = pd. DataFrame (fizetések_adatai)
Feltehetsz egy kérdést a PandasAI-nak, amely mindkét adatkeretre kiterjed. Csak mindkét adatkeretet kell átadnia a PandasAI példánynak.
pandas_ai([alkalmazottak_df, fizetések_df], – Melyik alkalmazottal van a legnagyobb fizetés?)
Visszatér Olivia ami ismét a helyes válasz.
Az adatelemzés végrehajtása még soha nem volt ilyen egyszerű, a PandasAI segítségével cseveghet az adatokkal, és könnyedén elemezheti azokat.
A PandasAI-t meghatározó technológia megértése
A PandasAI leegyszerűsíti az adatelemzés folyamatát, így sok időt takarít meg az adatelemzőknek. De elvonatkoztatja azt, ami a háttérben történik. Meg kell ismerkednie a generatív AI-val, hogy áttekintést kapjon arról, hogyan működik a PandasAI a motorháztető alatt. Ez abban is segít, hogy lépést tartson a generatív AI tartomány legújabb innovációival.