Használja a PandasAI Python könyvtárat a mesterséges intelligencia erejének és a nagy nyelvi modelleknek az adatelemzési feladatok végrehajtásához.

A Pandas a legdominánsabb könyvtár az adatkészletek és adatkeretek manipulálására. Ez már régóta bevett szokás. A mesterséges intelligencia fejlődésével azonban egy új, nyílt forráskódú, PandasAI nevű könyvtárat fejlesztettek ki, amely generatív AI-képességekkel bővíti a Pandákat.

A PandasAI nem helyettesíti a Pandákat. Ehelyett generatív AI-képességeket ad. Ily módon adatelemzést végezhet a PandasAI-val csevegve. Ezután kivonatolja a háttérben zajló eseményeket, és megadja a lekérdezés kimenetét.

A PandasAI telepítése

PandasAI a PyPI-n (Python Package Index) keresztül érhető el. Hozzon létre egy új virtuális környezetet ha helyi IDE-t használ. Akkor használja a pip csomagkezelőt telepíteni.

pip install pandasai

Ha a Google Colabot használja, az alább láthatóhoz hasonló függőségi ütközési hibába ütközhet.

Ne frissítse le az IPython verziót. Csak indítsa újra a futási környezetet, és futtassa újra a kódblokkot. Ez megoldja a problémát.

instagram viewer

A teljes forráskód elérhető a GitHub adattár.

A mintaadatkészlet értelmezése

A PandasAI-val kezelendő mintaadatkészlet a Kaggle kaliforniai lakásárak adatkészlete. Ez az adatkészlet az 1990-es kaliforniai népszámlálás lakhatási adatait tartalmazza. Tíz oszlopa van, amelyek statisztikai adatokat közölnek ezekről a házakról. Az adatkészletről többet megtudó adatkártya a következő címen érhető el: Kaggle. Az alábbiakban az adatkészlet első öt sora látható.

Minden oszlop egy ház egyetlen statisztikáját reprezentálja.

A PandasAI összekapcsolása a nagynyelvi modellel

A PandasAI csatlakoztatásához a nagy nyelvi modell (LLM) az OpenAI-hoz hasonlóan hozzá kell férnie az API-kulcsához. Az egyik megszerzéséhez folytassa a következővel: OpenAI platform. Ezután jelentkezzen be fiókjába. Válassza ki API a következőként megjelenő beállítások oldalon.

Ezt követően kattintson a profiljára, és válassza ki a API-kulcsok megtekintése választási lehetőség. A következő oldalon megjelenő oldalon kattintson a gombra Hozzon létre új titkos kulcsot gomb. Végül nevezze el az API-kulcsot.

Az OpenAI létrehozza az API-kulcsot. Másold le, mert szükséged lesz rá, miközben a PandasAI-t OpenAI-val csatlakoztatod. Ügyeljen arra, hogy a kulcsot titokban tartsa, mivel bárki, aki hozzáfér, hívhatja az OpenAI-t az Ön nevében. Az OpenAI ezután megterheli a számláját a hívásokért.

Most, hogy megvan az API-kulcs, hozzon létre egy új Python-szkriptet, és illessze be az alábbi kódot. Ezt a kódot nem kell módosítania, mivel az idő nagy részében erre fog építeni.

import pandák mint pd
tól től pandasai import PandasAI

# Cserélje le az adatkészletével vagy adatkeretével
df = pd.read_csv("/content/housing.csv")

# LLM példányosítása
tól től pandasai.llm.openai import OpenAI
llm = OpenAI(api_token="az Ön API-tokenje")

pandas_ai = PandasAI(llm)

A fenti kód a PandasAI-t és a Pandákat is importálja. Ezután beolvas egy adatkészletet. Végül példányosítja az OpenAI LLM-et.

Most már készen áll az adatokkal való beszélgetésre.

Egyszerű feladatok végrehajtása a PandasAI segítségével

Az adatok lekérdezéséhez adja át az adatkeretet és a promptot a PandasAI osztály példányának. Kezdje az adatkészlet első öt sorának kinyomtatásával.

pandas_ai (df, prompt="Mi az adatkészlet első öt sora?")

A fenti prompt kimenete a következő:

Ez a kimenet megegyezik az adatkészlet korábbi áttekintésével. Ez azt mutatja, hogy a PandasAI megfelelő eredményeket produkál és megbízható.

Ezután ellenőrizze az adatkészletben található oszlopok számát.

pandas_ai (df, prompt="Hány oszlop van az adatkészletben? ')

10-et ad vissza, ami a California Housing adatkészlet oszlopainak megfelelő száma.

Annak ellenőrzése, hogy nincsenek-e hiányzó értékek az adatkészletben.

pandas_ai (df, prompt="Vannak hiányzó értékek az adatkészletből?")

A PandasAI visszaadja, hogy a összesen_hálószoba oszlopban 207 hiányzó érték van, ami ismét helyes.

A PandasAI használatával sok egyszerű feladatot teljesíthet, nem korlátozódik a fentiekre.

Összetett lekérdezések végrehajtása PandasAI segítségével

A PandasAI nem csak az egyszerű feladatokat támogatja. Használhatja összetett lekérdezések végrehajtására is az adatkészleten. Például a házadatkészletben, ha meg szeretné határozni azon házak számát, amelyek egy szigeten, amelynek értéke meghaladja a 100 000 dollárt, és több mint 10 szobával rendelkezik, használhatja a promptot lent.

pandas_ai (df, prompt= "Hány ház értéke nagyobb 100 000-nél?"
"szigeten vannak, és a hálószoba összesen több mint 10?")

A helyes kimenet öt. Ez ugyanaz az eredmény, mint a PandasAI.

Az összetett lekérdezések írása és hibakeresése az adatelemzőnek némi időt vehet igénybe. A fenti felszólításnak mindössze két sornyi természetes nyelvre van szüksége ugyanazon feladat végrehajtásához. Csak észben kell tartanod, hogy pontosan mit szeretnél elérni, és a PandasAI gondoskodik a többiről.

Diagramok rajzolása PandasAI segítségével

A diagramok minden adatelemzési folyamat létfontosságú részét képezik. Segít az adatelemzőknek az adatok emberbarát megjelenítésében. A PandasAI diagramrajzoló funkcióval is rendelkezik. Csak át kell adnia az adatkeretet és az utasítást.

Kezdje azzal, hogy az adatkészlet minden oszlopához hozzon létre egy hisztogramot. Ez segít a változók eloszlásának vizualizálásában.

pandas_ai (df, prompt= "Ábrázoljon hisztogramot az adatkészlet minden oszlopához")

A kimenet a következő:

A PandasAI meg tudta rajzolni az összes oszlop hisztogramját anélkül, hogy át kellett volna adnia a nevét a promptban.

A PandasAI anélkül is képes diagramokat rajzolni, hogy Ön egyértelműen megmondaná, melyik diagramot használja. Például érdemes megtudni a lakásadatkészlet adatainak korrelációját. Ennek eléréséhez a következőképpen küldhet el egy felszólítást:

pandas_ai (df, prompt= "Ábrázolja a korrelációt az adatkészletben")

A PandasAI egy korrelációs mátrixot ábrázol az alábbiak szerint:

A könyvtár kiválaszt egy hőtérképet, és ábrázol egy korrelációs mátrixot.

Több adatkeret átadása a PandasAI-példánynak

A több adatkerettel való munka trükkös lehet. Főleg annak, aki még nem ismeri az adatelemzést. A PandasAI áthidalja ezt a szakadékot, mivel mindössze annyit kell tennie, hogy átadja mindkét adatkeretet, és elkezdi használni az adatok kezelését.

Hozzon létre két adatkeretet a Pandas segítségével.

munkavállalói_adatok = {
'Munkavállalói azonosító': [1, 2, 3, 4, 5],
'Név': ['János', "Emma", "Liam", "Olivia", 'Vilmos'],
'Osztály': ["HR", "értékesítés", 'AZT', "Marketing", 'Pénzügy']
}

fizetések_adatai = {
'Munkavállalói azonosító': [1, 2, 3, 4, 5],
'Fizetés': [5000, 6000, 4500, 7000, 5500]
}

munkavállalók_df = pd. DataFrame (alkalmazotti_adatok)
fizetések_df = pd. DataFrame (fizetések_adatai)

Feltehetsz egy kérdést a PandasAI-nak, amely mindkét adatkeretre kiterjed. Csak mindkét adatkeretet kell átadnia a PandasAI példánynak.

pandas_ai([alkalmazottak_df, fizetések_df], – Melyik alkalmazottal van a legnagyobb fizetés?)

Visszatér Olivia ami ismét a helyes válasz.

Az adatelemzés végrehajtása még soha nem volt ilyen egyszerű, a PandasAI segítségével cseveghet az adatokkal, és könnyedén elemezheti azokat.

A PandasAI-t meghatározó technológia megértése

A PandasAI leegyszerűsíti az adatelemzés folyamatát, így sok időt takarít meg az adatelemzőknek. De elvonatkoztatja azt, ami a háttérben történik. Meg kell ismerkednie a generatív AI-val, hogy áttekintést kapjon arról, hogyan működik a PandasAI a motorháztető alatt. Ez abban is segít, hogy lépést tartson a generatív AI tartomány legújabb innovációival.