Ha Pythont használ, még a legegyszerűbb feladatokhoz is, valószínűleg tisztában van a harmadik féltől származó könyvtárak fontosságával. A Pandas könyvtár, amely kiválóan támogatja a DataFrames-et, egy ilyen könyvtár.

Több típusú fájlt importálhat a Python DataFrames-be, és különféle verziókat hozhat létre különböző adatkészletek tárolására. Miután importálta az adatokat a DataFrames használatával, egyesítheti őket a részletes elemzés elvégzéséhez.

Az alapok kezelése

Mielőtt elkezdené az egyesítést, rendelkeznie kell DataFrames-szel az egyesítéshez. Fejlesztési célból létrehozhat néhány hamis adatot, amellyel kísérletezni lehet.

Hozd létre a DataFrame-eket Pythonban

Első lépésként importálja a Pandas könyvtárat a Python-fájlba. A Pandas egy harmadik féltől származó könyvtár, amely Pythonban kezeli a DataFrame-eket. Használhatja a import nyilatkozat a könyvtár használatáról, az alábbiak szerint:

import pandák mint pd

A kódhivatkozások lerövidítéséhez álnevet rendelhet a könyvtár nevéhez.

Szótárakat kell létrehoznia, amelyeket DataFrame-ekké konvertálhat. A legjobb eredmény érdekében hozzon létre két szótári változót –

instagram viewer
dict1 és dict2-meghatározott információk tárolására:

dict1 = {"Felhasználói azonosító": ["001", "002", "003", "004", "005"],
"FName": ["János", "Fejnélküli", "Ron", "Roald", "Chris"],
"LNév": ["Harley", "Cohen", "Dahl", "Harrington", "Kerr-Hislop"]}

dict2 = {"Felhasználói azonosító": ["001", "002", "003", "004"], "Kor": [15, 28, 34, 24]}

Ne feledje, hogy mindkét szótári értékben közös elemnek kell lennie, hogy később elsődleges kulcsként működjön a DataFrame-ek kombinálásához.

Alakítsa át szótárait DataFrame-ekké

A szótári értékek DataFrame-ekké alakításához a következő módszert használhatja:

df1 = pd. DataFrame (dict1)
df2 = pd. DataFrame (dict2)

Egyes IDE-k lehetővé teszik a DataFrame-en belüli értékek ellenőrzését a DataFrame függvényre való hivatkozással és a Futtatás/végrehajtás. Sokan vannak Python-kompatibilis IDE-k, így kiválaszthatja azt, amelyik a legkönnyebben megtanulható.

Ha elégedett a DataFrame-ek tartalmával, folytathatja az egyesítési lépést.

Keretek kombinálása az Egyesítés funkcióval

Az egyesítési funkció az első Python-függvény, amellyel két DataFrame-et kombinálhat. Ez a függvény a következő alapértelmezett argumentumokat veszi fel:

pd.merge (DataFrame1, DataFrame2, how= típusnak,-nekösszeolvad)

Ahol:

  • pd a Pandas könyvtár álneve.
  • összeolvad a DataFrame-okat egyesítő függvény.
  • DataFrame1 és DataFrame2 a két összevonandó DataFrame.
  • hogyan meghatározza az egyesítés típusát.

Néhány extra opcionális argumentum is elérhető, amelyeket összetett adatszerkezet esetén használhat.

Különböző értékeket használhat a how paraméterben a végrehajtandó összevonás típusának meghatározásához. Az ilyen típusú egyesítések ismerősek lesznek, ha már SQL-t használt az adatbázistáblák összekapcsolására.

Bal oldali összevonás

A bal oldali összevonási típus érintetlenül hagyja az első DataFrame értékeit, és lekéri a megfelelő értékeket a második DataFrame-ből.

Jobb egyesítés

A megfelelő összevonási típus érintetlenül tartja a második DataFrame értékeit, és lekéri az egyező értékeket az első DataFrame-ből.

Belső összeolvadás

A belső egyesítési típus megőrzi mindkét DataFrame-ből az egyező értékeket, és eltávolítja a nem egyező értékeket.

Külső összevonás

A külső összevonási típus megtartja az összes egyező és nem egyező értéket, és egyesíti a DataFrame-eket.

A Concat függvény használata

Az concat függvény rugalmas lehetőség a Python néhány más egyesítő funkciójához képest. A concat funkcióval a DataFrame-eket függőlegesen és vízszintesen kombinálhatja.

Ennek a funkciónak azonban az a hátránya, hogy alapértelmezés szerint elveti a nem egyező értékeket. Más kapcsolódó függvényekhez hasonlóan ennek a függvénynek is van néhány argumentuma, amelyek közül csak néhány nélkülözhetetlen a sikeres összefűzéshez.

concat (adatkeretek, tengely=0, join='külső'/belső)

Ahol:

  • concat az a függvény, amely a DataFrames-hez csatlakozik.
  • adatkeretek az összefűzendő DataFrame-ek sorozata.
  • tengely az összefűzés irányát jelöli, a 0 a vízszintes, az 1 a függőleges.
  • csatlakozik külső vagy belső csatlakozást határoz meg.

A fenti két DataFrame használatával a következőképpen próbálhatja ki a concat függvényt:

# definiálja az adatkereteket lista formátumban
df_merged_concat = pd.concat([df1, df2])

# nyomtatja ki a Concat függvény eredményeit
nyomtatás(df_merged_concat)

A tengely és az összekapcsolási argumentumok hiánya a fenti kódban egyesíti a két adatkészletet. Az eredményül kapott kimenet az összes bejegyzést tartalmazza, az egyezés állapotától függetlenül.

Hasonlóképpen további argumentumokat is használhat a concat függvény irányának és kimenetének szabályozására.

A kimenet vezérléséhez az összes egyező bejegyzéssel:

# Minden egyező érték összefűzése a két adatkeret között oszlopaik alapján
df_merged_concat = pd.concat([df1, df2], tengely=1, join = 'belső')

nyomtatás(df_merged_concat)

Az eredmény csak a két DataFrame közötti összes egyező értéket tartalmazza.

DataFrame-ek egyesítése Pythonnal

A DataFrame-ek rugalmasságuk és funkcionalitásuk miatt a Python szerves részét képezik. Tekintettel a sokrétű használatukra, széles körben használhatja őket különféle feladatok rendkívül egyszerű végrehajtására.

Ha még tanul a Python DataFrames-ről, próbáljon meg importálni néhány Excel-fájlt, majd kombinálja őket különböző megközelítésekkel.