A nagy adatvagyon zavaros, különösen akkor, ha webhelyekről, szerverekről vagy más adatforrásokról kell lekérnie őket.

A felhasználói felület alapú alkalmazások, mint például az MS Excel, alkalmasak egyszerű adatkészletek kezelésére, de nehézségekbe ütközhetnek, ha az adatok megnőnek. Ez jó ok arra, hogy áttérjen a Pythonra, hogy összetettebb adatalapú műveleteket hajtson végre.

A Python harmadik féltől származó könyvtára, a Pandas sokat segít a meglévő adatkészletek gyors rendezésében. Ha szeretné rendezni adatait Pythonban, ez a cikk néhány módszert ismertet a feladat végrehajtására.

A Python használatának előfeltételei az adatok rendezésére

Az adatok Pythonban való rendezése előtt gondoskodnia kell néhány előfeltételről:

  • Töltse le a Python IDE-t. Használhatja a Python-kompatibilis IDE, mint például a Jupyter Notebook, a PyCharm és a Spyder. Ezek mindegyike kompatibilis az összes Python-verzióval.
  • Telepítse a pandákat. Szükséged lesz a panda csomagra, amit tudsz telepíteni a PIP segítségével vagy a választott módszert.
  • instagram viewer
  • Mintaadatkészlet. Letöltés a minta adatkészlet gyakorolni a felsorolt ​​kódokat. Alternatív megoldásként használhatja ezeket az eljárásokat kizárólagos adataira.

A Pandas Library importálása Pythonban

A Pandas egy harmadik féltől származó Python-könyvtár, amely Excel, CSV és egyéb adatformátumok kezelésére használható.

Ha egy Excel-mintafájllal szeretne dolgozni, kezdje a pandas könyvtár importálásával. Ezt követően használja a importálási eljárás az Excel adatok Pythonba történő olvasásához.

A könyvtár importálásához

import pandák mint pd

Hozzon létre egy új adatkeretet az Excel adatok betöltéséhez

fájl = "Minta - Superstore.xls"
df = pd.read_excel (fájl)
df.fej()

Ahol:

  • df egy DataFrame objektum, amely az importált adatokat tárolja.
  • pd a Pandas könyvtár álneve.
  • read_excel egy módszer az Excel fájl Pythonba történő beolvasására.
  • fájlt az Excel fájl elérési útja.
  • fej egy olyan módszer, amely az első öt sort adja vissza a DataFrame-ből.

Miután a program betöltötte az adatokat, a számos rendelkezésre álló DataFrame metódus segítségével különféle módokon rendezheti azokat.

1. Rendezés egyetlen oszlop alapján egy DataFrame-ben

Mivel az adatok sok sorból és oszlopból állnak, gyakran egy adott oszlop vagy oszlopok alapján kívánja rendezni az adatokat.

A Python alapértelmezés szerint növekvő sorrendbe rendezi az adatokat. Ha módosítani szeretné a rendezési sorrendet, ezt kifejezetten meg kell említenie a kódjában.

Rendezés egyetlen oszlop szerint (növekvő sorrendben)

df.sort_values ​​(by = "Ügyfél-azonosító")

Rendezés egyetlen oszlop szerint (csökkenő sorrendben)

Állítsa be a emelkedő paraméterhez Hamis hogy az oszlopot csökkenő sorrendbe rendezze.

df.sort_values ​​(by = "Ügyfél-azonosító", növekvő = False)

Ahol:

  • df egy DataFrame objektum, amely az adatokat tartalmazza.
  • rendezési_értékek egy módszer az adatértékek szerinti rendezésre.
  • által egy paraméter az oszlop nevének meghatározásához.
  • emelkedő a rendezési sorrend meghatározására szolgáló paraméter.

2. Több oszlop rendezése egy DataFrame-ben

Ha igénye megkívánja, a DataFrame-et egyszerre több oszlop alapján is rendezheti. Ilyen forgatókönyvben meg kell határoznia az oszlophivatkozásokat egy listában.

Rendezés több oszlop szerint, növekvő sorrendben

df.sort_values ​​(by = ["Ügyfél-azonosító", "Város"])

Rendezés több oszlop szerint, csökkenő sorrendben

Használja a funkciót növekvő = Hamis az oszlopok csökkenő sorrendbe rendezéséhez. Ne feledje, hogy egy listában meg kell adnia az oszlopok nevét, hogy egyidejűleg rendezze őket.

df.sort_values ​​(by = ["Ügyfél-azonosító", "Város"], növekvő = hamis)

Rendezés több oszlop szerint különböző rendezési sorrendben

Mi történik a rendezés alapjaival, ha az egyik oszlopot csökkenő, a másikat pedig növekvő sorrendbe szeretné rendezni? E követelmények beépítéséhez kissé módosítania kell a kódot.

Például rendezni a Vidék és Város oszlopok csökkenő, illetve növekvő sorrendben:

df.sort_values ​​(by = ["Vidék", "Város"], növekvő = [Hamis, igaz])

Ennek a kódnak a magyarázata egyszerű; megadod a DataFrame nevét és átadod a rendezési_értékek függvényt a lista oszlopneveivel együtt. Használnod kellene Boolean értékeket a rendezési sorrend megadásához.

A függvény ilyen hívása azt jelenti, hogy a Python először a DataFrame régió oszlopa szerint rendezi csökkenő sorrendben. Ezután az azonos Régióval rendelkező sorok a Város oszlop szerint lesznek rendezve, növekvő sorrendben.

3. Az oszlopok rendezése egy DataFrame-ben index szerint

Az indexváltozó a Python Dataframe-en belül minden sorhoz hozzárendelt alapértelmezett érték. Meghatározhatja az indexértékeket, vagy hagyhatja, hogy a Python önmagában állítson be egy indexértéket.

Az adatok indexérték szerinti rendezéséhez használhatja a sort_index funkció. Ez a függvény az index alapján rendez, nem pedig az eredeti adatkészletben található értékek alapján.

df.sort_index()

A sort_valueshez hasonlóan átadhat egy emelkedő paramétert a rendezés irányának megadásához. Például adjon meg egy értéket Hamis az adatok csökkenő sorrendbe rendezéséhez:

df.sort_index (növekvő = Hamis)

4. Oszlopok rendezése adatkeretben sorok helyett

A DataFrame sorainak rendezése helyett az oszlopait is rendezheti. Ezt úgy teheti meg, hogy meghívja a sort_index metódust, és átadja azt tengely paraméter értékével 1:

df.sort_index (tengely=1)

Ez a lépés a DataFrame-et oszlopai szerint növekvő sorrendbe rendezi. A DataFrame oszlopainak csökkenő sorrendbe rendezéséhez a rendezési lépésben megadhatja a rendezési sorrendet.

df.sort_index (tengely=1, növekvő = Hamis)

5. A DataFrame módosítása rendezés közben

A két rendezési módszer úgy működik, hogy visszaadja az eredeti adatok másolatát, újonnan rendezett állapotában. Tárhely megtakarításához vagy egyszerűen tömörebb kód írásához módosíthatja az eredeti DataFrame adatokat. Mindegyik módszer elfogad egy a helyén logikai paraméter, amely módosítja az adatokat, nem pedig módosított másolatot ad vissza.

df.sort_values ​​(by = ["Ügyfél-azonosító", "Város"], növekvő = hamis, inplace = igaz)

Tanulja meg az adatok rendezését Pythonban

A Python néhány soros kóddal replikálja az Excel számos beépített funkcióját. A rendezési eljárásoktól kezdve az adatokon kidolgozott Pivot-táblázatok létrehozásáig el kell nevezni, és ezt megteheti a Pythonban.

Ha még nem ismeri a Pythont, és megtanulja a kötelet, ezek a lépések viszonylag könnyen fejlesztik kódolási készségeiket.