A nagy adatvagyon zavaros, különösen akkor, ha webhelyekről, szerverekről vagy más adatforrásokról kell lekérnie őket.
A felhasználói felület alapú alkalmazások, mint például az MS Excel, alkalmasak egyszerű adatkészletek kezelésére, de nehézségekbe ütközhetnek, ha az adatok megnőnek. Ez jó ok arra, hogy áttérjen a Pythonra, hogy összetettebb adatalapú műveleteket hajtson végre.
A Python harmadik féltől származó könyvtára, a Pandas sokat segít a meglévő adatkészletek gyors rendezésében. Ha szeretné rendezni adatait Pythonban, ez a cikk néhány módszert ismertet a feladat végrehajtására.
A Python használatának előfeltételei az adatok rendezésére
Az adatok Pythonban való rendezése előtt gondoskodnia kell néhány előfeltételről:
- Töltse le a Python IDE-t. Használhatja a Python-kompatibilis IDE, mint például a Jupyter Notebook, a PyCharm és a Spyder. Ezek mindegyike kompatibilis az összes Python-verzióval.
- Telepítse a pandákat. Szükséged lesz a panda csomagra, amit tudsz telepíteni a PIP segítségével vagy a választott módszert.
- Mintaadatkészlet. Letöltés a minta adatkészlet gyakorolni a felsorolt kódokat. Alternatív megoldásként használhatja ezeket az eljárásokat kizárólagos adataira.
A Pandas Library importálása Pythonban
A Pandas egy harmadik féltől származó Python-könyvtár, amely Excel, CSV és egyéb adatformátumok kezelésére használható.
Ha egy Excel-mintafájllal szeretne dolgozni, kezdje a pandas könyvtár importálásával. Ezt követően használja a importálási eljárás az Excel adatok Pythonba történő olvasásához.
A könyvtár importálásához
import pandák mint pd
Hozzon létre egy új adatkeretet az Excel adatok betöltéséhez
fájl = "Minta - Superstore.xls"
df = pd.read_excel (fájl)
df.fej()
Ahol:
- df egy DataFrame objektum, amely az importált adatokat tárolja.
- pd a Pandas könyvtár álneve.
- read_excel egy módszer az Excel fájl Pythonba történő beolvasására.
- fájlt az Excel fájl elérési útja.
- fej egy olyan módszer, amely az első öt sort adja vissza a DataFrame-ből.
Miután a program betöltötte az adatokat, a számos rendelkezésre álló DataFrame metódus segítségével különféle módokon rendezheti azokat.
1. Rendezés egyetlen oszlop alapján egy DataFrame-ben
Mivel az adatok sok sorból és oszlopból állnak, gyakran egy adott oszlop vagy oszlopok alapján kívánja rendezni az adatokat.
A Python alapértelmezés szerint növekvő sorrendbe rendezi az adatokat. Ha módosítani szeretné a rendezési sorrendet, ezt kifejezetten meg kell említenie a kódjában.
Rendezés egyetlen oszlop szerint (növekvő sorrendben)
df.sort_values (by = "Ügyfél-azonosító")
Rendezés egyetlen oszlop szerint (csökkenő sorrendben)
Állítsa be a emelkedő paraméterhez Hamis hogy az oszlopot csökkenő sorrendbe rendezze.
df.sort_values (by = "Ügyfél-azonosító", növekvő = False)
Ahol:
- df egy DataFrame objektum, amely az adatokat tartalmazza.
- rendezési_értékek egy módszer az adatértékek szerinti rendezésre.
- által egy paraméter az oszlop nevének meghatározásához.
- emelkedő a rendezési sorrend meghatározására szolgáló paraméter.
2. Több oszlop rendezése egy DataFrame-ben
Ha igénye megkívánja, a DataFrame-et egyszerre több oszlop alapján is rendezheti. Ilyen forgatókönyvben meg kell határoznia az oszlophivatkozásokat egy listában.
Rendezés több oszlop szerint, növekvő sorrendben
df.sort_values (by = ["Ügyfél-azonosító", "Város"])
Rendezés több oszlop szerint, csökkenő sorrendben
Használja a funkciót növekvő = Hamis az oszlopok csökkenő sorrendbe rendezéséhez. Ne feledje, hogy egy listában meg kell adnia az oszlopok nevét, hogy egyidejűleg rendezze őket.
df.sort_values (by = ["Ügyfél-azonosító", "Város"], növekvő = hamis)
Rendezés több oszlop szerint különböző rendezési sorrendben
Mi történik a rendezés alapjaival, ha az egyik oszlopot csökkenő, a másikat pedig növekvő sorrendbe szeretné rendezni? E követelmények beépítéséhez kissé módosítania kell a kódot.
Például rendezni a Vidék és Város oszlopok csökkenő, illetve növekvő sorrendben:
df.sort_values (by = ["Vidék", "Város"], növekvő = [Hamis, igaz])
Ennek a kódnak a magyarázata egyszerű; megadod a DataFrame nevét és átadod a rendezési_értékek függvényt a lista oszlopneveivel együtt. Használnod kellene Boolean értékeket a rendezési sorrend megadásához.
A függvény ilyen hívása azt jelenti, hogy a Python először a DataFrame régió oszlopa szerint rendezi csökkenő sorrendben. Ezután az azonos Régióval rendelkező sorok a Város oszlop szerint lesznek rendezve, növekvő sorrendben.
3. Az oszlopok rendezése egy DataFrame-ben index szerint
Az indexváltozó a Python Dataframe-en belül minden sorhoz hozzárendelt alapértelmezett érték. Meghatározhatja az indexértékeket, vagy hagyhatja, hogy a Python önmagában állítson be egy indexértéket.
Az adatok indexérték szerinti rendezéséhez használhatja a sort_index funkció. Ez a függvény az index alapján rendez, nem pedig az eredeti adatkészletben található értékek alapján.
df.sort_index()
A sort_valueshez hasonlóan átadhat egy emelkedő paramétert a rendezés irányának megadásához. Például adjon meg egy értéket Hamis az adatok csökkenő sorrendbe rendezéséhez:
df.sort_index (növekvő = Hamis)
4. Oszlopok rendezése adatkeretben sorok helyett
A DataFrame sorainak rendezése helyett az oszlopait is rendezheti. Ezt úgy teheti meg, hogy meghívja a sort_index metódust, és átadja azt tengely paraméter értékével 1:
df.sort_index (tengely=1)
Ez a lépés a DataFrame-et oszlopai szerint növekvő sorrendbe rendezi. A DataFrame oszlopainak csökkenő sorrendbe rendezéséhez a rendezési lépésben megadhatja a rendezési sorrendet.
df.sort_index (tengely=1, növekvő = Hamis)
5. A DataFrame módosítása rendezés közben
A két rendezési módszer úgy működik, hogy visszaadja az eredeti adatok másolatát, újonnan rendezett állapotában. Tárhely megtakarításához vagy egyszerűen tömörebb kód írásához módosíthatja az eredeti DataFrame adatokat. Mindegyik módszer elfogad egy a helyén logikai paraméter, amely módosítja az adatokat, nem pedig módosított másolatot ad vissza.
df.sort_values (by = ["Ügyfél-azonosító", "Város"], növekvő = hamis, inplace = igaz)
Tanulja meg az adatok rendezését Pythonban
A Python néhány soros kóddal replikálja az Excel számos beépített funkcióját. A rendezési eljárásoktól kezdve az adatokon kidolgozott Pivot-táblázatok létrehozásáig el kell nevezni, és ezt megteheti a Pythonban.
Ha még nem ismeri a Pythont, és megtanulja a kötelet, ezek a lépések viszonylag könnyen fejlesztik kódolási készségeiket.