30 panda parancs a DataFrame-ek manipulálásához

A pandakönyvtár egyszerűvé teszi a python-alapú adattudományt. Ez egy népszerű Python-könyvtár adatok olvasásához, egyesítéséhez, rendezéséhez, tisztításához és sok máshoz. Bár a pandák könnyen használhatók és alkalmazhatók adathalmazokon, számos adatmanipulációs funkciót kell megtanulniuk.

Használhat pandákat, de jó esély van rá, hogy nem használja fel az adatokkal kapcsolatos problémák megoldására. Íme a listánk az értékes adatokat manipuláló pandafunkciókról, amelyeket minden adatkutatónak tudnia kell.

Telepítse a pandákat a virtuális környezetébe

Mielőtt folytatnánk, feltétlenül telepítse a pandákat a virtuális környezetébe a pip használatával:

pip install pandák

Telepítés után importálja pandák a szkript tetején, és folytassuk.

1. pandák. DataFrame

Használod pandák. DataFrame() DataFrame létrehozásához pandákban. Kétféleképpen használhatja ezt a funkciót.

Adatkeretet oszloponként alakíthat ki, ha átad egy szótárt a pandák. DataFrame() funkció. Itt minden kulcs egy oszlop, míg az értékek a sorok:

instagram viewer

import pandákat
DataFrame = pandák. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
nyomtatás (DataFrame)

A másik módszer a DataFrame létrehozása a sorok között. De itt elválasztja az értékeket (sorelemeket) az oszlopoktól. Az egyes listákban lévő adatok számának (soradatoknak) meg kell egyeznie az oszlopok számával is.

import pandákat
DataFrame = pandák. DataFrame([[1, 4, 5], [7, 19, 13]], oszlopok= ["J", "K", "L"])
nyomtatás (DataFrame)

2. Olvassa ki és írjon Excel-be vagy CSV-be pandákban

A pandákkal Excel- vagy CSV-fájlokat olvashat vagy írhat.

Excel vagy CSV fájlok olvasása

Excel-fájl olvasásához:

#Cserélje ki az example.xlsx fájlt az Excel fájl elérési útjára
DataFrame = DataFrame.read_excel("example.xlsx")

A CSV-fájl olvasása a következőképpen történik:

#Cserélje ki az example.csv fájlt a CSV-fájl elérési útjával
DataFrame = DataFrame.read_csv("example.csv")

Írás Excelbe vagy CSV-be

Az Excel-be vagy CSV-be írás egy jól ismert pandaművelet. És praktikus az újonnan kiszámított táblázatok külön adatlapokba történő mentéséhez.

Írás Excel munkalapra:

DataFrame.to_excel("a_cél_mappa_teljes_útvonala/fájlnév.xlsx")

Ha CSV-be szeretne írni:

DataFrame.to_csv("a_cél_mappa_teljes_útvonala/fájlnév.csv")

Pandák segítségével is kiszámíthatja a DataFrame egyes oszlopainak központi tendenciáit.

A következőképpen kaphatja meg az egyes oszlopok átlagértékét:

DataFrame.mean()

A medián vagy mód értékhez cserélje ki átlagos() val vel középső() vagy mód().

4. DataFrame.transform

pandák DataFrame.transform() módosítja a DataFrame értékeit. Elfogad egy függvényt argumentumként.

Például az alábbi kód a DataFrame minden egyes értékét hárommal megszorozza Python lambda függvénye:

DataFrame = DataFrame.transzformáció (lambda y: y*3)
nyomtatás (DataFrame)

5. DataFrame.isnull

Ez a függvény egy logikai értéket ad vissza, és minden null értéket tartalmazó sort megjelöl mint Igaz:

DataFrame.isnull()

A fenti kód eredménye nehezen olvasható le nagyobb adatkészleteknél. Tehát használhatja a isnull().sum() funkció helyett. Ez az egyes oszlopokhoz tartozó összes hiányzó érték összegzését adja vissza:

DataFrame.isnull().sum()

6. Dataframe.info

A info() függvény egy alapvető panda működés. Ehelyett minden oszlophoz a nem hiányzó értékek összegzését adja vissza:

DataFrame.info()

7. DataFrame.describe

A leírni () függvény egy DataFrame összefoglaló statisztikáját adja:

DataFrame.describe()

8. DataFrame.replace

Használni a DataFrame.replace() metódussal a pandákban, lecserélheti a kiválasztott sorokat más értékekkel.

Például az érvénytelen sorok felcseréléséhez Nan:

# Győződjön meg róla, hogy pip install numpy, hogy ez működjön
import numpy
import pandákat
# Ha hozzáad egy helyben lévő kulcsszót, és igazra állítja, a változtatások véglegesek lesznek:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=True)
nyomtatás (DataFrame)

9. DataFrame.fillna

Ez a funkció lehetővé teszi az üres sorok kitöltését egy adott értékkel. Mindet kitöltheti Nan sorok egy adatkészletben az átlagértékkel, például:

DataFrame.fillna (df.mean(), inplace = igaz)
nyomtatás (DataFrame)

Oszlopspecifikus is lehet:

DataFrame['oszlop_neve'].fillna (df[oszlop_neve].mean(), inplace = igaz)
nyomtatás (DataFrame)

10. DataFrame.dropna

A dropna () metódus eltávolítja az összes null értéket tartalmazó sort:

DataFrame.dropna (inplace = igaz)
nyomtatás (DataFrame)

11. DataFrame.insert

Használhatod a pandákat insert() függvény új oszlop hozzáadásához a DataFrame-hez. Három kulcsszót fogad el, a oszlop neve, az adatainak listája és a elhelyezkedés, amely egy oszlopindex.

Ez a következőképpen működik:

DataFrame.insert (oszlop = 'C', érték = [3, 4, 6, 7], loc=0)
nyomtatás (DataFrame)

A fenti kód beszúrja az új oszlopot a nulla oszlop indexébe (ez lesz az első oszlop).

12. DataFrame.loc

Te tudod használni loc hogy megtalálja az elemeket egy adott indexben. Például a harmadik sor összes elemének megtekintéséhez:

DataFrame.loc[2]

13. DataFrame.pop

Ezzel a funkcióval eltávolíthat egy adott oszlopot a pandas DataFrame-ből.

Elfogad egy tétel kulcsszó, visszaadja a felugró oszlopot, és elválasztja a DataFrame többi részétől:

DataFrame.pop (item= 'oszlop_neve')
nyomtatás (DataFrame)

14. DataFrame.max, min

A maximális és minimális értékek lekérése pandák használatával egyszerű:

DataFrame.min()

A fenti kód minden oszlophoz a minimális értéket adja vissza. A maximum eléréséhez cserélje ki min val vel max.

15. DataFrame.join

A csatlakozik() A pandák funkciója lehetővé teszi a DataFrame-ek összevonását különböző oszlopnevekkel. Használhatja a bal, a jobb, a belső vagy a külső csatlakozást. Egy DataFrame két másikkal való összekapcsolása balra:

#Balra kapcsolja össze a hosszabb oszlopokat rövidebbekkel
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left') 
nyomtatás (newDataFrame)

Ha hasonló oszlopnevű DataFrame-ekhez szeretne csatlakozni, akkor megkülönböztetheti őket egy utótag bal vagy jobb oldali elhelyezésével. Ehhez a l utótag vagy rsufix kulcsszó:

newDataFrame = df1.join([df2, rsuffix='_', how='outer') 
nyomtatás (newDataFrame)

16. DataFrame.combine

A kombájn() A funkció jól használható két hasonló oszlopneveket tartalmazó DataFrame összevonásához a beállított feltételek alapján. Elfogadja a funkció kulcsszó.

Például két hasonló oszlopnevű DataFrame összevonásához csak a maximális értékek alapján:

newDataFrame = df.combine (df2, numpy.minimum)
nyomtatás (newDataFrame)

jegyzet: Egyéni kiválasztási funkciót és beszúrást is megadhat zsibbadt.minimum.

17. DataFrame.astype

A astype() függvény megváltoztatja egy adott oszlop vagy DataFrame adattípusát.

Ha például egy DataFrame összes értékét karakterláncra szeretné módosítani:

DataFrame.astype (str)

18. DataFrame.sum

A összeg() függvény a pandákban az egyes oszlopokban lévő értékek összegét adja vissza:

DataFrame.sum()

Megtalálhatja az összes használt elem összesített összegét is cumsum():

DataFrame.cumsum()

19. DataFrame.drop

pandák csepp() függvény törli a DataFrame bizonyos sorait vagy oszlopait. A használatához meg kell adnia az oszlopneveket vagy a sorindexet és egy tengelyt.

Adott oszlopok eltávolításához például:

df.drop (columns=['oszlop1', 'oszlop2'], tengely=0)

Például az 1., 3. és 4. indexen lévő sorok elvetéséhez:

df.drop([1, 3, 4], tengely=0)

20. DataFrame.corr

Szeretné megtalálni a korrelációt az egész vagy a lebegő oszlopok között? A pandák segíthetnek elérni ezt a corr() funkció:

DataFrame.corr()

A fenti kód egy új DataFrame-et ad vissza, amely tartalmazza az összes egész vagy float oszlop közötti korrelációs sorozatot.

21. DataFrame.add

A add() A funkció lehetővé teszi, hogy egy adott számot adjon a DataFrame minden egyes értékéhez. Úgy működik, hogy egy DataFrame-en keresztül iterál, és minden elemen működik.

Összefüggő:A ciklusok használata Pythonban

Ha például 20-at szeretne hozzáadni egy adott, egész számokat vagy lebegőpontokat tartalmazó oszlop minden értékéhez:

DataFrame['interger_column'].add (20)

22. DataFrame.sub

Az összeadás függvényhez hasonlóan a DataFrame-ben vagy egy adott oszlopban lévő minden értékből kivonhat egy számot:

DataFrame['interger_column'].sub (10)

23. DataFrame.mul

Ez a pandák összeadási függvényének szorzási változata:

DataFrame['interger_column'].mul (20)

24. DataFrame.div

Hasonlóképpen eloszthatja az oszlopban vagy a DataFrame-ben lévő minden adatpontot egy adott számmal:

DataFrame['interger_column'].div (20)

25. DataFrame.std

Használni a std() A pandák lehetővé teszik a DataFrame egyes oszlopainak szórásának kiszámítását is. Úgy működik, hogy egy adathalmaz minden oszlopát iterálja, és kiszámítja az egyes oszlopok szórását:

DataFrame.std()

26. DataFrame.sort_values

Az értékeket növekvő vagy csökkenő sorrendbe is rendezheti egy adott oszlop alapján. Például egy DataFrame csökkenő sorrendbe rendezéséhez:

newDataFrame = DataFrame.sort_values (by = "colmun_name", csökkenő = True)

27. DataFrame.melt

A olvad() függvény a pandákban a DataFrame oszlopait egyedi sorokra fordítja. Ez olyan, mint egy DataFrame anatómiájának feltárása. Így lehetővé teszi az egyes oszlopokhoz rendelt értékek explicit megtekintését.

newDataFrame = DataFrame.melt()

28. DataFrame.count

Ez a függvény az egyes oszlopokban lévő elemek teljes számát adja vissza:

DataFrame.count()

29. DataFrame.query

pandák lekérdezés() lehetővé teszi az elemek hívását az indexszámuk használatával. Például a harmadik sor elemeinek lekéréséhez:

DataFrame.query('4') # Hívja le a lekérdezést a negyedik indexen

30. DataFrame.hol

A ahol() A függvény egy pandas lekérdezés, amely elfogad egy feltételt egy oszlopban meghatározott értékek lekéréséhez. Például, hogy minden 30 év alatti korosztályt lekérjen egy Kor oszlop:

DataFrame.where (DataFrame['Age'] < 30)

A fenti kód egy DataFrame-et ad ki, amely minden 30 évnél fiatalabb kort tartalmaz, de hozzárendel Nan olyan sorokhoz, amelyek nem felelnek meg a feltételnek.

Kezelje az adatokat, mint egy profi pandákkal

A pandas funkciók és módszerek kincsesbányája a kis és nagyméretű adatkészletek Python segítségével történő kezelésére. A könyvtár az adatok tisztításához, érvényesítéséhez és elemzéshez vagy gépi tanuláshoz való előkészítéséhez is hasznos.

Ha időt szán ennek elsajátítására, az egyértelműen megkönnyíti adattudós életét, és megéri az erőfeszítést. Tehát nyugodtan vegye fel az összes használható funkciót.

20 Python-függvény, amit tudnia kell

A Python Standard Library számos olyan funkciót tartalmaz, amelyek segítik a programozási feladatokat. Ismerje meg a leghasznosabbakat, és hozzon létre robusztusabb kódot.

Olvassa el a következőt

RészvényCsipogEmail

Kapcsolódó témák

Programozás
Piton
Programozás
adatbázis

A szerzőről

Idowu Omisola (123 cikk megjelent)

Idowu szenvedélyesen rajong minden intelligens technológiáért és a termelékenységért. Szabadidejében kódolással játszik, és ha unatkozik sakktáblára vált, de a rutinból is szeret időnként kiszakadni. Szenvedélye, hogy megmutassa az embereknek a modern technológiát, arra sarkallja, hogy többet írjon.

Továbbiak Idowu Omisola-tól

Iratkozzon fel hírlevelünkre

Csatlakozzon hírlevelünkhöz műszaki tippekért, ismertetőkért, ingyenes e-könyvekért és exkluzív ajánlatokért!

Kattintson ide az előfizetéshez

About Technology - denizatm.com