Egy adatkészlet elemzéséhez először meg kell értenie az adatokat. Előfordulhat, hogy nem rendelkezik előzetes ismeretekkel egy adatkészletről, ami megakadályozza, hogy a legtöbbet hozza ki belőle. Adatelemzőként a feltáró adatelemzés (EDA) segítségével megismerheti adatkészletét a mélyreható elemzés előtt.
A feltáró adatelemzés (EDA) egy adatkészletet vizsgál, hogy értelmes betekintést nyerjen. Az EDA végrehajtásának folyamata magában foglalja az adathalmaz szerkezetére és tartalmára vonatkozó információk lekérdezését.
A Gota csomag telepítése
A Gota csomag a legnépszerűbb adatelemzés in Go; olyan, mint a Python Pandas csomag hanem a Gonak. A Gota csomag számos módszert tartalmaz az adatkészletek elemzésére és a JSON, CSV és HTML formátumok olvasására.
Futtassa ezt a parancsot a terminálon abban a könyvtárban, ahol inicializált egy Go modul fájlt:
megy get -u github.com/megy-van/van
A parancs telepíti a Gotát a helyi könyvtárba, és készen áll a csomag importálására a használatához.
A Pandához hasonlóan a Gota is támogatja a sorozat- és adatkeret-műveleteket. A Gota csomagban két alcsomag található: a sorozat és a dataframe csomag. Igényeitől függően az egyiket vagy mindkettőt importálhatja.
import (
"github.com/megy-gota/gota/series"
"github.com/megy-gota/gota/dataframe"
)
Adatkészlet olvasása a Gota csomag használatával
Bármilyen CSV-fájlt használhat, de a következő példák a következőből származó eredményeket mutatják be egy Kaggle adatkészlet, amely laptop áradatokat tartalmaz.
A Gota lehetővé teszi a CSV, JSON és HTML fájlformátumok olvasását, hogy adatkereteket hozzon létre a Olvassa el a CSV-t, Olvassa el a JSON-t, és Olvassa el a HTML-t mód. A következőképpen tölthet be egy CSV-fájlt egy adatkeret objektumba:
fájl, err := os. Megnyitás ("/csv-fájl/útvonala.csv")
ha hiba! = nulla {
fmt. Println("fájl megnyitási hiba")
}
dataFrame := adatkeret. CSV olvasása(fájl)
fmt. Println (dataFrame)
Használhatja a Nyisd ki módszere a os csomagot egy CSV-fájl megnyitásához. A ReadCSV metódus beolvassa a fájlobjektumot, és egy adatkeret objektumot ad vissza.
Amikor kinyomtatja ezt az objektumot, a kimenet táblázatos formátumban jelenik meg. Tovább manipulálhatja az adatkeret objektumot a Gota különféle módszereivel.
Az objektum csak néhány oszlopot nyomtat ki, ha egy adatkészlet több mint beállított értéket tartalmaz.
Az adatkészlet dimenziójának lekérése
Az adatkeret méretei a benne lévő sorok és oszlopok száma. Ezeket a méreteket a Elsötétül az adatkeret objektum metódusa.
var sorok, oszlopok = dataFrame. Dims()
Cserélje ki az egyik változót aláhúzásjelre, hogy csak a másik dimenziót kapja meg. A sorok és oszlopok számát külön-külön is lekérdezheti, a Nrow és Ncol mód.
var sorok = dataFrame. Nrow()
var oszlopok = dataFrame. Ncol()
Az oszlopok adattípusainak lekérése
Az adatkészlet elemzéséhez ismernie kell az összetett adattípusokat az adatkészlet oszlopaiban. Ezeket a Típusok az adatkeret objektum metódusa:
var típusok = dataFrame. Típusok ()
fmt. Println (típusok)
A Types metódus az oszlop adattípusait tartalmazó szeletet ad vissza:
Az oszlopnevek lekérése
Szüksége lesz az oszlopnevekre, hogy konkrét oszlopokat válasszon ki a műveletekhez. Használhatja a Nevek lekérésének módja.
var oszlopnevek := dataFrame. nevek()
fmt. Println (oszlopnevek)
A Names metódus az oszlopnevek egy szeletét adja vissza.
Hiányzó értékek ellenőrzése
Lehet, hogy van egy adatkészlete, amely null vagy nem numerikus értékeket tartalmaz. Az ilyen értékeket a segítségével ellenőrizheti HasNaN és IsNaN sorozatobjektum metódusai:
aCol := dataFrame. Col("megjelenítési_méret")
var hasNull = aCol. HasNaN()
var isNotNumber = aCol. IsNaN()
A HasNan ellenőrzi, hogy egy oszlop tartalmaz-e null elemeket. Az IsNaN logikai értékek egy szeletét adja vissza, amely azt jelzi, hogy az oszlopban lévő egyes értékek számok-e.
Leíró statisztikai elemzés elvégzése
Leíró statisztikai elemzés segít megérteni a numerikus oszlopok eloszlását. Használni a Írd le módszerrel leíró statisztikai elemzést készíthet az adatkészletéről:
leírás := dataFrame. Leírás()
fmt. Println (leírás)
A Leírás metódus olyan mérőszámokat ad vissza, mint az adatkészlet oszlopainak átlaga, szórása és maximális értéke. Ezeket táblázatos formában foglalja össze.
Konkrét is lehet, és az oszlopokra és mutatókra összpontosíthat, ha kiválaszt egy adott oszlopot, majd lekérdezi a kívánt mutatót. Először le kell kérnie egy adott oszlopot képviselő sorozatot, majd használja a módszereit, például:
aCol := dataFrame. Col("megjelenítési_méret")
var átlag = aCol. Átlagos()
var medián = aCol. Középső()
var minimum = aCol. Min()
var standardDeviation = aCol. StdDev()
var maximum = aCol. Max()
var quantiles25 = aCol. Quantile(25.0)
Ezek a módszerek tükrözik a Describe által végzett leíró statisztikai elemzés eredményeit.
Az elemek lekérése egy oszlopban
Az egyik utolsó feladat, amelyet el szeretne végezni, hogy ellenőrizze az értékeket egy oszlopban az általános áttekintés érdekében. Használhatja a Records módszer egy oszlop értékeinek megtekintéséhez.
aCol := dataFrame. Col("márka")
fmt. Println (aCol. Feljegyzések())
Ez a metódus a kiválasztott oszlop értékeit tartalmazó karakterláncok szeletét adja vissza:
Gota Dataframe exportálása fájlba
Ha úgy dönt, hogy tovább megy, és a Gota csomagot használja a teljes adatelemzéshez, akkor az adatokat fájlokban kell mentenie. Használhatja a Írj CSV-t és WriteJSON a dataframe módszerei a fájlok exportálásához. A metódusok egy fájlt vesznek fel, amelyet a következővel fog létrehozni os csomagok Teremt módszer.
Így exportálhat adatkeretet a Gota csomag használatával.
dataFrame := adatkeret. CSV olvasása(fájl)
outputFile, err := os. Create("output.csv")ha hiba! = nulla {
log. Végzetes (hiba)
}err = dataFrame. CSV írása(kimeneti fájl)
ha hiba! = nulla {
log. Fatalln("Hiba történt az adatkeret tartalmának a fájlba írásakor")
}
Az dataFrame változó az adatkeret reprezentációja. Amikor használja a Teremt módszere a os csomagot, létrehoz egy új, üres fájlt a megadott névvel, és visszaadja a fájlt. A WriteCSV metódus beveszi a fájlpéldányt, és hibát, ill nulla ha nincs hiba.
A feltáró adatelemzés fontos
Az adatok és adatkészletek ismerete elengedhetetlen az adatelemzők és a gépi tanulási szakértők számára. Ez egy kritikus művelet a munkaciklusukban, és a feltáró adatelemzés az egyik technikája, amelyet ennek elérésére használnak.
A Gota csomagban több is van. Ugyanúgy használhatja különféle adatrögzítő funkciókhoz, mint a Python Pandas könyvtárat adatelemzéshez. A Gota azonban nem támogat annyi funkcionalitást, mint a Pandák.