Az elégtelen adat gyakran az egyik legnagyobb kudarc a legtöbb adattudományi projektben. Azonban annak ismerete, hogy miként gyűjthet adatokat minden olyan projekthez, amelybe belekezd, fontos tudás, amelyet adatkutatóként el kell sajátítania.
Az adattudósok és a gépi tanulási mérnökök ma már modern adatgyűjtési technikákat alkalmaznak, hogy több adatot gyűjtsenek a képzési algoritmusokhoz. Ha első adattudományi vagy gépi tanulási projektbe kezd, akkor képesnek kell lennie adatok megszerzésére is.
Hogyan teheti könnyebbé a folyamatot magának? Vessünk egy pillantást néhány olyan modern technikára, amelyek segítségével adatokat gyűjthet.
Miért van szükség több adatra az adattudományi projektjéhez?
A gépi tanulási algoritmusok az adatoktól függenek, hogy pontosabbá, pontosabbá és prediktívebbé váljanak. Ezeket az algoritmusokat adatkészletek felhasználásával képezzük ki. A képzési folyamat egy kicsit olyan, mint egy kisgyermeknek egy tárgy nevének első tanítása, majd lehetővé teszi számukra, hogy a következő látáskor egyedül azonosítsák.
Az emberi lényeknek csak néhány példára van szükségük egy új tárgy felismeréséhez. Ez nem így van egy gép esetében, mivel több száz vagy ezer hasonló példára van szüksége ahhoz, hogy megismerje egy tárgyat.
Ezeknek a példáknak vagy képzési objektumoknak adatok formájában kell megjelenniük. Ezután egy dedikált gépi tanulási algoritmus futtatja át az oktatási készletnek nevezett adatsort - és többet megtud róla, hogy pontosabbá váljon.
Ez azt jelenti, hogy ha nem ad meg elegendő adatot az algoritmus betanításához, akkor előfordulhat, hogy nem a megfelelő eredményt kapja a projekt végén, mert a gép nem rendelkezik elegendő adattal ahhoz, hogy tanuljon belőle.
Szükséges tehát megfelelő adatok beszerzése az eredmény pontosságának javítása érdekében. Nézzük meg az alábbiakban néhány olyan modern stratégiát, amelyekkel ezt elérheti.
1. Adatok kaparása közvetlenül egy weboldalról
A webes adatgyűjtés az internetről történő adatgyűjtés automatizált módja. A legalapvetőbb formájában a webes kaparás magában foglalhatja a weboldalon található elemek másolását és beillesztését egy helyi fájlba.
A webes kaparás azonban speciális szkriptek írását vagy dedikált eszközök használatát is jelenti az adatok közvetlen lekaparására egy weboldalról. Ez magában foglalhatja az adatok alaposabb felhasználását is Alkalmazás-programozási interfészek (API-k), például a Serpstack.
A serpstack API segítségével egyszerűen információkat gyűjthet a Google és más keresőmotorok eredményoldalairól.
Bár egyesek úgy vélik, hogy a webes kaparás szellemi tulajdon elvesztéséhez vezethet, ez csak akkor történhet meg, amikor az emberek rosszindulatúan cselekednek. A webes kaparás legális és segít a vállalkozásoknak jobb döntéseket hozni azáltal, hogy nyilvános információkat gyűjtenek ügyfeleikről és versenytársaikról.
Összefüggő: Mi az a webes kaparás? Hogyan gyűjtsünk adatokat weboldalakról
Például írhat egy szkriptet az online áruházak adatainak összegyűjtésére az árak és a rendelkezésre állás összehasonlítása érdekében. Bár lehet, hogy kicsit technikásabb, nyers adathordozókat, például audio fájlokat és képeket is gyűjthet az interneten.
Vessen egy pillantást az alábbi példakódra, hogy bepillantást nyerjen a Python-szal való webes kaparásba gyönyörű leves4 HTML elemző könyvtár.
a bs4-ből a BeautifulSoup importálása
from urllib.request import urlopen
url = "Ide írja be a cél weboldal teljes URL-jét"
targetPage = urlopen (url)
htmlReader = targetPage.read (). decode ("utf-8")
webData = BeautifulSoup (htmlReader, "html.parser")
nyomtatás (webData.get_text ())
A példakód futtatása előtt telepítenie kell a könyvtárat. Hozzon létre egy virtuális környezetet parancssorból, és futtatásával telepítse a könyvtárat pip telepítse a beautifulsoup4-et.
2. Webes űrlapokon keresztül
Az adatgyűjtéshez online űrlapokat is felhasználhat. Ez akkor a leghasznosabb, ha van olyan célcsoportja, akitől adatokat szeretne gyűjteni.
A webes űrlapok küldésének hátránya, hogy előfordulhat, hogy nem gyűjt annyi adatot, amennyit csak akar. Nagyon hasznos kis adattudományi projektek vagy oktatóanyagok esetében, de korlátokba ütközhet, ha nagy számú névtelen embert szeretne elérni.
Habár léteznek fizetett online adatgyűjtő szolgáltatások, ezeket nem ajánljuk magánszemélyeknek, mivel többnyire túl drágák - kivéve, ha nem zavarja, hogy pénzt költsön a projektre.
Különböző webes űrlapok állnak rendelkezésre az emberek adatainak gyűjtésére. Az egyik a Google Forms, amelyhez a hozzáféréssel férhet hozzá form.google.com. tudsz használja a Google űrlapokat az elérhetőségi adatok gyűjtéséhez, demográfiai adatok és egyéb személyes adatok.
Miután létrehozott egy űrlapot, mindössze annyit kell tennie, hogy elküldi a linket a célközönségnek e-mailben, SMS-ben vagy bármilyen elérhető módon.
A Google Forms azonban csak egy példa a népszerű internetes űrlapokra. Számos alternatíva létezik, amelyek kiváló adatgyűjtési feladatokat is végeznek.
Adatokat is gyűjthet olyan közösségi médiákon keresztül, mint a Facebook, a LinkedIn, az Instagram és a Twitter. Az adatok megszerzése a közösségi médiából valamivel technikásabb, mint bármely más módszer. Teljesen automatizált és különféle API eszközök használatával jár.
A közösségi médiából nehéz lehet adatokat kinyerni, mivel ezek viszonylag rendezetlenek, és rengeteg mennyiség van belőlük. Megfelelően szervezve az ilyen típusú adatkészlet hasznos lehet online tudományelemzéssel, piaci trendelemzéssel és online márkaépítéssel járó tudományprojektekben.
Például a Twitter egy példa egy közösségi média adatforrásra, ahol nagy mennyiségű adatkészletet gyűjthet vele tweepy Python API csomag, amelyet a pip telepíteni tweepy parancs.
Alapvető példaként megemlítem, hogy a Twitter kezdőlap tweetjeinek kibontására szolgáló kódblokk így néz ki:
import tweepy
import re
myAuth = tweepy. OAuthHandler (ide illessze be a consumer_key kulcsot, ide illessze be a consumer_secret kulcsot)
auth.set_access_token (ide illessze be az access_token szót, ide illessze be az access_token_secret szót)
hitelesít = tweepy. API (myAuth)
target_tweet = api.home_timeline ()
céloknál a target_tweet fájlban:
nyomtatás (target.text)
Meglátogathatja a docs.tweepy.org weboldal a tweepy dokumentáció a használatának további részleteiről. A Twitter API használatához be kell jelentkeznie egy fejlesztői fiókra a következő címen: developer.twitter.com weboldal.
A Facebook egy másik hatékony közösségi médiaplatform az adatok gyűjtésére. Egy speciális API végpontot használ, amelyet Facebook Graph API-nak hívnak. Ez az API lehetővé teszi a fejlesztők számára, hogy adatokat gyűjtsenek az egyes felhasználók viselkedéséről a Facebook platformon. A Facebook Graph API dokumentációját itt érheti el developers.facebook.com hogy többet megtudjon róla.
Az API-val történő közösségi média adatgyűjtés részletes magyarázata meghaladja a cikk kereteit. Ha további információkra kíváncsi, megnézheti az egyes platformok dokumentációját, hogy alapos ismereteket szerezzen róluk.
Az API-végponthoz való kapcsolódáshoz szükséges szkriptek írása mellett a közösségi média adatai harmadik féltől származó eszközök gyűjtésére is alkalmasak Kaparási szakértő és sok más is elérhető. Ezen webes eszközök többségének azonban ára van.
4. Előre létező adatkészletek gyűjtése hivatalos forrásokból
A már létező adatkészleteket mérvadó forrásokból is összegyűjtheti. Ez a módszer magában foglalja a hivatalos adatbankok felkeresését és az ellenőrzött adatkészletek letöltését azokból. A webes kaparással és más lehetőségekkel ellentétben ez az opció gyorsabb és kevés vagy egyáltalán nem igényel műszaki ismereteket.
Az ilyen típusú források adatkészletei általában CSV, JSON, HTML vagy Excel formátumban érhetők el. Néhány példa a mérvadó adatforrásokra Világbank, UNdata, és még sokan mások.
Egyes adatforrások a jelenlegi adatokat priváttá tehetik, hogy megakadályozzák a nyilvánosság hozzáférését hozzájuk. Archívumaik azonban gyakran letölthetők.
További hivatalos adatforrások a gépi tanulási projekthez
Ennek a listának jó kiindulópontot kell adnia ahhoz, hogy különböző típusú adatok működjenek együtt a projektjein.
- EU nyílt adatportál
- Kaggle adatkészletek
- Google Adatkészlet keresés
- Data Hub
- Nyílt adatok nyilvántartása az AWS-en
- Európai Kormányzati Ügynökség - adatok és térképek
- Microsoft Research nyílt adatok
- Félelmetes nyilvános adatkészletek tárháza a GitHub-on
- Adat. Gov: Az amerikai kormány nyílt adatainak otthona
Ennél sokkal több forrás létezik, és a gondos keresés a saját adattudományi projektjeihez tökéletes adatokkal jutalmazza.
Kombinálja ezeket a modern technikákat a jobb eredmények érdekében
Az adatgyűjtés unalmas lehet, ha a feladathoz rendelkezésre álló eszközök korlátozottak vagy nehezen érthetőek. Míg a régebbi és a hagyományos módszerek még mindig jól működnek, és egyes esetekben elkerülhetetlenek, a modern módszerek gyorsabbak és megbízhatóbbak.
Azonban ahelyett, hogy egyetlen módszerre hagyatkozna, az adatgyűjtés ezen modern módszereinek kombinációja jobb eredményeket hozhat.
Az adatelemzésbe kíván bekerülni? Íme néhány eszköz, amelyet meg kell tanulnia.
- Programozás
- Piton
- Nagy adat
- Gépi tanulás
- Adatgyűjtés
- Adatelemzés
Idowu minden okos technológiával és termelékenységgel rajong. Szabadidejében kódolással játszik, és ha unatkozik, átvált a sakktáblára, de imád egyszer-egyszer elszakadni a rutintól. Az a szenvedély, hogy megmutatja az embereknek a modern technológiát, további írásra ösztönzi.
Iratkozzon fel hírlevelünkre
Csatlakozzon hírlevelünkhöz, amely műszaki tippeket, véleményeket, ingyenes e-könyveket és exkluzív ajánlatokat tartalmaz!
Még egy lépés…!
Kérjük, erősítse meg e-mail címét az imént elküldött e-mailben.