Hirdetés
Ha online adatbázisokról és információkról van szó, amelyek megtalálhatók az úgynevezett „láthatatlan web A 12 legjobb keresőmotor a láthatatlan web felfedezéséreA Google vagy a Bing nem tud mindenre rákeresni. A láthatatlan web felfedezéséhez ezeket a speciális keresőmotorokat kell használnia. Olvass tovább ", nem vagyok az Ön tipikus felhasználója. Persze egy kicsit túl sok időmből olvasok online adatbázisokat olyan helyeken, mint a Nemzeti Levéltár és a CIA FOIA. de azt kell mondanom, hogy semmi sem izgat jobban, mint amikor találok egy HTML alapú táblázatot, amely tele van látszólag bonyolult és nem összekapcsolt anyagokkal. adat.
Az a tény, hogy az adattáblázatok fontos igazságok aranybányái. Az adatokat gyakran a földön heverő, adatgyűjtési morgások seregei gyűjtik össze. Az Egyesült Államok népszámlálása során az egész országot beutazták háztartási és családi információkért. Vannak nonprofit környezetvédelmi csoportjai, amelyek mindenféle érdekes információt gyűjtenek a környezetről, a szennyezésről, a globális felmelegedésről és egyebekről. Ha pedig a paranormális jelenségeket vagy az ufológiát szereti, akkor folyamatosan frissülő táblázatok találhatók a felettünk lévő égbolton észlelt furcsa tárgyakról.
Ironikus módon azt hinné az ember, hogy a világ bármely kormányát érdekelné, hogy milyen Bármely ország felett külföldi hajókat észlelnek az egekben, de úgy tűnik, nem – legalábbis az Egyesült Államokban nem. különben is. Amerikában a szokatlan kézműves megfigyelések gyűjteménye amatőr hobbicsapatokhoz került, akik úgy özönlenek az új UFO-észlelésekre, mint a lepke a lángra. Az ilyen megfigyelések iránti érdeklődésem valójában nem az idegenek vagy más bolygókról származó kézművesség iránti rajongásomból fakad, hanem a minták iránti tudományos vonzalomból – hol és miért látnak többen dolgokat az égen, és hogy ezek a megfigyelések valami nagyon valóságos és sokkal földhözragadtabb dologra utalhatnak-e tovább.
Az UFO-hobbi csapatok által gyűjtött adatok mennyiségének feltárása érdekében kidolgoztam egy módszert a nagy HTML-táblázatok importálására. az adatokat egy Google-táblázatba, majd az adatok manipulálásával és elemzésével kinyerheti és felfedezheti az értelmes és fontosakat információ. Ebben a cikkben szeretném megmutatni, hogyan kell ezt megtenni.
Fontos HTML adatok a Google Táblázatba
Ebben a példában megmutatom, hogyan importálhat bármilyen adatot a Google Táblázatba, amely az internet bármely webhelyén található táblázatban. Gondoljon arra a hatalmas mennyiségű adatra, amely ma HTML-táblázatok formájában elérhető az interneten. Egyedül a Wikipédia táblázatokban tartalmaz adatokat olyan témákhoz, mint globális felmelegedés, az Egyesült Államok Népszámlálási Hivatalának rengeteg lakossági adatkészletek, és egy kis google-zás ezen túlmenően sokkal többet ér el.
Példámban a Nemzeti UFO-jelentési Központ adatbázisával kezdem, amely valójában úgy néz ki, mintha egy lekérdezési stílusú mélywebes adatbázis lenne, de ha megfigyeli a Az URL strukturálása valójában egy félig összetett web alapú jelentéskészítő rendszer, amely statikus weboldalakból és statikus HTML-táblázatokból áll – pontosan ezt akarjuk, amikor adatokat keresünk import.
A NUForc.org egyike azon szervezeteknek, amelyek az UFO-észlelések egyik legnagyobb jelentési központjaként szolgálnak. Nem ez az egyetlen, de elég nagy ahhoz, hogy minden hónapban új adatkészleteket találjon az aktuális észlelésekről. Kiválaszthatja, hogy az adatokat olyan kritériumok szerint tekintse meg, mint az Állam vagy a Dátum, és ezek mindegyike egy statikus oldal formájában jelenik meg. Ha dátum szerint rendez, majd rákattint a legutóbbi dátumra, akkor látni fogja, hogy az ott felsorolt táblázat egy statikus weboldal, amelyet a dátumformátum szerint neveztek el.
Tehát most van egy olyan mintánk, amellyel rendszeresen kinyerjük a legfrissebb észlelési információkat ebből a HTML-alapú adatbázisból. Csak importálnia kell az első táblát, és a legfrissebb bejegyzést (a legfelsőt) használja az azonosításhoz legfrissebb frissítést, majd használja a közzététel dátumát az URL-hivatkozás létrehozásához, ahol a legújabb HTML-adattábla található létezik. Ehhez egyszerűen csak néhány példányra van szükség az ImportHTML függvényből, majd néhány kreatív szövegmanipulációs funkció használatára. Ha elkészült, az egyik legmenőbb, önfrissülő jelentési táblázata lesz. Lássunk neki.
Táblázatok importálása és adatok kezelése
Az első lépés természetesen az új táblázat elkészítése.
Tehát hogyan importálhat HTML-táblákat? Csak a táblázat URL-címére van szüksége, és az oldalon lévő táblázat számára – általában az elsőként felsorolt 1, a második 2, és így tovább. Mivel ismerem annak az első táblázatnak az URL-címét, amely felsorolja a dátumokat és a megfigyelések számát, lehetséges az importálás a következő függvény A1-es cellába való beírásával.
=importhtml(" http://www.nuforc.org/webreports/ndxpost.html?”&H2,”table”,1)
A H2 a következőt tartalmazza=óra (most())", tehát a táblázat óránként frissül. Ez valószínűleg szélsőséges azoknál az adatoknál, amelyek ezt ritkán frissítik, így valószínűleg megúsznám, ha naponta csinálnám. Mindenesetre a fenti ImportHTML függvény behozza az alábbi táblázatot.
Egy kis adatmanipulációt kell végeznie ezen az oldalon, mielőtt összeállíthatja az összes UFO-észlelést tartalmazó második táblázat URL-címét. De folytassa és hozza létre a második lapot a munkafüzetben.
Mielőtt megpróbálná elkészíteni a második lapot, ideje kivonni a bejegyzés dátumát ebből az első táblázatból, hogy létrehozza a második táblázatra mutató hivatkozást. A probléma az, hogy a dátum dátumformátumként van beírva, nem karakterláncként. Tehát először a SZÖVEG függvényt kell használnia a jelentés feladási dátumának karakterláncsá alakításához:
=szöveg (A2”hh/nn/éé”)
A jobb oldali következő cellában használja a SPLIT függvényt a „/” határolóval, hogy a dátumot hónapra, napra és évre bontsa.
=felosztás (D2”/”)
Jól néz ki! Azonban minden számot két számjegyűre kell kényszeríteni. Ezt a közvetlenül alattuk lévő cellákban teheti meg ismét a SZÖVEG paranccsal.
=szöveg (E2"00")
A „00” formátum (ezek nullák) két számjegyet vagy „0”-t kényszerít ki helyőrzőként.
Most már készen áll a teljes URL újjáépítésére az új észleléseket tartalmazó legújabb HTML-táblázatba. Ezt a CONCATENATE funkció használatával teheti meg, és az első táblából kinyert információ összes bitjét összeilleszti.
=összefűz(“ http://www.nuforc.org/webreports/ndxp”,G3,E3,F3,”.html”)
Most a fent létrehozott új lapon (az üres lapon) egy új „importhtml” függvényt fog végrehajtani, de ezúttal először URL link paraméter, így vissza kell lépnie az első táblázathoz, és rá kell kattintania az imént létrehozott URL-hivatkozás cellájára.
A második paraméter a „tábla”, az utolsó pedig „1” (mivel a megfigyelési táblázat az első és egyetlen az oldalon). Nyomja le az Enter billentyűt, és most importálta az adott napon közzétett megfigyelések teljes mennyiségét.
Tehát valószínűleg azt gondolja, hogy ez egy szép újdonság, és minden – úgy értem, végül is, amit csináltál, azt kivonják meglévő információkat az interneten lévő táblázatból, és áttelepítette egy másik táblába, bár egy privát táblába a Google Dokumentumokban fiókot. Igen, ez igaz. Most azonban, hogy ez a saját privát Google Dokumentumok-fiókjában van, kéznél vannak azok az eszközök és funkciók, amelyek segítségével jobban elemezheti ezeket az adatokat, és elkezdheti felfedezni a csodálatos kapcsolatokat.
Pivot jelentések használata az importált adatok elemzésére
Nemrég írtam egy cikket a használatáról Pivot jelentések a Google Táblázatban Legyen szakértő adatelemző egyik napról a másikra a Google Spreadsheet Report Tools használatávalTudta, hogy az adatok elemzésének egyik legjobb eszköze a Google Táblázat? Ennek nem csak az az oka, hogy szinte mindent meg tud csinálni, amit csak szeretne... Olvass tovább hogy mindenféle klassz adatelemzési bravúrt hajtson végre. Nos, ugyanazt a csodálatos adatelemzési akrobatikát végezheti el az internetről importált adatokkal - lehetőséget ad arra, hogy érdekes összefüggéseket tárjon fel, amelyeket valószínűleg senki más nem fedezett fel te.
Például a végső megfigyelési táblázatból úgy dönthetek, hogy egy pivot jelentést használok, hogy megnézzem a az egyes államokban jelentett különböző egyedi alakzatok, összehasonlítva az adott megfigyelések teljes számával állapot. Végül kiszűrök mindent, ami „idegeneket” említ a megjegyzés rovatban, hogy remélhetőleg kiszűrjem a szárnyasabb bejegyzéseket.
Ez valójában nagyon érdekes dolgokat tár fel azonnal, például azt a tényt, hogy egyértelműen Kaliforniában van a legmagasabb bármely más államban jelentett megfigyelések száma, valamint a legnagyobb számú vízi jármű alakzatának bejelentése az országban ország. Ebből is látszik, hogy Massachusetts, Florida és Illinois is nagy sikereket aratott az UFO-észlelések osztályán (legalábbis a legfrissebb adatok szerint).
Egy másik nagyszerű dolog a Google Táblázatban az Ön számára elérhető diagramok széles skálája, beleértve a Geo-Map-et, amely lehetővé teszi az adatok „forró pontjait” olyan grafikus formátumban helyezze el, amely igazán kiemelkedik, és az adatokon belüli kapcsolatokat nagyon jól alakítja. nyilvánvaló.
Ha belegondolunk, ez valójában csak a jéghegy csúcsa. Ha most az Internet bármely oldalán lévő adattáblázatokból importálhat adatokat, gondoljon csak a lehetőségekre. Szerezd meg a legfrissebb készletszámokat, vagy a New York Times bestsellerlistáján szereplő 10 legfrissebb könyvet és szerzőt, vagy a világ legtöbbet eladott autóit. Szinte minden elképzelhető témában vannak HTML-táblázatok, és sok esetben ezeket a táblázatokat gyakran frissítik.
Az ImportHtml lehetővé teszi, hogy a Google Táblázatát az internethez csatlakoztassa, és az ott meglévő adatokat táplálja. Saját személyes információközpontjává válhat, amelyet manipulálhat és olyan formátumba masszírozhat, amellyel ténylegesen dolgozni is tud. Ez csak egy nagyon klassz dolog, amit szeretni kell a Google Spreadsheetben.
Importált már adatokat a táblázataiba? Milyen érdekességeket fedezett fel ezekben az adatokban? Hogyan használtad fel az adatokat? Ossza meg tapasztalatait és ötleteit az alábbi megjegyzések részben!
A kép forrásai: Üzleti grafikon
Ryan villamosmérnök BSc diplomával rendelkezik. 13 évet dolgozott automatizálási mérnöki területen, 5 évet IT területen, jelenleg pedig alkalmazásmérnök. A MakeUseOf korábbi ügyvezető szerkesztőjeként felszólalt országos adatvizualizációs konferenciákon, és szerepelt a nemzeti tévében és rádióban.