Tudta, hogy a Google Táblázatok segítségével adatokat lehet lekaparni egy webhelyről? Így teheti meg.

A webkaparás egy hatékony technika a webhelyekről információk kinyerésére és automatikus elemzésére. Bár ezt manuálisan is megteheti, fárasztó és időigényes feladat lehet. A webkaparó eszközök gyorsabbá és hatékonyabbá teszik a folyamatot, miközben kevesebbe kerül.

Érdekes módon a Google Táblázatok az IMPORTXML funkciónak köszönhetően az Ön egyablakos internetes selejtező eszközévé válhat. Az IMPORTXML segítségével könnyedén lekaparhatja az adatokat a weboldalakról, és felhasználhatja elemzésekhez, jelentésekhez vagy bármilyen más adatvezérelt feladathoz.

Az IMPORTXML függvény a Google Táblázatokban

A Google Táblázatok egy IMPORTXML nevű beépített funkciót biztosít, amely lehetővé teszi az adatok importálását olyan webformátumokból, mint az XML, HTML, RSS és CSV. Ez a funkció megváltoztathatja a játékot, ha adatokat szeretne gyűjteni webhelyekről anélkül, hogy bonyolult kódolást kellene igénybe vennie.

instagram viewer

Íme az IMPORTXML alapvető szintaxisa:

=IMPORTXML(url, xpath_query)
  • url: Annak a weboldalnak az URL-címe, amelyről adatokat szeretne kimásolni.
  • xpath_query: Az XPath lekérdezés, amely meghatározza a kivonatolni kívánt adatokat.

Az XPath (XML Path Language) egy olyan nyelv, amely az XML dokumentumokban való navigálásra szolgál, beleértve a HTML-t is, amely lehetővé teszi az adatok helyének meghatározását a HTML-struktúrán belül. Az XPath lekérdezések megértése elengedhetetlen az IMPORTXML megfelelő használatához.

Az XPath megértése

Az XPath különféle funkciókat és kifejezéseket biztosít a HTML-dokumentumokban való navigáláshoz és adatok szűréséhez. Egy átfogó XML- és XPath-útmutató túlmutat e cikk hatókörén, ezért megelégszünk néhány alapvető XPath-fogalommal:

  • Elem kiválasztása: Az elemeket a segítségével választhatja ki / és // utak jelölésére. Például, /html/body/div kijelöli az összes div elemet a dokumentum törzsében.
  • Attribútum kiválasztása: Az attribútumok kiválasztásához használhatja @. Például, //@href az összeset kiválasztja href attribútumok az oldalon.
  • Predikátumszűrők: Szűrheti az elemeket szögletes zárójelbe tett predikátumokkal ([ ]). Például, /div[@class="container"] az összeset kiválasztja div elemeket az osztállyal tartály.
  • Funkciók: Az XPath különféle funkciókat biztosít, mint pl tartalmazza (), kezdődik-val (), és szöveg() konkrét műveletek végrehajtására, például szövegtartalom vagy attribútumértékek ellenőrzésére.

Hogyan lehet XPath-ot kivonni egy webhelyről

Eddig ismeri az IMPORTXML szintaxist, ismeri a webhely URL-jét, és tudja, melyik elemet szeretné kibontani. De hogyan szerezheti meg az elem XPath-ját?

Nem kell fejből ismernie egy webhely szerkezetét ahhoz, hogy IMPORTXML-lel kinyerje adatait. Valójában minden böngészőben van egy remek eszköz, amely lehetővé teszi bármely elem XPath-jának azonnali másolását.

Az Elem vizsgálata eszköz lehetővé teszi az XPath kinyerését a webhely elemeiből. Itt van, hogyan:

  1. A kívánt webböngészővel keresse meg a lemásolni kívánt weboldalt.
  2. Keresse meg a kaparni kívánt elemet.
  3. Kattintson a jobb gombbal az elemre.
  4. Válassza ki Elem vizsgálata a jobb egérgombos menüből. A böngészője megnyit egy panelt, amely megjeleníti a weboldal HTML-kódját. A megfelelő HTML elem kiemelve lesz a kódban.
  5. Az Elem vizsgálata panelen kattintson a jobb gombbal a HTML-kód kiemelt elemére.
  6. Kattintson XPath másolása az elem XPath címének a vágólapra másolásához.

Most, hogy minden megvan, amire szüksége van, ideje látni az IMPORTXML működését, és kikaparni néhány hivatkozást.

Az IMPORTXML segítségével mindenféle adatot lekaparhat a webhelyekről. Ez magában foglalja a linkeket, videókat, képeket és a webhely szinte bármely elemét. A linkek a webelemzés egyik legkiemelkedőbb eleme, és sok mindent megtudhat egy webhelyről, ha elemezi azokat az oldalakat, amelyekre hivatkozik.

Az IMPORTXML segítségével gyorsan lekaparhatja a linkeket a Google Táblázatokban, majd tovább elemezheti azokat a Google Táblázatok különféle funkcióival.

Egy weboldal összes hivatkozásának kimásolásához a következő képletet használhatja:

=IMPORTXML(url, "//a/@href") 

Ez az XPath-lekérdezés az összeset kiválasztja href attribútumai a elemeket, hatékonyan kinyerve az oldalon található összes linket.

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a/@href")

A fenti képlet lekaparja a Wikipédia-cikk összes hivatkozását.

Célszerű egy külön cellába beírni a weboldal URL-címét, majd hivatkozni erre a cellára. Ez megakadályozza, hogy a tápszer túl hosszú és nehézkes legyen. Ugyanezt megteheti az XPath lekérdezéssel is.

2. Az összes linkszöveg lekaparása

A linkek szövegének és URL-jeik kibontásához a következőket használhatja:

=IMPORTXML(url, "//a") 

Ez a lekérdezés az összes elemet kiválasztja, és az eredményekből kivonhatja a hivatkozás szövegét és URL-címeit.

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a")

A fenti képlet ugyanabban a Wikipédia-cikkben található hivatkozásszövegeket kapja.

Néha előfordulhat, hogy kritériumok alapján meghatározott hivatkozásokat kell lekaparnia. Érdekelheti például egy adott kulcsszót vagy az oldal egy meghatározott részében található hivatkozásokat.

Az XPath megfelelő ismerete birtokában minden keresett elemet pontosan meghatározhat.

Egy adott kulcsszót tartalmazó hivatkozások lekaparásához használhatja a include() XPath függvényt:

=IMPORTXML(url, "//a[contains(@href, 'keyword')]/@href") 

Ez a lekérdezés olyan elemek href attribútumait választja ki, ahol a href tartalmazza a megadott kulcsszót.

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a[contains(@href, 'record')]/@href")

A fenti képlet egy minta Wikipédia-cikkben lekaparja az összes olyan hivatkozást, amelyek szövegében szerepel a szórekord.

Ha hivatkozásokat szeretne kimásolni az oldal egy bizonyos részéből, megadhatja a szakasz XPath-ját. Például:

=IMPORTXML(url, "//div[@class='section']//a/@href") 

Ez a lekérdezés a "section" osztályú div elemeken belüli elemek href attribútumait választja ki.

Hasonlóképpen, az alábbi képlet kijelöli a div osztályon belüli összes hivatkozást, amely az mw-content-container osztályt tartalmazza:

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//div[@class='mw-content-container']//a/@href")

Érdemes megjegyezni, hogy az IMPORTXML-t a webkaparásnál többre is használhatja. Ehhez használhatja az IMPORT funkciócsaládot adattáblázatok importálása webhelyekről a Google Táblázatokba.

Bár a Google Táblázatok és az Excel a legtöbb funkciót megosztja, az IMPORT funkciócsalád egyedülálló a Google Táblázatokban. Más módszereket kell fontolóra vennie adatok importálása webhelyekről Excelbe.

Egyszerűsítse a webkaparást a Google Táblázatokkal

A Google Táblázatokkal és az IMPORTXML funkcióval végzett webkaparás sokoldalú és hozzáférhető módja a webhelyekről származó adatok gyűjtésének.

Az XPath elsajátításával és a hatékony lekérdezések létrehozásának megértésével felszabadíthatja az IMPORTXML teljes potenciálját, és értékes betekintést nyerhet a webes erőforrásokból. Tehát kezdje el a kaparást, és emelje a webelemzést a következő szintre!