A webes kaparás magában foglalja az információk gyűjtését weboldalak vagy oldalak adatai formájában. Bár a tiéd nem feltétlenül tudatos cselekedet, az információk összegyűjtése közben is így vagy úgy összekapartad az internetet. De ez általában finom.

A webes kaparás vagy a képernyőkaparás általában céltudatos cselekedet, és a szakemberek automatizálják a tervezést, hogy hatalmas adatokhoz jussanak. Akár a weboldalon található szövegek kézi másolásával, dedikált eszközök használatával, akár a webes kaparós szkriptek írásával a webkaparók néha nagyot ütnek a webhelyen, mivel egyszerre több kérést is elküldenek.

De bár sok vállalkozás jelenleg kihasználja az internetes kaparást a versenyelőny elérése érdekében, valóban törvényes?

Mely webhelyeket kell és nem szabad kaparni?

Az internet információkészlet, amely hozzáférést biztosít az embereknek a régi és valós idejű adatokhoz. A webes vagy a képernyő-kaparás már egy ideje létezik. De mennyit kell használnia, és mely weboldalakat lehet kaparni?

instagram viewer

Egyes webhelyek szigorúak a webrobotok vagy a képernyőlehúzók számára, és teljesen blokkolják őket. Tehát feltűnően nyilvánvaló, hogy nem szabad ilyen webhelyeket kaparni. De az emberek még mindig így tesznek.

Sajnos a kiskapuk foltozásán kívül alig tudnak mást tenni az ilyen oldalak a megállításában.

Mielőtt egy webhelyet kaparna, ideális esetben ellenőrizze, hogy az lehetővé teszi-e a feltérképezést. Általában ezt megtudhatja a webhely robots.txt fájljának ellenőrzésével. Ezt úgy teheti meg, hogy beírja a "[webhely URL] /robots.txt" szót.

A robots.txt általában szabályokat határoz meg a különböző robotok vagy felhasználói ügynökök számára. Ezek a szabályok azonban az érintett webhelytől függően változnak. Míg egyes webhelyek lehetővé teszik az összes oldal feltérképezését, vannak olyanok, amelyek megadják azokat az oldalakat, amelyeket egy robot feltérképezhet, mások pedig egyenesen blokkolják a robotokat.

Az a webhely, amely az összes felhasználói ügynököt blokkolja az összes oldal feltérképezésében, általában a következő szabályokat állítja be:

user-agent: *
Letiltás: /

Egy robots.txt fájl, amely blokkolja az összes botot bizonyos könyvtárak vagy oldalak feltérképezésében, általában így néz ki:

user-agent: *
Disallow: / URL az 1. oldalra
Disallow: / URL a 2. oldalra

Ha a robots.txt nem tiltja a feltérképezni kívánt oldalt, akkor valószínűleg megkaparhatja. Ellenkező esetben vissza kell lépnie, vagy be kell kérnie az adminisztrátor beleegyezését. Lehet, hogy hozzáférést biztosítanak Önhöz.

Ezenkívül egyes webhelyek kifejezetten megadják, hogy engedélyezik-e a feltérképezést vagy sem. Vannak, akik ezt a robots.txt tetején is kimondják. Mindig ellenőrizze ezt is, hogy megbizonyosodjon arról, hogy helyesen cselekszik.

Hogyan bántalmazzák a webes kaparást

Tehát, ha spam e-maileket vagy SMS-eket kapott olyan webhelyektől vagy olyan személyektől, akiknek soha nem adott meg személyes adatait, akkor valószínűleg valahogy lekaparták valahogy. És főleg az egyik közösségi média kezelőjén keresztül történik.

Ez azt jelenti, hogy a webes kaparás néha több, mint pusztán a kezelőfelületig megjelenő adatok gyűjtése. Rosszindulatú felhasználás esetén személyes és minősített információk szivároghatnak.

Míg a legtöbb közösségi média platform a homlokát ráncolja, a bejáró robotok továbbra is hozzáférnek az emberek profiljához, és elérhetőségi adataikat kiszivárogtatják és lekaparják.

Például a Facebookról korábban beszámoltak olyan sérülékenységekről, amelyek kiszivárogtatták a felhasználók kapcsolattartási adatait, annak ellenére, hogy a felhasználók titokban tartják őket.

Hasonlóképpen, a LinkedIn nemrégiben biztonsági rést szenvedett, amely személyes adatok kiszivárgását eredményezte több mint 500 millió számlához tartozik. Következésképpen ez a biztonsági rés sok e-mail cím és telefonszám megosztását eredményezte a profiltulajdonosok beleegyezése nélkül.

Illegális egy weboldal kaparása?

Soha nem volt következtetés a webes kaparás törvényességéről. Ehelyett a hangsúly arra irányul, hogy a bejáró hogyan működik eseti alapon, és mire használja az összegyűjtött adatokat.

Tehát a jogszerűségre való következtetés helyett a kaparás, ha rosszindulatúan történik, illegális. De ha ésszerűen cselekszünk, az nem törvénytelen.

De ahogy az várható volt, úgy tűnik, hogy szigorúbb politika érvényesül a közösségi média adatainak másolásával és felhasználásával kapcsolatban, mivel a felhasználók magánélete annyira fontos. Mindez azonban még mindig abból áll, hogy az emberek miként kaparják az adatokat.

A Internet és közösségi média törvény blog elemezte a hiQ Labs, egy adatkaparó vállalat esetét, amely 2019-ben pert nyert a LinkedIn ellen, miután megpróbálta megakadályozni a hiQ Labs számára a nyilvánosan elérhető LinkedIn-felhasználók adatainak lekaparását.

A hiQ Labs azt állítja, hogy a számítógépes csalásokról és visszaélésekről szóló törvény (CFAA) csak az illetéktelen hozzáférést tiltja. ítélet megerősítette, hogy a LinkedIn adatai nyilvánosan hozzáférhetőek voltak, ezért bárki, aki megkaparta őket, azért tette, mert vannak hozzáférhető.

Ezenkívül a hiQ Labs a lekapart adatokat csak elemzési megoldásokkal látta el a vállalatok számára - így jobb toborzási döntéseket hozhatnak.

Ezzel ellentétben A Facebook nemrég beperelte a Chrome kiterjesztés fejlesztőit akik beleegyezésük nélkül lekaparták a Facebook-felhasználók profilját.

Hasonlóképpen, a a másolat webhelyét beperelte a Facebook több Instagram-felhasználó profiladatainak lekaparására, majd ezek felhasználásával klónok létrehozására. E jelentés szerint a Facebook tovább ment, hogy állandó bírósági végzést szerezzen az elkövetővel szemben.

Ez néhány olyan eset, amikor az emberek illegálisan használták az internetes kaparást. Az említett vállalatok hamisan, a felhasználók beleegyezése nélkül gyűjtötték a Facebook-felhasználók adatait. Tehát megsértette az adatvédelmi irányelveket.

Tehát, bár a webes kaparás meghiúsíthatja azt a webhelyet, amelyről adatokat szerez, jelenleg egyetlen általános szabály sem akadályozza meg az embereket abban, hogy megszerezzék, amit akarnak, mindaddig, amíg nem sértik egyenesen az internetes törvényeket.

A webes kaparás szinonimája a hackelésnek?

Van néhány mítosz a webes kaparás körül. Ezek egyike az a meggyőződés, hogy egy weboldal lekaparása azt jelenti, hogy feltörték. Bár a hackelés végül adatgyűjtéshez vezethet, nem igaz az az állítás, hogy maga a kifejezés azt jelenti, hogy feltörik egy webhelyet.

A webes kaparás magában foglalhatja a dedikált mászó vagy kaparó eszközök, Alkalmazás-programozási interfészek (API) vagy webes szkriptek kaparják a renderelt adatokat egy webhelyről. A hackeléssel ellentétben nem veszélyezteti az általa lekapart webhelyet, és nem zavarja a felhasználók tapasztalatait.

Összefüggő: Mi az a webes kaparás? Hogyan gyűjthetünk adatokat weboldalakról

Tehát míg a hackelés jogosulatlan hozzáféréssel jár, általában egy weboldal adatbázisába, a webes lekaparás csak azokat az adatokat célozza, amelyek már a kezelőfelületen láthatók. Bár az emberek rosszindulatúan használhatják a webes kaparást, ez még mindig nem szinonimája a hackelésnek.

Ezen felül, a webes kaparással ellentétben, a szándékos és etikátlan hackelés illegális.

Melyek a webkaparás pozitívumai?

A webes kaparásnak számos pozitívuma van, sőt néhány technológiai vállalat ma már ingyen kínálja adatait az API-k segítségével. Ez az információ általában nem elegendő az üzleti trendek felméréséhez és a döntések meghozatalához.

Tehát a vállalatok most már több adatot kapnak az internet súrolásával a gyakorlatok javítása és az értékesítés növelése érdekében. Ezenkívül az adatkutatók a gépi tanulási algoritmusokat betáplálják a képernyő kaparásán keresztül gyűjtött adatokkal.

Ilyen adatok lehetnek képek felismerésében használt képek, egyszerű szövegek hangulatelemzéshez, vagy közvetlen termékadatok a piaci intelligencia és a fogyasztói magatartás elemzéséhez.

Összefüggő: Egyedi módszerek az adatkészletek megszerzésére a gépi tanulási projekthez

Tehát a webes kaparás még hasznosabb, mert ha hozzáfér az információkhoz, amelyeket a versenytársa nem, akkor megverheti őket.

Míg egyes webhelyek ráncolják a webkaparókat, egyesek, még az e-kereskedelmi szolgáltatások is, nem érdekli, hogy kaparják-e az adataikat vagy sem. Az olyan internetes óriások, mint az eBay és a Salesforce, 2000-ben indították el API-jukat, így a programozók először hozzáférhettek a nyilvános adatokhoz.

Valójában meg kellene kaparnia az internetet?

Megállapítottuk, hogy a webes kaparás nem illegális, ha helyesen végezzük. De aggodalomra ad okot az is, hogy mit csinálsz a lekapart adatokkal. Tehát ahelyett, hogy ezzel visszaélne, használjon további felismeréseket, amelyek segítenek Önnek és másoknak megalapozott döntésekben.

A webes kaparás készségként azonban hozzáférést biztosít az internetes adatok nagy darabjaihoz, amelyek segíthetnek Önnek vagy cégének az üzleti rés felett maradni. Adatkutatóként még szélesíti a hatókörét, és javítja kódolási és technikai készségeit.

Például a Python egyike azoknak a programozási nyelveknek, amelyek segítenek könnyedén lekaparni egy webhelyet a Beautiful Soup könyvtárával vagy a Scrapy keretrendszerével.

Email
Kaparjon össze egy weboldalt ezzel a gyönyörű leves Python bemutatóval

Érdekli a webes kaparás? A Beautiful Soup Python könyvtár segítségével megtudhatja, hogyan lehet egy webhelyet tartalomra és egyebekre másolni.

Olvassa el a következőt

Kapcsolódó témák
  • Biztonság
  • Programozás
  • Online biztonság
  • Webes kaparás
A szerzőről
Idowu Omisola (71 cikk megjelent)

Idowu minden okos technológiával és termelékenységgel rajong. Szabadidejében kódolással játszik, és ha unatkozik, áttér a sakktáblára, de imád egyszer-egyszer elszakadni a rutintól. Az a szenvedély, hogy megmutatja az embereknek a modern technológiát, további írásra ösztönzi.

Tovább Idowu Omisolától

Iratkozzon fel hírlevelünkre

Csatlakozzon hírlevelünkhöz, amely műszaki tippeket, véleményeket, ingyenes e-könyveket és exkluzív ajánlatokat tartalmaz!

Még egy lépés…!

Kérjük, erősítse meg e-mail címét az imént elküldött e-mailben.

.