A MapReduce egy alapvető programozási koncepció, amelyet el kell sajátítania ahhoz, hogy professzionális adatmérnök legyen. Megoldásokat kínál az elosztott big data fájlkezelő rendszerekhez. Ezért a MapReduce elméleti hátterének megértése megkönnyíti a technika elsajátítását.

De mi az a MapReduce, és hogyan működik elosztott fájlrendszerekben? Ebből a bejegyzésből megtudhatod.

Mi az a MapReduce?

A MapReduce egy adatmérnöki modell, amelyet olyan programokra vagy alkalmazásokra alkalmaznak, amelyek nagyadat-logikát dolgoznak fel párhuzamos kiszolgálók vagy csomópontok fürtjein belül. Elosztja a feldolgozási logikát több adatcsomópont között, és az eredményeket a kliens-szerverbe összesíti.

A MapReduce biztosítja, hogy a feldolgozás gyors, memóriatakarékos és megbízható legyen, függetlenül az adatok méretétől.

A Hadoop File System (HDFS), a Google File System (GFS), az Apache Kafka, a GlusterFS és még sok más példa a MapReduce algoritmust használó elosztott big data fájlrendszerekre.

Mi az elosztott fájlrendszer?

instagram viewer

Az elosztott fájlrendszer (DFS) egy olyan tárolási módszer a számítástechnikában, amely magában foglalja a nagy adatfájlok felosztását kisebb darabokra, és a rendszeren belüli több kiszolgálón való szétosztását. Lehetővé teszi a különböző forrásokból származó ügyfelek számára, hogy adatokat írjanak és olvassanak, megosszák és programozható logikát futtassanak az adatokon – bárhonnan.

Az elosztott fájlrendszer általában az elsődleges szerverből áll (amelyet NameNode-nak is neveznek a Hadoopban), párhuzamos fürtök és több csomópont vagy szerver, amelyek replikált adatdarabokat tartalmaznak, mindezt egy adatban központ. Az elosztott fájlrendszeren belüli minden egyes fürt azonban több száz-ezer ilyen csomópontot tartalmaz.

Az elsődleges szerver automatikusan észleli a fürtökön belüli változásokat. Így minden csomóponthoz ennek megfelelően tud szerepeket rendelni.

Amikor az elsődleges kiszolgáló kap egy adatfájlt, elküldi azt a DFS-en belüli fürtöknek. Ezek a fürtök darabolják és szétosztják az adatokat a bennük lévő egyes csomópontokba. Ezután minden csomópont replikálja az adatokat úgynevezett adatblokkokba, hogy láncot alkosson. Ezen a ponton minden csomópont csonkkiszolgálóvá válik.

Összefüggő:Mik azok az adatközpontok és miért fontosak?

Az adatokhoz való hozzáférés kezelésén túl az elsődleges szerver minden fájlon metaadat-feljegyzést is tárol. Így tudja, hogy az egyes fürtökben melyik csomópont melyik fájlt kezeli.

Hogyan működik a MapReduce az elosztott fájlrendszerekben?

Amint azt korábban említettük, a big data több chunk szerveren is elérhető az elosztott fájlrendszerben. Az egyik módja annak, hogy programozható logikát hajtson végre ezeken az adatfájlokon, ha összevonja őket egybe. Ezután egyetlen szerverre húzhatja őket, amely mostantól kezeli a logikát.

Noha ez az adatok lekérdezésének hagyományos módja, a probléma az, hogy az adatok ismét egy egésszé válnak az egyetlen szerveren belül. Így egyetlen szervernek továbbra is több petabájt adat logikáját kell kezelnie egyszerre. Sajnos a rendszer először ezt a problémát kívánta megoldani. Tehát végül is ez nem a legjobb gyakorlat.

Összefüggő:Hogyan kérdezhet le egyszerre több adatbázistáblát SQL csatlakozással

Ezen túlmenően egy ilyen egyetlen szerverre történő összesítés számos teljesítménykockázatot jelent. Ezek a szerverösszeomlástól, a rossz számítási hatékonyságtól, a magas késleltetéstől, a nagy memóriafogyasztástól és a sebezhetőségtől kezdve egészen másig terjedhetnek.

De a programozható logika futtatásának másik módja az, hogy az adatokat darabokban hagyjuk minden elosztott szerveren belül. Ezután minden szerverbe beilleszti a logikai függvényt. Ez azt jelenti, hogy a fürtön belül minden egyes csonkkiszolgáló kezeli a számítását. Ennek a megközelítésnek a használata azt jelenti, hogy nincs szükség az adatok összesítésére vagy egyetlen szerverre való lehívására.

Hogy létezik a MapReduce koncepció egy elosztott adatfájlrendszerben. Biztosítja, hogy egyetlen szervernek ne kelljen adatokat gyűjtenie a forrásból. Ehelyett szétszórja a feldolgozási funkciót (MapReduce) több, különálló csomópontra fürtök, így az egyes fürtön belüli minden egyes csomópont külön-külön kezeli a logikát anélkül, hogy egyet túlterhelne szerver.

Következésképpen több szerver egyidejűleg kezeli az adatbitek logikáját. Ez a munkaerõ-elosztás a szerverek között optimális teljesítményt és magasabb biztonságot eredményez, többek között egyéb pozitívumok mellett.

Hogyan történik a MapReduce eredmény feldolgozása az elosztott fájlrendszerben?

Így működik a teljes MapReduce feldolgozás DFS-ben:

  • Az elsődleges szerver big data lekérdezést (MapReduce funkció) kap a klienstől.
  • Ezután elküldi ezt az egyes fürtöknek, hogy szétterjessze a benne lévő csomópontokon.
  • Minden csomópont feldolgozza a MapReduce függvényt, és összesíti annak eredményét.
  • Egy másik kiszolgáló összegyűjti az egyes csomópontok eredményeit, és visszaküldi azokat az elsődleges kiszolgálónak.
  • Az elsődleges szerver ezután válaszként elküldi az eredményt a kliensnek.

Így az elsődleges szerver egyetlen feladata, hogy egy könnyen kiszámítható eredményt küldjön a kliensnek, figyelje a változásokat és kezelje az adatokhoz való hozzáférést. Nem végez számításokat. Ez az oka annak, hogy a legtöbb felhőalapú számítástechnikai alkalmazás lenyűgözően gyors a feldolgozott adatmennyiség ellenére.

Mi is pontosan a Térkép és kicsinyítés a MapReduce-ban?

A MapReduce két programozási logikát használ a nagy adatok feldolgozására egy elosztott fájlkezelő rendszerben (DFS). Ezek egy térkép és egy kicsinyítés funkció.

Az térkép függvény elvégzi a feldolgozási feladatot az elosztott fájlrendszer minden egyes fürtjében lévő adatcsomópontokon. Az csökkenteni A függvény ezután összesíti az egyes csonkkiszolgálók által visszaadott eredményeket, és átadja azokat egy másik kiszolgálónak az elosztott fájlrendszeren belül az eredmények összesítése céljából. A fogadó szerver elküldi ezt a számítást az elsődleges kiszolgálónak, amely elküldi a visszaadott értéket a kliensoldali kiszolgálóra.

Mi történik, ha egy Chunk szerver leáll?

Az elosztott fájlrendszeren (DFS) belüli kiszolgálók időnként leállást tapasztalhatnak. Azt gondolhatnánk, hogy ezzel az egész rendszert összetörik, de nem.

A számítástechnikában van egy rendszer, amely megakadályozza az ilyen közelgő meghibásodásokat. Hibatűrésnek hívják.

Összefüggő:Mi az a felhőalapú számítástechnika? Hogyan működik a felhő technológia?

Ennélfogva még akkor is, ha a szerver leáll az adatfeldolgozás során, a hibatűrés biztosítja, hogy az elsődleges szerver azonnal észlelje azt. És mivel a csomópontokon található adatcsomók másolata található, az elsődleges szerver azonnal átviszi a feldolgozási feladatot egy másik szerverre. Így a kiszolgáló leállása az elosztott fájlrendszeren belül nem befolyásolja az adatfeldolgozást.

A MapReduce megkönnyíti a nagy adatfeldolgozást

A MapReduce egy alapvető modell, amely megkönnyíti a számítást az elosztott fájlrendszerekben. Mivel lehetővé teszi több csomópont egyidejű számításának futtatását, ez egy gyors módszer, amelyet különféle technológiai óriások használnak a nagy adatelemzést kísérő számos probléma megoldására.

Többek között a Google, az Amazon, az IBM példája az ilyen koncepciót alkalmazó cégeknek. A Google például a MapReduce koncepciót alkalmazza, hogy lekérdezési eredményeket hozzon a Google keresés során.

Mi az a Big Data, miért fontos és mennyire veszélyes?

A nagy adatmennyiség számos iparágban működik, és mindannyiunk életére kihatással van. De vajon veszélyesebb vagy hasznosabb?

Olvassa el a következőt

RészvényCsipogEmail
Kapcsolódó témák
  • Programozás
  • Programozás
  • Nagy adat
  • Adatelemzés
A szerzőről
Idowu Omisola (133 cikk megjelent)

Idowu szenvedélyesen rajong minden intelligens technológiáért és a termelékenységért. Szabadidejében kódolással játszik, és ha unatkozik sakktáblára vált, de szeret időnként kiszakadni a rutinból. Szenvedélye, hogy megmutassa az embereknek a modern technológiát, arra sarkallja, hogy többet írjon.

Továbbiak Idowu Omisola-tól

Iratkozzon fel hírlevelünkre

Csatlakozzon hírlevelünkhöz műszaki tippekért, ismertetőkért, ingyenes e-könyvekért és exkluzív ajánlatokért!

Kattintson ide az előfizetéshez