Hadoop

Apache Hadoop

Tip de	cadru
Autor	Doug Cutting [d]
Dezvoltator	Apache Software Foundation
Scris in	Java
Sistem de operare	multiplatformă și POSIX
Prima editie	1 aprilie 2006 [1]
Platformă hardware	Mașină virtuală Java
ultima versiune	3.3.3 ( 17 mai 2022 )
Licență	Apache License 2.0 și GNU GPL
Site-ul web	hadoop.apache.org _
Fișiere media la Wikimedia Commons

Hadoop este un proiect al Apache Software Foundation , un set distribuit gratuit de utilitare , biblioteci și un cadru pentru dezvoltarea și executarea de programe distribuite care rulează pe clustere de sute și mii de noduri. Folosit pentru a implementa mecanisme de căutare și contextuale pentru multe site-uri web cu încărcare mare, inclusiv Yahoo! și Facebook [2] . Dezvoltat în Java în cadrul paradigmei de calcul MapReduce , conform căreia aplicația este împărțită într-un număr mare de sarcini elementare identice care sunt executabile pe nodurile cluster și sunt reduse în mod natural la rezultatul final.

Începând cu 2014, proiectul constă din patru module - Hadoop Common ( software de mijloc - un set de biblioteci software de infrastructură și utilități utilizate pentru alte module și proiecte aferente), HDFS ( sistem de fișiere distribuit ), YARN (un sistem pentru programarea sarcinilor și gestionarea unui cluster) și Hadoop MapReduce (o platformă pentru programarea și executarea calculelor MapReduce distribuite), anterior Hadoop includea o serie de alte proiecte care au devenit independente în cadrul sistemului de proiecte Apache Software Foundation.

Este considerată una dintre tehnologiile de bază ale „ bilor date ”. În jurul Hadoop s-a format un întreg ecosistem de proiecte și tehnologii conexe, dintre care multe au fost dezvoltate inițial ca parte a proiectului, iar ulterior au devenit independente. Din a doua jumătate a anilor 2000, a existat un proces de comercializare activă a tehnologiei , mai multe companii își construiesc afacerea în întregime pe crearea de distribuții comerciale de Hadoop și servicii de asistență tehnică pentru ecosistem și aproape toate tehnologia informației importante. furnizorii pentru organizații într-o formă sau alta includ Hadoop în strategiile și liniile de produse.

Istorie

Dezvoltarea a fost inițiată la începutul anului 2005 de Doug Cutting cu scopul de a construi o infrastructură software de calcul distribuită pentru proiectul Nutch , un motor de căutare software gratuit în Java , baza sa ideologică a fost publicarea angajaților Google Jeffrey Dean și Sanjay Gemawat [3] despre conceptele de calcul ale MapReduce [4] . Noul proiect a fost numit după puiul de elefant de jucărie al fondatorului [5] .

În perioada 2005-2006, Hadoop a fost dezvoltat de doi dezvoltatori - Cutting și Mike Cafarella ( Mike Cafarella ) în modul part-time [4] , mai întâi ca parte a proiectului Nutch, apoi - proiectul Lucene . În ianuarie 2006, Cutting a fost invitat de Yahoo să conducă o echipă dedicată pentru dezvoltarea unei infrastructuri de calcul distribuite, care include, de asemenea, separarea Hadoop într-un proiect separat. În februarie 2008, Yahoo a lansat un motor de căutare cu 10.000 de nuclee de clustere alimentat de Hadoop.

În ianuarie 2008, Hadoop devine proiectul de nivel superior al sistemului de proiecte Apache Software Foundation . În aprilie 2008, Hadoop a doborât recordul mondial de performanță în benchmark -ul standardizat de sortare a datelor , procesând 1TB în 209 secunde. pe un cluster de 910 noduri [6] . Din acel moment, Hadoop a început să fie utilizat pe scară largă în afara Yahoo - Last.fm , Facebook , The New York Times [7] implementează tehnologia pentru site-urile lor , iar adaptarea este efectuată pentru a rula Hadoop în norii Amazon EC2 .

În aprilie 2010, Google a acordat Apache Software Foundation drepturile de utilizare a tehnologiei MapReduce, la trei luni după ce aceasta a fost apărată în Oficiul de Brevete din SUA , scutând astfel organizarea de posibile revendicări de brevet [8] .

Din 2010, Hadoop a fost caracterizată în mod repetat ca fiind o tehnologie cheie de „ mare date ”, utilizarea sa pe scară largă pentru procesarea masivă a datelor paralelă este prevăzută și, împreună cu Cloudera, au apărut o serie de startup-uri tehnologice care sunt în întregime concentrate pe comercializarea Hadoop. [9] [10] . Pe parcursul anului 2010, mai multe subproiecte Hadoop - Avro , HBase , Hive , Pig , Zookeeper - au devenit succesiv proiectele de nivel superior ale fundației Apache, care au servit drept început de formare a unui ecosistem în jurul Hadoop . În martie 2011, Hadoop a primit premiul anual pentru inovație al Guardian Media Group , la care tehnologia a fost numită „ Cuțitul elvețian al secolului 21” [11] .

Implementarea modulului YARN în Hadoop 2.0, lansat în toamna lui 2013, este evaluată ca un salt semnificativ care duce Hadoop dincolo de paradigma MapReduce și pune tehnologia la nivelul unei soluții universale de organizare a procesării distribuite a datelor [12] .

Hadoop Common

Hadoop Common include biblioteci pentru gestionarea sistemelor de fișiere suportate de Hadoop și scripturi pentru crearea infrastructurii necesare și gestionarea procesării distribuite, pentru comoditatea cărora a fost creat un interpret de linie de comandă simplificat specializat ( shell FS , shell sistem de fișiere ), lansat din sistemul de operare. shell de sistem cu o comandă de forma: , unde este o comandă de interpret și este o listă de resurse prefixate cu tipul de sistem de fișiere acceptat, cum ar fi sau . Majoritatea comenzilor interpretorului sunt implementate prin analogie cu comenzile Unix corespunzătoare (de exemplu, , , , , , , , , , , , în plus, unele taste ale comenzilor Unix similare sunt acceptate, de exemplu, cheia recursivă pentru , , ) , există comenzi specifice Hadoop (de exemplu, numără numărul de directoare, fișiere și octeți dintr-o cale dată, golește coșul de reciclare și modifică factorul de replicare pentru o anumită resursă). hdfs dfs -command URIcommandURIhdfs://example.com/file1file:///tmp/local/file2cat chmod chown chgrp cp du ls mkdir mv rm tail-Rchmodchownchgrpcountexpungesetrep

HDFS

HDFS ( Hadoop Distributed File System ) este un sistem de fișiere conceput pentru a stoca fișiere mari distribuite bloc cu bloc între nodurile unui cluster de calcul. Toate blocurile din HDFS (cu excepția ultimului bloc al unui fișier) au aceeași dimensiune și fiecare bloc poate fi plasat pe mai multe noduri, dimensiunea blocului și factorul de replicare (numărul de noduri pe care ar trebui să fie plasat fiecare bloc) sunt definite în setările la nivel de fișier. Datorită replicării, este asigurată stabilitatea unui sistem distribuit împotriva defecțiunilor nodurilor individuale. Fișierele pot fi scrise pe HDFS o singură dată (modificarea nu este acceptată) și doar un proces poate scrie într-un fișier la un moment dat. Organizarea fișierelor în spațiul de nume este ierarhică tradițională : există un director rădăcină, este acceptată imbricarea directoarelor, iar fișierele și alte directoare pot fi localizate în același director.

Implementarea unei instanțe HDFS oferă un nod de nume central ( eng . name node ), care stochează metadate ale sistemului de fișiere și meta-informații despre distribuția blocurilor și o serie de noduri de date ( eng. data node ), care stochează direct blocuri de fișiere. Nodul de nume este responsabil pentru procesarea operațiunilor la nivel de fișier și director - deschiderea și închiderea fișierelor, manipularea directoarelor, nodurile de date procesează direct operațiunile de scriere și citire a datelor. Nodul de nume și nodurile de date sunt prevăzute cu servere web care afișează starea curentă a nodurilor și vă permit să vizualizați conținutul sistemului de fișiere. Funcțiile administrative sunt disponibile din interfața liniei de comandă.

HDFS este o parte integrantă a proiectului, cu toate acestea, Hadoop acceptă lucrul cu alte sisteme de fișiere distribuite fără a utiliza HDFS, suportul pentru Amazon S3 și CloudStore este implementat în distribuția principală. Pe de altă parte, HDFS poate fi folosit nu numai pentru a rula joburi MapReduce, ci și ca sistem de fișiere distribuite de uz general, în special, un DBMS HBase NoSQL distribuit este implementat deasupra acestuia și Apache Mahout scalabil. sistemul de învățare automată rulează în mediul său .

Fire

YARN ( English Yet Another Resource Negotiator - „ another resource intermediary ”) este un modul care a apărut cu versiunea 2.0 (2013), care este responsabil pentru gestionarea resurselor clusterului și planificarea sarcinilor. Dacă în versiunile anterioare această funcție a fost integrată în modulul MapReduce , unde a fost implementată de o singură componentă ( JobTracker ), atunci în YARN există un demon independent din punct de vedere logic - planificatorul de resurse ( ResourceManager ), care extrage toate resursele de calcul ale cluster și gestionează furnizarea acestora către aplicațiile de procesare distribuite. Atât programele MapReduce, cât și orice alte aplicații distribuite care acceptă interfețele de programare adecvate pot funcționa sub controlul YARN; YARN oferă posibilitatea executării în paralel a mai multor sarcini diferite în cadrul clusterului și izolarea acestora (conform principiilor multitenancy ). Un dezvoltator de aplicații distribuite trebuie să implementeze o clasă specială de gestionare a aplicațiilor ( ApplicationMaster ) care este responsabilă de coordonarea sarcinilor în cadrul resurselor furnizate de planificatorul de resurse; planificatorul de resurse este responsabil de crearea instanțelor clasei de control al aplicației și de interacțiunea cu aceasta prin protocolul de rețea corespunzător.

YARN poate fi considerat ca un sistem de operare cluster în sensul că acționează ca o interfață între resursele hardware ale clusterului și o clasă largă de aplicații care își folosesc puterea pentru a efectua procesări computaționale [13] .

Hadoop MapReduce

Hadoop MapReduce este un cadru software pentru programarea calculatoarelor distribuite în cadrul paradigmei MapReduce . Un dezvoltator de aplicații pentru Hadoop MapReduce trebuie să implementeze un handler de bază care, pe fiecare nod de calcul al clusterului, va asigura transformarea perechilor cheie-valoare inițiale într-un set intermediar de perechi cheie-valoare (clasa care implementează interfața Mappereste numită după funcția de ordin superior Map ), și handler , care reduce setul intermediar de perechi la setul final, redus ( fold , clasă care implementează interfața Reducer). Cadrul trece ieșirile sortate de la manipulatorii de bază la intrarea convoluției, reducerea constă din trei faze - amestecare ( shuffle , selectarea secțiunii dorite a ieșirii), sortare ( sortare , grupare după cheile ieșirilor de la distribuitori - sortare suplimentară, care este necesară atunci când procesoare atomice diferite returnează seturi cu aceleași chei, în același timp, regulile de sortare în această fază pot fi setate programatic și pot utiliza orice caracteristici ale structurii interne a cheilor) și se reduc singure ( plierea listei) ) - obţinerea setului de rezultate. Pentru unele tipuri de procesare, fold-ul nu este necesar, iar framework-ul returnează în acest caz un set de perechi sortate primite de procesoarele de bază.

Hadoop MapReduce vă permite să creați locuri de muncă atât cu handlere de bază, cât și cu fold-uri scrise fără a utiliza Java: Utilitarele de streaming Hadoop vă permit să utilizați orice fișier executabil care funcționează cu I/O sistemului de operare standard (de exemplu, utilitare shell UNIX ) ca handlere de bază și fold-uri ), există și un API C++ Hadoop pipes compatibil cu SWIG . De asemenea, distribuțiile Hadoop includ implementări ale diferitelor procesoare de bază specifice și rollup-uri cel mai frecvent utilizate în procesarea distribuită.

În primele versiuni de Hadoop MapReduce a inclus un planificator de joburi ( JobTracker ), începând cu versiunea 2.0 această funcție a fost mutată în YARN , iar din această versiune modulul Hadoop MapReduce este implementat deasupra YARN. Interfețele de programare sunt în mare parte păstrate, dar nu există o compatibilitate completă cu înapoi (adică pentru a rula programe scrise pentru versiunile anterioare ale API-ului , pentru a funcționa în YARN, în general, este necesară modificarea sau refactorizarea lor și numai cu unele restricții sunt posibile opțiuni de compatibilitate binară inversă [14 ] ).

Scalabilitate

Unul dintre obiectivele principale ale Hadoop a fost inițial să ofere scalabilitate orizontală a clusterului prin adăugarea de noduri ieftine (echipamente de masă, hardware de bază englezesc ), fără a recurge la servere puternice și rețele de stocare costisitoare . Clusterele funcționale de mii de noduri în dimensiune confirmă fezabilitatea și rentabilitatea unor astfel de sisteme, de exemplu, începând cu 2011, clusterele mari Hadoop sunt cunoscute în Yahoo (mai mult de 4 mii de noduri cu o capacitate totală de stocare de 15 PB), Facebook (aproximativ 2 mii de noduri la 21 PB) și Ebay (700 de noduri la 16 PB) [15] . Cu toate acestea, se crede că scalabilitatea orizontală în sistemele Hadoop este limitată, pentru Hadoop înainte de versiunea 2.0, maximul posibil a fost estimat la 4 mii de noduri atunci când se foloseau 10 joburi MapReduce per nod [16] . În multe privințe, această limitare a fost facilitată de concentrarea în modulul MapReduce a funcțiilor pentru monitorizarea ciclului de viață al locurilor de muncă, se crede că odată cu eliminarea acestuia la modulul YARN din Hadoop 2.0 și descentralizare - distribuția unei părți din funcțiile de monitorizare la nodurile de procesare - scalabilitatea orizontală a crescut.

O altă limitare a sistemelor Hadoop este dimensiunea memoriei RAM pe nodul de nume ( NameNode ), care stochează întregul spațiu de nume cluster pentru distribuție de procesare, în plus, numărul total de fișiere pe care nodul de nume este capabil să le proceseze este de 100 de milioane [17] . Pentru a depăși această limitare, se lucrează la distribuirea nodului de nume, care este comun în arhitectura actuală pentru întregul cluster, în mai multe noduri independente. O altă opțiune pentru a depăși această limitare este utilizarea DBMS distribuită peste HDFS, cum ar fi HBase , în care rolul fișierelor și directoarelor este jucat de înregistrările dintr-un tabel mare de baze de date din punctul de vedere al aplicației.

Începând cu 2011, un cluster tipic a fost construit din noduri x86-64 multi-core cu un singur socket care rulează Linux cu 3-12 dispozitive de stocare pe disc conectate printr-o rețea de 1 Gb/s. Există tendințe atât de reducere a puterii de calcul a nodurilor și de utilizare a procesoarelor cu putere redusă ( ARM , Intel Atom ) [18] , cât și de utilizare a nodurilor de calcul de înaltă performanță simultan cu soluții de rețea cu lățime de bandă mare ( InfiniBand în Oracle Big Data ). Dispozitiv , Fibre Channel de 10 Gb/s de înaltă performanță și Ethernet SAN în configurații de șablon de date mari FlexPod ).

Scalabilitatea sistemelor Hadoop depinde în mare măsură de caracteristicile datelor care sunt procesate, în primul rând, de structura lor internă și de caracteristicile pentru extragerea informațiilor necesare din acestea și de complexitatea sarcinii de procesare, care, la rândul lor, dictează organizarea ciclurile de procesare, intensitatea de calcul a operațiilor atomice și, în cele din urmă, nivelul de paralelism și încărcarea clusterului. Manualul Hadoop (primele versiuni, înainte de 2.0) a indicat că un nivel acceptabil de paralelism este utilizarea a 10-100 de instanțe de procesoare de bază pe nod de cluster și pentru sarcini care nu necesită timp semnificativ de CPU - până la 300; pentru circumvoluții, sa considerat optim să le folosească cu numărul de noduri înmulțit cu un coeficient din intervalul de la 0,95 la 1,75 și o constantă mapred.tasktracker.reduce.tasks.maximum. Cu o valoare mai mare a coeficientului, cele mai rapide noduri, după ce au finalizat prima rundă de convergență, vor primi a doua porțiune de perechi intermediare pentru procesare mai devreme, astfel, creșterea coeficientului supraîncărcă clusterul, dar în același timp asigură o echilibrare a sarcinii mai eficientă . YARN utilizează în schimb constante de configurare care determină valorile RAM disponibilă și nucleele de procesor virtuale disponibile pentru planificatorul de resurse [19] , pe baza cărora este determinat nivelul de paralelism.

Ecosistem

Comercializare

Pe fundalul popularizării Hadoop în 2008 și al rapoartelor privind construirea de clustere Hadoop în Yahoo și Facebook, Cloudera a fost creată în octombrie 2008, condus de Michael Olson, fostul CEO al Sleepycat (compania care a creat Berkeley DB ), care vizează în întregime comercializarea tehnologiilor Hadoop. În septembrie 2009, principalul dezvoltator Hadoop Doug Cutting s-a mutat la Cloudera de la Yahoo și, datorită acestei tranziții, comentatorii au descris-o pe Cloudera drept „noul purtător standard al Hadoop”, în ciuda faptului că cea mai mare parte a proiectului a fost încă creată de angajații companiei. Facebook și Yahoo [20] . MapR a fost fondată în 2009 cu scopul de a crea o versiune de înaltă performanță a distribuției Hadoop și de a o furniza ca software proprietar. În aprilie 2009, Amazon a lansat Elastic MapReduce, un serviciu cloud care permite abonaților să creeze clustere Hadoop și să execute joburi pe ele în funcție de timp. Ulterior, ca alternativă, abonaților Amazon Elastic MapReduce li s-a oferit posibilitatea de a alege între distribuția clasică de la Apache și distribuțiile de la MapR.

În 2011, Yahoo a desprins divizia care a dezvoltat și utilizat Hadoop într-o companie independentă - Hortonworks , în curând noua companie reușind să încheie un acord cu Microsoft pentru a dezvolta în comun distribuția Hadoop pentru Windows Azure și Windows Server [21] . În același an, odată cu apariția Hadoop ca una dintre tehnologiile de bază ale datelor mari, practic toți principalii furnizori de software tehnologic pentru organizații au inclus tehnologiile Hadoop într-o formă sau alta în strategiile și liniile lor de produse. Așadar, Oracle a lansat complexul hardware-software Big Data appliance (preasamblat într-un dulap de telecomunicații și cluster Hadoop preconfigurat cu un kit de distribuție de la Cloudera) [22] , IBM a creat produsul BigInsights bazat pe kitul de distribuție Apache [ 23] , EMC a licențiat de la MapR Hadoop-ul lor de înaltă performanță pentru integrarea în produsele recent achiziționate de Greenplum [24] (această unitate de afaceri a fost ulterior transformată într-o companie independentă Pivotal , și a trecut la o distribuție Hadoop complet independentă ). pe baza codului Apache [25] ), Teradata a încheiat un acord cu Hortonworks pentru a integra Hadoop în aplicația Aster Big Analytics [26] . În 2013, Intel și-a creat propria distribuție Hadoop [27] , un an mai târziu abandonând dezvoltarea în favoarea soluțiilor de la Cloudera, în care a achiziționat un pachet de 18% [28] .

Volumul pieței de software și servicii din jurul ecosistemului Hadoop pentru 2012 este estimat la 540 de milioane de dolari, cu o creștere estimată la 1,6 miliarde de dolari până în 2017, liderii pieței fiind startup -urile din California Cloudera, MapR și Hortonworks [29] . Pe lângă acestea, Hadapt (preluat în iulie 2014 de Teradata [30] ), Datameer , Karmasphere și Platfora sunt de asemenea remarcate că își construiesc întreaga afacere pe crearea de produse care să ofere sisteme Hadoop capacități analitice [31] .

Critica

Note

↑ https://archive.apache.org/dist/hadoop/common/
↑ Vance, 2009 , Controlează primele motoare de căutare și determină anunțurile afișate lângă rezultate. Acesta decide ce văd oamenii pe pagina de pornire a Yahoo și găsește prieteni pierduți de mult pe Facebook.
↑ Dean, Jeffrey și Ghemawat, Sanjay. MapReduce: Procesare simplificată a datelor pe clustere mari // OSDI '04: al 6-lea simpozion privind proiectarea și implementarea sistemelor de operare. - USENIX , 2004. - P. 137-149 . - doi : 10.1145/1327452.1327492 . Arhivat din original pe 14 decembrie 2011.
↑ 12 Cutting , Doug. Hadoop: o scurtă istorie (engleză) (link nu este disponibil) . Yahoo! (24 martie 2008). Preluat la 25 decembrie 2011. Arhivat din original la 11 martie 2012.
↑ Vance, 2009 , Doug Cutting cu elefantul umplut care a inspirat numele Hadoop.
↑ White, 2013 , În aprilie 2008, Hadoop a doborât un record mondial devenind cel mai rapid sistem de sortare a unui terabyte de date. Rulând pe un cluster cu 910 noduri, Hadoop a sortat un terabyte în 209 secunde, pp. 10-11.
↑ White, 2013 , până atunci, Hadoop era folosit de multe alte companii, în afară de Yahoo!, cum ar fi Last.fm, Facebook și New York Times, p. zece.
↑ Metz, Cade Google binecuvântează Hadoop cu licența de brevet MapReduce (ing.) (link nu este disponibil) . Registrul (27 aprilie 2010). Preluat la 30 decembrie 2011. Arhivat din original la 11 martie 2012.
↑ Metz, 2011 , Dar a fost foarte evident, foarte repede că a putea gestiona „Big Data” este cea mai mare problemă pe care trebuie să o rezolve CIO… Era clar că Hadoop era modul în care doreau să rezolve problema”.
↑ Morrison, Alan și colab. Big Data: Cum se extrage informații din acestea (link nu este disponibil) . Prognoza tehnologica. Revista trimestrială, ediția rusă, 2010 numărul 3 . PricewaterhouseCoopers (17 decembrie 2010). „Până la începutul anului 2010, Hadoop, MapReduce și tehnologiile lor open source asociate conduceau un fenomen cu totul nou, pe care O'Reilly Media, The Economist și alții l-au numit big data”. Consultat la 12 noiembrie 2011. Arhivat din original la 11 martie 2012. (Rusă)
↑ Winckler, Marie. Apache Hadoop primește premiul principal la Media Guardian Innovation Awards (în engleză) (link nu este disponibil) . The Guardian (25 martie 2011). — „Descris de juriul ca fiind „cuțitul elvețian al secolului 21”, Apache Hadoop a primit premiul inovatorului anului pentru că are potențialul de a schimba fața inovațiilor media.” Preluat la 25 decembrie 2011. Arhivat din original la 11 martie 2012.
↑ Serdar Yegulalp. Hadoop 2: marele salt înainte al datelor mari . Hadoop 2.0 depășește MapReduce pentru a crea un cadru general pentru aplicațiile distribuite de procesare a datelor . infoworld . IDG (16 octombrie 2013) . Preluat la 1 ianuarie 2014. Arhivat din original la 16 decembrie 2013.
↑ Toby Wolpe. Fondatorul Hortonworks: YARN este sistemul de operare al centrului de date Hadoop . În calitate de lider pe MapReduce și parte a Hadoop de la începuturile sale, Arun Murthy oferă părerea sa asupra importanței YARN pentru proiectul open-source și arhitectura de date de întreprindere . ZDNet (31 octombrie 2013) . „Sistemul a fost să ia aplicația de la utilizator și să o ruleze. Deci este un fel de sistem de operare "". Consultat la 1 ianuarie 2014. Arhivat din original pe 2 ianuarie 2014.
↑ Apache Hadoop MapReduce - Migrarea de la Apache Hadoop 1.x la Apache Hadoop 2.x. Apache Software Foundation (7 octombrie 2013). Consultat la 1 ianuarie 2014. Arhivat din original pe 2 ianuarie 2014. (nedefinit)
↑ Shvachko, 2011 ,Text original (engleză)[ arataascunde] Yahoo a rulat numeroase clustere având peste 4000 de noduri cu patru unități de 1 TB per nod, 15 PB de capacitate totală de stocare, 70 de milioane de fișiere și 80 de milioane de blocuri folosind 50 GB NameNode heap. Clusterul de depozitare Facebook cu 2000 de noduri este prevăzut pentru 21 PB de capacitate totală de stocare. Extrapolând rata de creștere anunțată, spațiul său de nume ar trebui să aibă până acum aproape 200 de milioane de obiecte (fișiere + blocuri), dar o grămadă imensă de 108 GB ar trebui să permită spațiu pentru aproape 400 de milioane de obiecte. eBay rulează un cluster cu 700 de noduri. Fiecare nod are 24 TB de stocare locală pe disc, 72 GB RAM și un procesor cu 12 nuclee. Dimensiunea totală a clusterului este de 16 PB .
↑ Shvachko, 2011 , Cadrul Apache Hadoop MapReduce și-a atins limita de scalabilitate la 40.000 de clienți care rulează simultan pe cluster. Aceasta corespunde unui cluster de 4.000 de noduri cu 10 clienți MapReduce – sloturi, în terminologia Hadoop – per nod.
↑ Shvachko, 2011 , Pentru a procesa eficient cererile de metadate de la mii de clienți, NameNode păstrează întreg spațiul de nume în memorie. Cantitatea de RAM alocată pentru NameNode limitează dimensiunea clusterului <...> Limita actuală a spațiului de nume este de 100 de milioane de fișiere.
↑ Derek Harris. Big data pe microservere? Pariezi . Serviciul de întâlniri online eHarmony folosește serverele specializate Intel Atom ale SeaMicro ca bază a infrastructurii sale Hadoop, demonstrând că aplicațiile de date mari, cum ar fi Hadoop, ar putea fi o aplicație ucigașă pentru microservere cu putere redusă . Gigaom (13 iunie 2011) . Preluat la 4 ianuarie 2014. Arhivat din original la 22 decembrie 2013.
↑ yarn.nodemanager.resource.memory-mb și yarn.nodemanager.resource.cpu-vcoresîn consecință în fișierul de configurare YARN
↑ La îndemână, Alex. Creatorul Hadoop merge la Cloudera (engleză) (downlink) . SD Times (9 octombrie 2009). „Am spus de ceva vreme că Cloudera este compania cu bannerul Hadoop în mâna sa, în ciuda faptului că Yahoo și Facebook contribuie ambele cu munți de cod la proiect.” Preluat la 25 decembrie 2011. Arhivat din original la 11 martie 2012.
↑ Mary Jo Foley. Hortonworks oferă versiunea beta a platformei de date mari Hadoop pentru Windows . O versiune complet open-source a platformei de date Hortonworks pentru Windows, construită cu contribuții de la Microsoft, este disponibilă pentru testerii beta. (engleză) . ZDNet (17 februarie 2013) . - „În 2011, Microsoft a anunțat că intră în parteneriat cu Hortonworks pentru a crea atât implementări Windows Azure, cât și Windows Server ale cadrului de date mari Hadoop. Consultat la 2 ianuarie 2014. Arhivat din original pe 3 ianuarie 2014.
↑ Timothy Prickett Morgan. Oracle își lansează propriile NoSQL și Hadoop . Un Ellison extrem de încrezător urcă elefantul Big Data . Registrul (3 octombrie 2011) . — „Nu lipsește ego-ul la Oracle, așa cum demonstrează efuzia de încredere din spatele anunțului OpenWorld al companiei despre aplicația Big Data, nu atât de umilă.” Preluat la 2 ianuarie 2014. Arhivat din original la 7 iulie 2017.
↑ Doug Henschen. IBM învinge Oracle, Microsoft cu un salt de date mari . Platforma InfoSphere BigInsights bazată pe Hadoop se lansează pe infrastructura SmartCloud, învingând Oracle și Microsoft pe piață . Săptămâna Informației (10-14-2011) . Consultat la 2 ianuarie 2014. Arhivat din original pe 3 ianuarie 2014.
↑ Derek Harris. Startup MapR susține efortul Hadoop al EMC . Startup-ul de stocare MapR din California, care oferă o alternativă de înaltă performanță pentru sistemul de fișiere distribuit Hadoop, va servi ca componentă de stocare pentru viitoarea distribuție Hadoop Greenplum HD Enterprise Edition de la EMC . Gigaom (25 mai 2011) . Data accesului: 2 ianuarie 2014. Arhivat din original pe 2 ianuarie 2014.
↑ Timothy Pricket Morgan. Pivotal ships distribuția Hadoop eponimă către mase . Un HAWQ curios călărește elefantul de date mari . Registrul (17 iulie 2013) . „În urma achiziționării bazei de date paralele Greenplum și a afacerii aferente dispozitivelor de depozitare de date cu câțiva ani în urmă, EMC s-a conectat cu MapR Technologies pentru a-și rebrand propria versiune a Hadoop pentru a-și realiza varianta Greenplum HD. Dar cu distribuția Pivotal HD 1.0, spinoff-ul EMC și VMware a revenit la sursa deschisă Apache Hadoop.” Consultat la 2 ianuarie 2014. Arhivat din original pe 3 ianuarie 2014.
↑ Jaikumar Vijayan. Teradata este partener cu Hortonworks pe Hadoop . Două companii se alătură pentru a dezvolta produse și servicii de implementare . Computerworld (21 februarie 2012) . Consultat la 2 ianuarie 2014. Arhivat din original pe 3 ianuarie 2014.
↑ Stacey Higginbotham. Cloudera cine? Intel își anunță propria distribuție Hadoop . Intel intră în domeniul software-ului open source cu propria sa versiune de Hadoop. Se alătură unei multitudini de startup-uri, precum și EMC Greenplum pentru a construi o distribuție pentru big data . Gigaom (26 februarie 2013) . Consultat la 3 ianuarie 2014. Arhivat din original pe 2 ianuarie 2014.
↑ Harris, Dereck Intel renunță la distribuția Hadoop și pune milioane de oameni în spatele lui Cloudera . Gigaom (27 martie 2014). Consultat la 1 aprilie 2014. Arhivat din original la 30 martie 2014.
↑ John Furier. Modelele de afaceri Hadoop Pure-Play explicate . Forbes (19 decembrie 2013). Consultat la 2 ianuarie 2014. Arhivat din original pe 3 ianuarie 2014.
↑ Doug Henschen. Teradata achiziționează Hadapt, Revelytix pentru Big Data Boost . Teradata adaugă capabilități de pregătire a datelor, de gestionare a datelor și de analiză a datelor prin achiziționarea a doi independenți notabil în arena big data . Săptămâna Informației (22 iulie 2014) . Consultat la 1 noiembrie 2014. Arhivat din original la 1 noiembrie 2014. (nedefinit)
↑ Doug Henschen. 13 furnizori de date mari de urmărit în 2013 . De la Amazon la Splunk, iată o privire asupra inovatorilor de date mari care acum împing Hadoop, NoSQL și analiza datelor mari la următorul nivel . Săptămâna Informației (10 decembrie 2012) . — „Hadapt aduce Analytics relațional în Hadoop <...> Hadapt este într-o companie bună, Cloudera (Impala), Datameer, Karmasphere, Platfora și alții lucrând cu toții la diferite moduri de a face față aceleiași provocări de analiză pe Hadoop.” Consultat la 2 ianuarie 2014. Arhivat din original pe 3 ianuarie 2014. (nedefinit)

Literatură

Alb, Tom. Hadoop. Ghid detaliat. - al 2-lea. - Sankt Petersburg. : Piter , 2013. - 672 p. - 1000 de exemplare. - ISBN 978-5-496-00662-0 .
Lam, Chuck. Hadoop în acțiune. - DMK Press, 2012. - 424 p. - 500 de exemplare. - ISBN 978-5-97060-156-3 , 978-5-94074-785-7.
Vance, Ashlee . Hadoop, un program de software gratuit, Finds Uses Beyond Search (engleză) (HTML), N. Y. : The New York Times (17 martie 2009), p. B3. Preluat la 25 decembrie 2011.
Prickett Morgan, Timothy Cloudera oferă o distribuție comercială Hadoop (în engleză) (link nu este disponibil) . Registrul (16 martie 2009). Preluat la 25 decembrie 2011. Arhivat din original la 11 martie 2012.
Metz, Cade. Cum Yahoo a generat Hadoop, viitorul datelor mari (engleză) (link nu este disponibil) . Wired (18 octombrie 2011). Preluat la 25 decembrie 2011. Arhivat din original la 11 martie 2012.
Shvachko, Constantin. Apache Hadoop. Actualizarea de scalabilitate . - 2011. - Vol. 36 , nr. 3 . - P. 7-13 . - ISSN 1044-6397 .