Hadoop Distributed File System (HDFS) - dummies

Video: What is HDFS | Hadoop Distributed File System (HDFS) Introduction | Hadoop Training | Edureka 2025

Løsningen for å utvide Hadoop-klynger på ubestemt tid er å føder NameNode. Før Hadoop 2 kom inn i scenen, måtte Hadoop-klynger leve med det faktum at NameNode satte grenser i den grad de kunne skala. Få klynger klarte å skalere enn 3, 000 eller 4, 000 noder.

NameNode trenger å opprettholde poster for hver blokk med data som er lagret i klyngen, viste seg å være den viktigste faktoren som begrenser større klyngvekst. Når du har for mange blokker, blir det stadig vanskeligere for NameNode å skalere opp som Hadoop-klyngen skalerer ut.

Spesifikt må du sette HDFS opp slik at du har flere NameNode-forekomster som kjører på egen, dedikerte masternoder og deretter gjør hver NameNode ansvarlig bare for filblokkene i eget navneplass.

Figuren viser replikasjonsmønstre av datablokker i HDFS. Du kan se en Hadoop-klynge med to NameNodes som serverer en enkelt klynge. Slavenoderne inneholder alle blokker fra begge navnene.