Hadoop-dummiernes opprinnelse og design <[SET:descriptionno]Hadoop

Så hva er dette med det morsomme navnet Hadoop? I kjerne er Hadoop et rammeverk for lagring av data på store klynger av < Commodity -hardware - daglig datamaskinhardware som er rimelig og lett tilgjengelig - og kjører applikasjoner mot dataene. En klynge er en gruppe sammenkoblede datamaskiner (kjent som noder ) som kan fungere sammen om det samme problemet.

Bruk av nettverk av rimelige beregningsressurser for å skaffe seg forretningsmessig innsikt, er Hadops nøkkelverdier.

Som for det navnet Hadoop, ikke se etter noen stor betydning der, det er bare navnet Doug Cutting sønn ga til sin utstoppede elefant. (Doug Cutting er selvfølgelig medskaperen til Hadoop.) Navnet er unikt og lett å huske - Egenskaper som gjorde det til et godt valg.

Hadoop består av to hovedkomponenter: en distribuert prosessramme kalt MapReduce (som nå støttes av en komponent som heter YARN) og et distribuert filsystem kjent som Hadoop distribuert filsystem eller HDFS.

En applikasjon som kjører på Hadoop får sitt arbeid delt mellom noder (maskiner) i klyngen, og HDFS lagrer dataene som skal behandles. En Hadoop-klynge kan spanne tusenvis av maskiner, hvor HDFS lagrer data, og MapReduce-jobber gjør behandlingen i nærheten av dataene, noe som holder I / O-kostnadene lave. MapReduce er ekstremt fleksibel og muliggjør utvikling av et bredt utvalg av applikasjoner.

Som du kanskje har antatt, er en Hadoop-klynge en form for

beregne klynge, en type klynge som hovedsakelig brukes til beregningsformål. I en beregningsklynger kan mange datamaskiner ( beregne noder ) dele beregningsarbeidbelastninger og dra nytte av en meget stor samlet båndbredde over hele klyngen. Hadoop-klynger består vanligvis av noen få

master noder, som styrer lagrings- og behandlingssystemene i Hadoop, og mange slave noder, som lagrer alle klyngens data og er også der dataene blir behandlet.