Alternative distribusjonsformfaktorer for Hadoop - dummies

Video: Acoustic Alternative Rock | Top 20 Alternative Rock Songs Of The 2000s 2025

Selv om Hadoop har det beste når det er installert på en fysisk datamaskin, hvor behandlingen har direkte tilgang til dedikert lagring og nettverk, har Hadoop alternative distribusjoner. Og selv om de er mindre effektive enn den dedikerte maskinvaren, er det i enkelte tilfeller alternativer som er mulige alternativer.

Virtualiserte servere

En stor trend i IT-sentre over det siste tiåret er virtualisering, hvor en stor server kan være vert for flere "virtuelle maskiner" som ser ut og fungerer som enkelt maskiner. I stedet for dedikert maskinvare, er en organisasjon hele settet av applikasjoner og repositorier distribuert på virtualisert maskinvare.

Denne tilnærmingen har mange fordeler: Sentralisering av IT forenkler vedlikehold, IT-investeringer er maksimert på grunn av færre ubrukte CPU-sykluser, og det totale maskinvareavtrykket er lavere, noe som resulterer i lavere total eierkostnad.

Organisasjoner der IT-distribusjonene er helt virtualiserte, tilsier i noen tilfeller at alle nye applikasjoner følger denne modellen. Selv om Hadoop kan distribueres på denne måten, i hovedsak som en virtuell klynge (med virtuelle masterknuter og virtuelle slave noder), oppstår ytelsen, delvis fordi lagring er SAN-basert og ikke er lokalt knyttet til de fleste virtualiserte miljøer.

Fordi Hadoop er designet for å fungere best når alle tilgjengelige CPU-kjerner har rask tilgang til uavhengig spinndisker, opprettes en flaskehals som hele kartet og reduserer oppgaver, og begynner å behandle data via det begrensede nettverket mellom CPUer og SAN. Siden graden av isolasjon mellom virtualiserte serverressurser er begrenset (virtuelle servere deler ressurser med hverandre), kan Hadoop arbeidsbelastninger også påvirkes av annen aktivitet.

Når den virtuelle serverens ytelse påvirkes av en annen serveres arbeidsbelastning, er det faktisk kjent i IT-kretser som et "støyende nabo" -problem!

Virtualiserte miljøer kan imidlertid være ganske nyttige, men i noen tilfeller. For eksempel, hvis organisasjonen din trenger å fullføre en engangsforskningsanalyse av et stort datasett, kan du enkelt lage en midlertidig klynge i ditt virtualiserte miljø. Denne metoden er ofte en raskere måte å få intern godkjenning enn å utholde de byråkratiske problemene med å skaffe seg ny dedikert maskinvare.

Når du eksperimenterer med Hadoop, kjører du det ofte på de bærbare maskinene dine via en virtuell maskin (VM). Hadoop er ekstremt sakte i denne typen miljø, men hvis du bruker små datasett, er det et verdifullt lærings- og testverktøy.

Cloud-distribusjoner

Variasjoner av virtualiserte miljøer er cloud computing-leverandører som Amazon, Rackspace og IBM SoftLayer. De fleste store offentlige cloud-leverandører har nå MapReduce eller Hadoop-tilbud tilgjengelig for bruk. Igjen, deres ytelse er dårligere enn å distribuere klassen din på dedikert maskinvare, men det er bedre.

Cloud-leverandører lager Hadoop-optimaliserte miljøer der slave noder har lokalt lagret lagring og dedikert nettverk. Hypervisorer blir også langt mer effektive, med redusert overhead og latens.

Ikke vurder en sky løsning for langsiktige applikasjoner, fordi kostnadene ved å leie cloud computing ressurser er betydelig høyere enn å eie og vedlikeholde et tilsvarende system. Med en skyleverandør betaler du for enkelhets skyld og for å kunne laste ut overhead av provisjonsmaskinvare. Imidlertid er skyen en ideell plattform for testing, utdanning og engangs databehandling.

Bortsett fra ytelses- og kostnadsoverveielser, har du lovgivningsmessige hensyn med offentlig distribusjon av cloud. Hvis du har sensitive data, som må lagres enten internt eller i landet, er det ikke et alternativ for offentlig publisering av cloud. I tilfeller som dette, hvor du trenger bekvemmeligheten av en skybasert distribusjon, er en privat sky et godt alternativ, hvis det er tilgjengelig.