Administrere virtualisering for store data - dummies

Virtualisering skiller ressurser og tjenester fra underliggende fysisk leveringsmiljø, slik at du kan lage mange virtuelle systemer innenfor et enkelt fysisk system. En av de viktigste årsakene til at selskapene har implementert virtualisering, er å forbedre ytelsen og effektiviteten i behandlingen av en variert blanding av arbeidsbelastninger.

Den store datahypervisoren

I en ideell verden vil du ikke bekymre deg for den underliggende operativsystem og fysisk maskinvare. En hypervisor er teknologien som er ansvarlig for at ressursdeling skjer på en ordnet og repeterbar måte.

Hypervisoren sitter på de laveste nivåene av maskinvaremiljøet og bruker et tynt lag med kode for å aktivere dynamisk ressursdeling. Hypervisoren gjør det til å virke som om hvert operativsystem har de fysiske ressursene til seg selv.

I verden av store data må du kanskje støtte mange forskjellige driftsmiljøer. Hypervisoren blir en ideell leveringsmekanisme for teknologikomponentene til den store datastakken. Hypervisoren lar deg vise den samme applikasjonen på mange systemer uten å fysisk kopiere det programmet på hvert system.

Som en ekstra fordel, på grunn av hypervisorarkitekturen, kan den laste forskjellige operativsystemer som om de bare var en annen applikasjon. Så, hypervisor er en veldig praktisk måte å få ting virtualisert raskt og effektivt.

Gjesteoperativsystemene er operativsystemene som kjører på de virtuelle maskinene. Med virtualiseringsteknologi kan du sette opp hypervisoren for å dele den fysiske datamaskinens ressurser. Ressurser kan deles 50/50 eller 80/20 mellom to gjestestasjoner, for eksempel.

Dette arrangementets skjønnhet er at hypervisoren gjør alt tungt løft. Gjesteoperativsystemet bryr seg ikke om at det kjører i en virtuell partisjon; det synes det har en datamaskin til seg selv.

Du finner i utgangspunktet to typer hypervisorer:

Type 1 hypervisors kjører direkte på maskinvareplattformen. De oppnår høyere effektivitet fordi de kjører direkte på plattformen.
Type 2 hypervisors kjører på vertsoperativsystemet. De brukes ofte når et behov eksisterer for å støtte et bredt spekter av I / O-enheter.

Abstraksjon og stor datavirtualisering

For IT-ressurser og tjenester som skal virtualiseres, skilles de fra det underliggende fysiske leveringsmiljøet.Begrepet for denne separasjonshandlingen kalles abstraksjon. Abstraksjon er et nøkkelbegrep i store data. MapReduce og Hadoop distribueres databehandlingsmiljøer hvor alt er abstrahert. Detaljene er abstraherte slik at utvikleren eller analytikeren ikke trenger å være opptatt av hvor dataelementene er plassert.

Abstraksjon minimerer kompleksiteten til noe ved å skjule detaljene og bare gi relevant informasjon. For eksempel, hvis du skulle hente noen som du aldri har møtt før, kan han fortelle deg hvor han skal møte ham, og hva han skal ha på seg. Han trenger ikke å fortelle hvor han ble født, hvor mye penger han har i banken, fødselsdatoen og så videre.

Det er ideen med abstraksjon - det handler om å gi en spesifikasjon på høyt nivå i stedet for å gå inn i detaljert informasjon om hvordan noe fungerer.

Implementere virtualisering for å jobbe med store data

Virtualisering hjelper gjør IT-miljøet ditt smart nok til å håndtere stor dataanalyse. Ved å optimalisere alle elementene i infrastrukturen din, inkludert maskinvare, programvare og lagring, får du effektiviteten som trengs for å behandle og administrere store mengder strukturert og ustrukturert data. Med store data må du få tilgang til, administrere og analysere strukturert og ustrukturert data i et distribuert miljø.

Store data forutsetter distribusjon. I praksis vil enhver form for MapReduce fungere bedre i et virtualisert miljø. Du trenger evnen til å flytte arbeidsbelastningene rundt, basert på krav til beregning av strøm og lagring.

Virtualisering vil gjøre det mulig for deg å takle større problemer som ennå ikke er scoped. Du kan ikke vite på forhånd hvor raskt du skal skalere.

Virtualisering gjør at du kan støtte en rekke operative store datalager. For eksempel kan en grafdatabase spinnes opp som et bilde.

Den mest direkte fordelen av virtualisering er å sikre at MapReduce-motorer fungerer bedre. Virtualisering vil resultere i bedre skala og ytelse for MapReduce. Hver av kart- og reduksjonsoppgaver må utføres uavhengig. Hvis MapReduce-motoren er parallellisert og konfigurert til å kjøre i et virtuelt miljø, kan du redusere administrasjonskostnadene og tillate utvidelser og sammentrekninger i oppgavens arbeidsbelastning.

MapReduce er iboende parallelt og distribuert. Ved å inkapslere MapReduce-motoren i en virtuell container, kan du kjøre det du trenger når du trenger det. Med virtualisering øker du utnyttelsen av eiendelene du allerede har betalt for ved å gjøre dem til generiske ressursbassenger.