Video: Modular Data Center Supports Ground Breaking Genome Research Analytics | Schneider Electric 2025
Bare å ha en raskere datamaskin er ikke nok til å sikre riktig ytelsesnivå for å håndtere store data. Du må kunne distribuere komponenter til din store datatjeneste på tvers av en rekke noder. I distribuert databehandling er en knutepunkt et element som finnes i en klynge av systemer eller i et rack.
En node inneholder vanligvis CPU, minne og en slags disk. En knute kan imidlertid også være en CPU og minne som er avhengig av nærliggende lagring i et stativ.
Innenfor et stort datamiljø er disse nodene vanligvis gruppert sammen for å gi skala. For eksempel kan du starte med en stor dataanalyse og fortsette å legge til flere datakilder. For å imøtekomme veksten legger en organisasjon ganske enkelt flere noder inn i en klynge slik at den kan skalere seg for å imøtekomme voksende krav.
Det er imidlertid ikke nok å bare utvide antall noder i klyngen. Det er heller viktig å kunne sende en del av den store dataanalysen til forskjellige fysiske miljøer. Hvor du sender disse oppgavene og hvordan du håndterer dem, gjør forskjellen mellom suksess og fiasko.
I noen komplekse situasjoner vil du kanskje utføre mange forskjellige algoritmer parallelt, selv innenfor samme klynge, for å oppnå hastigheten på analysen som kreves. Hvorfor vil du utføre forskjellige store datalgoritmer parallelt i samme rack? Jo nærmere sammen fordelingene av funksjoner er, desto raskere kan de utføre.
Selv om det er mulig å distribuere stor dataanalyse på tvers av nettverk for å utnytte tilgjengelig kapasitet, må du gjøre denne typen distribusjon basert på krav til ytelse. I noen situasjoner tar bevegelseshastigheten baksetet. Men i andre situasjoner er det raskt å få resultater raskt. I denne situasjonen vil du forsikre deg om at nettverksfunksjonene er i umiddelbar nærhet til hverandre.
Generelt må det store datamiljøet optimaliseres for typen analyseoppgave. Derfor er skalerbarhet lynchpin for å få store data til å fungere vellykket. Selv om det ville være teoretisk mulig å betjene et stort datamiljø i et enkelt stort miljø, er det ikke praktisk.
For å forstå behovene for skalerbarhet i store data, må man bare se på skyvbarhet og forstå både kravene og tilnærmingen. Som cloud computing krever store data inkludering av raske nettverk og billige klynger av maskinvare som kan kombineres i stativer for å øke ytelsen. Disse klyngene støttes av programvareautomatisering som muliggjør dynamisk skalering og lastbalanse.
Design og implementeringer av MapReduce er gode eksempler på hvordan distribuert databehandling kan gjøre store data operasjonelt synlige og rimelige. I hovedsak er selskapene et av de unike vendepunktene i databehandling der teknologikonceptene kommer sammen til rett tid for å løse de rette problemene. Kombinere distribuert databehandling, forbedrede maskinvaresystemer og praktiske løsninger som MapReduce og Hadoop endrer datastyring på dype måter.
