Lag 0 av Big Data Stack: Redundant Physical Infrastructure - dummies

På det laveste nivået av den store databakken er den fysiske infrastrukturen. Firmaet ditt kan allerede ha et datasenter eller investert i fysisk infrastruktur, så du vil finne en måte å bruke eksisterende eiendeler på.

Store dataimplementeringer har svært spesifikke krav til alle elementene i referansearkitekturen, så du må undersøke disse kravene på lag for lag for å sikre at implementeringen din utføres og skaleres i henhold til bedriftens krav.

En prioritert liste over store dataprinsipper bør inkludere uttalelser om følgende:

Ytelse: Hvor responsiv trenger du systemet til å være? Ytelse, også kalt latens, , måles ofte fra ende til slutt, basert på en enkelt transaksjons- eller forespørselsforespørsel.
Tilgjengelighet: Trenger du 100% oppetidsgaranti for service? Hvor lenge kan virksomheten vente i tilfelle avbrudd eller feil i tjenesten?
Skalerbarhet: Hvor stor skal infrastrukturen din være? Hvor mye diskplass er nødvendig i dag og i fremtiden? Hvor mye datakraft trenger du? Vanligvis må du bestemme hva du trenger og deretter legge til litt mer skala for uventede utfordringer.
Fleksibilitet: Hvor raskt kan du legge til flere ressurser til infrastrukturen? Hvor raskt kan infrastrukturen komme seg fra feil?
Kostnad: Hva har du råd til? Fordi infrastrukturen er et sett med komponenter, kan du kanskje kjøpe det "beste" nettverket og bestemme seg for å spare penger på lagring. Du må etablere krav til hvert av disse områdene i sammenheng med et samlet budsjett og foreta avveie der det er nødvendig.

Da store data handler om høyhastighets-, høyvolums- og høydata-variasjon, vil den fysiske infrastrukturen bokstavelig talt "lage eller ødelegge" implementeringen. De fleste store dataimplementeringer må være svært tilgjengelige, slik at nettverk, servere og fysisk lagring må være både elastiske og overflødige. Resiliency og redundans er sammenhengende.

En infrastruktur eller et system er motstandsdyktig mot feil eller endringer når tilstrekkelige overflødige ressurser er på plass, klar til å hoppe inn i handling. Redundans sikrer at en slik funksjonsfeil ikke forårsaker en feil. Resiliency bidrar til å eliminere enkelte punkter i feil i infrastrukturen.

I store datasentre med forretnings kontinuitetskrav er det meste av redundansen på plass og kan utnyttes for å skape et stort datamiljø.I nye implementeringer har designerne ansvaret for å kartlegge distribusjonen til behovene til virksomheten basert på kostnader og ytelse.

Dette betyr at den tekniske og operasjonelle kompleksiteten er maskert bak en samling tjenester, hver med spesifikke vilkår for ytelse, tilgjengelighet, gjenoppretting og så videre. Disse vilkårene er beskrevet i servicenivåavtaler (SLAer) og er vanligvis forhandlet mellom tjenesteleverandøren og kunden, med straffer for manglende overholdelse.

Dette skaper faktisk et virtuelt datasenter. Selv med denne tilnærmingen, bør du fortsatt vite hva som trengs for å bygge og drive en stor datautplassering, slik at du kan gjøre de mest hensiktsmessige valgene fra de tilgjengelige tjenestetilbudene. Til tross for at du har en SLA, har organisasjonen din det ultimate ansvaret for ytelsen.

Fysiske redundante store datanettverk

Nettverk skal være overflødige og må ha nok kapasitet til å imøtekomme forventet volum og hastighet for innkommende og utgående data i tillegg til den "normale" nettverkstrafikken som virksomheten opplever. Når du begynner å lage store data som en integrert del av databehandlingsstrategien, er det rimelig å forvente at volum og hastighet øker.

Infrastrukturdesignere bør planlegge for disse forventede økninger og forsøke å skape fysiske implementeringer som er "elastiske". "Som nettverkstrafikk ebbs og flyter, så også settet av fysiske eiendeler knyttet til gjennomføringen. Din infrastruktur bør tilby overvåkingsfunksjoner slik at operatørene kan reagere når flere ressurser kreves for å håndtere endringer i arbeidsbelastning.

Administrer stor datamaskinvare: Lagring og servere

På samme måte må maskinvare (lagring og server) ha tilstrekkelig hastighet og kapasitet til å håndtere alle forventede store datakapasiteter. Det er lite brukt for å ha et høyhastighetsnettverk med sakte servere fordi serverne mest sannsynlig vil bli en flaskehals. Et svært raskt sett med lagrings- og beregne servere kan imidlertid overvinne variabel nettverksytelse. Selvfølgelig vil ingenting fungere skikkelig hvis nettverksytelsen er dårlig eller upålitelig.

Stor datainfrastruktur operasjon

Et annet viktig design hensyn er infrastruktur operasjonsledelse. De største nivåene av ytelse og fleksibilitet vil bare være til stede i et godt styrt miljø. Datasentralforvaltere må kunne forutse og forebygge katastrofale feil, slik at integriteten til dataene, og i forlengelse av forretningsprosessene, opprettholdes. IT-organisasjoner overser ofte og derfor underinvest i dette området.