Slik setter du arkitektonisk fundament for store data - dummier

Det er viktig å legge et sterkt arkitektonisk fundament hvis du vil lykkes med store data. I tillegg til å støtte de funksjonelle kravene er det viktig å støtte den nødvendige ytelsen. Dine behov vil avhenge av arten av analysen du støtter. Du trenger riktig mengde beregningsevne og hastighet.

Din arkitektur må også ha den riktige mengden redundans, slik at du er beskyttet mot uventet ventetid og nedetid.

Start med å stille deg selv følgende spørsmål:

Hvor mye data skal organisasjonen din klare i dag og i fremtiden?
Hvor ofte vil organisasjonen din beherske data i sanntid eller i nærheten av sanntid?
Hvor mye risiko kan organisasjonen ha råd til? Er din bransje underlagt strenge krav til sikkerhet, samsvar og styring?
Hvor viktig er hastigheten på behovet for å administrere data?
Hvor sikker eller presis må dataene være?

Grensesnitt og feeds for store data

For å forstå hvor store data fungerer i den virkelige verden, er det viktig å begynne med å forstå nødvendigheten av grensesnitt og feeds. Faktisk, det som gjør store data store er at det er avhengig av å hente mye data fra mange kilder.

Derfor vil åpne applikasjonsprogrammeringsgrensesnitt (APIer) være kjernen til enhver stor dataarkitektur. I tillegg må du huske at grensesnitt finnes på alle nivåer og mellom hvert lag av stabelen. Uten integreringstjenester kan store data ikke skje.

Redundant stor data fysisk infrastruktur

Den støttende fysiske infrastrukturen er grunnleggende for operasjonen og skalerbarheten til en stor dataarkitektur. Faktisk, uten tilgjengeligheten av robust fysisk infrastruktur, ville store data trolig ikke ha kommet som en så viktig trend. For å støtte et uventet eller uforutsigbart datamengder må en fysisk infrastruktur for store data være annerledes enn for tradisjonelle data.

Den fysiske infrastrukturen er basert på en distribuert databehandling. Dette betyr at data kan lagres fysisk på mange forskjellige steder og kan kobles sammen gjennom nettverk, bruk av distribuert filsystem og ulike store dataanalytiske verktøy og applikasjoner.

Redundans er viktig fordi du arbeider med så mye data fra så mange forskjellige kilder. Redundans kommer i mange former. Hvis firmaet ditt har opprettet en privat sky, vil du ha redundans bygget i det private miljøet, slik at det kan skalere ut for å understøtte skiftende arbeidsbelastninger.

Hvis bedriften din vil inneholde intern IT-vekst, kan den bruke eksterne skygtjenester for å øke sine interne ressurser. I enkelte tilfeller kan denne redundansen komme i form av et programvare som et service-tilbud (SaaS) som gjør det mulig for bedrifter å gjøre sofistikert dataanalyse som en tjeneste. SaaS-tilnærmingen gir lavere kostnader, raskere oppstart og sømløs utvikling av den underliggende teknologien.

Stor datasikkerhetsinfrastruktur

Den viktigere store dataanalysen blir til bedrifter, jo viktigere blir det å sikre dataene. For eksempel, hvis du er et helsevesen, vil du sannsynligvis ønske å bruke store dataprogrammer for å bestemme endringer i demografi eller skift i pasientbehov. Disse dataene om dine bestanddeler må beskyttes både for å oppfylle samsvarskrav og for å beskytte pasientens personvern.

Du må ta hensyn til hvem som har lov til å se dataene og under hvilke omstendigheter de har lov til å gjøre det. Du må kunne verifisere identiteten til brukerne samt beskytte pasientens identitet.

Operasjonelle store datakilder

Det er viktig å forstå at du må inkorporere alle datakilder som gir deg et komplett bilde av virksomheten din og se hvordan dataene påvirker måten du driver virksomheten din på. Når verden endrer seg, er det viktig å forstå at operasjonelle data nå må omfatte et bredere sett av datakilder, inkludert ustrukturerte kilder som sosiale medier i alle dens former.

Du finner nye fremvoksende tilnærminger til datahåndtering i den store dataverdenen, inkludert dokument-, graf-, kolonne- og geospatiale databasearkitekturer. Samlet nevnes disse som NoSQL, eller ikke bare SQL, databaser. I hovedsak må du kartlegge datastrukturer til transaksjonstypene.

Dette gjør at høyre dataene er tilgjengelige når du trenger det. Du trenger også datarchitecturer som støtter komplisert ustrukturert innhold. Du må inkludere både relasjonsdatabaser og ikke-relasjonelle databaser i din tilnærming til å utnytte store data. Det er også nødvendig å inkludere ustrukturerte datakilder, for eksempel innholdshåndteringssystemer, slik at du kan komme nærmere den 360-graders forretningsvisningen.

Alle disse operasjonelle datakilder har flere egenskaper til felles:

De representerer system med rekord som holder styr på de kritiske dataene som kreves for sanntid, daglig drift av virksomheten.
De oppdateres kontinuerlig basert på transaksjoner som skjer innenfor forretningsenheter og fra nettet.
For disse kildene for å gi en nøyaktig representasjon av virksomheten, må de blande strukturert og ustrukturert data.
Disse systemene må også kunne skaleres for å støtte tusenvis av brukere på en konsistent basis. Disse kan omfatte transaksjonsbaserte e-handelssystemer, kundeforholdsstyringssystemer eller call center-applikasjoner.