Opprettelsen av administrerbare store datastrukturer - dummier

Da databehandling flyttet inn i det kommersielle markedet, ble data lagret i flade filer som ikke innebar struktur. I dag krever store data håndterbare datastrukturer. Når bedrifter trengte å komme seg til detaljert forståelse om kunder, måtte de bruke brute-force metoder, inkludert meget detaljerte programmeringsmodeller for å skape noe verdi.

Senere på 1970-tallet endret ting med oppfinnelsen av relasjonsdatamodellen og relasjonsdatabasebehandlingssystemet (RDBMS) som pålagde struktur og en metode for å forbedre ytelsen. Viktigst av alt har relasjonsmodellen lagt til et abstraksjonsnivå slik at programmeringsprogrammerne kunne tilfredsstille de voksende forretningsbehovene for å trekke verdier fra data.

Relasjonsmodellen tilbød et økosystem av verktøy fra et stort antall nye programvarefirmaer. Det fylte et voksende behov for å hjelpe bedrifter bedre å organisere sine data og kunne sammenligne transaksjoner fra en geografi til en annen.

I tillegg bidro det til bedriftsledere som ønsket å kunne undersøke informasjon som inventar og sammenligne det med kundeordreinformasjon i beslutningsprosess. Men et problem oppstod fra denne eksploderende etterspørselen etter svar: Lagring av dette voksende datamengde var dyrt, og tilgangen var langsom. Å gjøre saken verre, det fantes mye data duplisering, og den faktiske forretningsverdien av dataene var vanskelig å måle.

Når datamengden som organisasjonene behøvde å håndtere, vokste ut av kontroll, ga datalageret en løsning. Datamagasinet gjorde det mulig for IT-organisasjonen å velge en delmengde av dataene som ble lagret, slik at det ville være lettere for virksomheten å prøve å få innsikt.

Datavarehuset var ment å hjelpe bedrifter med å håndtere stadig større mengder strukturert data som de trengte å kunne analysere ved å redusere volumet av dataene til noe mindre og mer fokusert på et bestemt område av virksomheten. Det fylte behovet for å skille operasjonsbeslutningsbehandling og beslutningstøtte - av ytelsesårsaker.

Lagerhus lagrer ofte data fra tidligere år for å forstå organisatorisk ytelse, identifisere trender og bidra til å avsløre atferdsmønstre. Det ga også en integrert kilde til informasjon fra tvers av ulike datakilder som kunne brukes til analyse. I dag er både innholdsadministrasjonssystemer og datavarehus i stand til å utnytte forbedringer i skalerbarheten til maskinvare, virtualiseringsteknologi og muligheten til å lage integrerte maskinvare- og programvare systemer.

Noen ganger var disse datalagrene seg for komplekse og store og ga ikke fart og fleksibilitet som virksomheten krevde. Svaret var en ytterligere forbedring av dataene som administreres gjennom data mars. Disse data mars var fokusert på bestemte forretnings problemer og støttet virksomhetens behov for hurtige spørringer. Lageret har utviklet seg til å støtte nye teknologier som integrerte systemer og datautstyr.

Datamagasiner og data mars løste mange problemer for bedrifter som behøvde en konsistent måte å håndtere store transaksjonsdata på. Men når det gjaldt å håndtere store mengder ustrukturert eller halvstrukturert data, var lageret ikke i stand til å utvikle seg nok til å møte forandrede krav.

For å komplisere saker, blir datalager typisk matet i batchintervall, vanligvis ukentlig eller daglig. Dette er bra for planlegging, finansiell rapportering og tradisjonelle markedsføringskampanjer, men er for sakte for stadig mer forretningsmessige og forbrukermiljøer i sanntid.

Hvordan ville selskapene kunne forandre sine tradisjonelle datastyringsmetoder for å håndtere det voksende volumet av ustrukturerte dataelementer? Løsningen kom ikke over natten. Som bedrifter begynte å lagre ustrukturert data, begynte leverandørene å legge til funksjoner som BLOBs (binære store objekter).

I hovedsak vil et ustrukturert dataelement bli lagret i en relasjonsdatabase som en sammenhengende del av data. Dette objektet kan merkes, men du kunne ikke se hva som var inne i objektet. Klart, dette var ikke til å løse skiftende kunde- eller forretningsbehov.

Skriv inn objektdatabasebehandlingssystemet (ODBMS). Objektdatabasen lagret BLOB som et adresserbart sett med stykker slik at du kunne se hva som var der inne. I motsetning til BLOB, som var en uavhengig enhet vedlagt en tradisjonell relasjonsdatabase, ga objektdatabasen en enhetlig tilnærming til å håndtere ustrukturerte data.

Objektdatabaser inkluderer et programmeringsspråk og en struktur for dataelementene, slik at det er lettere å manipulere ulike dataobjekter uten programmering og komplekse sammenhenger. Objektdatabasene introduserte et nytt nivå av innovasjon som bidro til å lede til den andre bølgen av datahåndtering.