Ustrukturerte data i et stort datamiljø - dummier

Ustrukturerte data er data som ikke følger et spesifisert format for store data. Hvis 20 prosent av dataene er tilgjengelige for bedrifter er strukturerte data, er de andre 80 prosent ustrukturert. Ustrukturerte data er egentlig de fleste dataene du vil møte. Inntil nylig støttet teknologien imidlertid ikke mye med det, unntatt å lagre det eller analysere det manuelt.

Kilder til ustrukturerte store data

Ustrukturerte data er overalt. Faktisk utfører de fleste enkeltpersoner og organisasjoner sine liv rundt ustrukturerte data. Akkurat som med strukturert data, er ustrukturert data enten maskingenerert eller menneskelig generert.

Her er noen eksempler på maskingenerert ustrukturert data:

Satellittbilder: Dette inkluderer værdata eller dataene som regjeringen fanger i satellittovervåkingsbildet. Bare tenk på Google Earth, og du får bildet.
Vitenskapelige data: Dette inkluderer seismiske bilder, atmosfæriske data og høy energi fysikk.
Fotografier og video: Dette inkluderer sikkerhet, overvåking og trafikkvideo.
Radar- eller sonardata: Dette inkluderer kjøretøy, meteorologiske og oceanografiske seismiske profiler.

Følgende liste viser noen få eksempler på menneskelig genererte ustrukturerte data:

Tekst internt til din bedrift: Tenk på all tekst innenfor dokumenter, logger, undersøkelsesresultater og e-post. Bedriftsinformasjon representerer faktisk en stor prosentandel av tekstinformasjonen i verden i dag.
Sosiale medier data: Denne data genereres fra sosiale medier plattformer som YouTube, Facebook, Twitter, LinkedIn og Flickr.
Mobildata: Dette inkluderer data som tekstmeldinger og plasseringsinformasjon.
Nettstedets innhold: Dette kommer fra alle nettsteder som leverer ustrukturert innhold, som YouTube, Flickr eller Instagram.

Og listen fortsetter.

Noen mener at begrepet ustrukturerte data er misvisende fordi hvert dokument kan inneholde sin egen spesifikke struktur eller formatering basert på programvaren som opprettet den. Men det som er internt i dokumentet er virkelig ustrukturert.

Ustrukturerte data er langt størst i data-ligningen, og brukstilfeller for ustrukturerte data ekspanderer raskt. På tekstsiden alene kan tekstanalyser brukes til å analysere ustrukturert tekst og å trekke ut relevante data og omforme dataene til strukturert informasjon som kan brukes på ulike måter.

For eksempel er et populært stort datautbruksomgang sosial mediaanalyse for bruk med høyt volumkunder. I tillegg analyseres ustrukturerte data fra anropssentral notater, e-post, skriftlige kommentarer i en undersøkelse og andre dokumenter for å forstå kundeadferd. Dette kan kombineres med sosiale medier fra titalls millioner kilder for å forstå kundeopplevelsen.

En CMS-rolle i stor datastyring

Organisasjoner lagrer noen ustrukturerte data i databaser. De bruker imidlertid også Enterprise Content Management Systems (CMS) som kan håndtere hele livsyklusen av innholdet. Dette kan inneholde webinnhold, dokumentinnhold og andre former for medier.

I henhold til Association for Information and Image Management (AIIM) består en ideell organisasjon som tilbyr utdanning, forskning og beste praksis, Enterprise Content Management (ECM) "strategier, metoder og verktøy som brukes til å fange, administrere, lagre, bevare og levere innhold og dokumenter relatert til organisatoriske prosesser. "Teknologiene som inngår i ECM inkluderer dokumentbehandling, rekordbehandling, bildebehandling, arbeidsflytbehandling, webinnholdshåndtering og samarbeid.

En hel bransje har vokst opp rundt å administrere innhold, og mange leverandører av innholdsforvaltning skaler ut sine løsninger for å håndtere store mengder ustrukturert data. Nye teknologier utvikles imidlertid også for å hjelpe til med å støtte ustrukturert data og analyse av ustrukturerte data. Noen av disse støtter både strukturert og ustrukturert data. Noen støtter sanntidsstrømmer. Disse inkluderer teknologier som Hadoop, MapReduce og streaming.

Systemer som er utformet for å lagre innhold i form av innholdsstyringssystemer, er ikke lenger frittstående løsninger. Snarere er det sannsynligvis de vil være en del av en samlet dataadministrasjonsløsning. For eksempel kan organisasjonen din overvåke Twitter-feeder som deretter kan programmere utløse et CMS-søk.

Nå har personen som utløste tweeten fått et svar tilbake som gir et sted hvor personen kan finne det produktet han eller hun kanskje leter etter. Den største fordelen er når denne typen interaksjon kan skje i sanntid. Det illustrerer også verdien av å utnytte sanntids ustrukturert, strukturert (kundedata om personen som tweeted) og semi-strukturert (det faktiske innholdet i CMS) -dataene.

Virkeligheten er at du sannsynligvis vil bruke en hybrid tilnærming til å løse dine store dataproblemer. For eksempel er det ikke fornuftig å flytte alt ditt nyhetsinnhold, for eksempel til Hadoop på stedet, fordi det skal hjelpe til med å håndtere ustrukturerte data.