Identifiser dataene du trenger for dine store data - dummies

Få oversikt over hvilken type data du har å gjøre med i ditt store dataprosjekt. Mange organisasjoner erkjenner at mange internt genererte data ikke har vært vant til sitt fulle potensial tidligere.

Ved å utnytte nye verktøy, får organisasjoner ny innsikt fra tidligere uutnyttede kilder til ustrukturert data i e-post, kundeserviceoppføringer, sensordata og sikkerhetslogger. I tillegg er det stor interesse i å lete etter ny innsikt basert på analyse av data som hovedsakelig er eksternt for organisasjonen, for eksempel sosiale media, mobilplassering, trafikk og vær.

Utforskningsfasen for store data

I de tidlige stadiene av analysen vil du søke etter mønstre i dataene. Det er bare ved å undersøke svært store datamengder at nye og uventede relasjoner og korrelasjoner mellom elementene kan bli tydelige. Disse mønstrene kan for eksempel gi innsikt i kundepreferanser for et nytt produkt. Du trenger en plattform for å organisere dine store data for å se etter disse mønstrene.

Hadoop er mye brukt som en underliggende byggestein for å fange og behandle store data. Hadoop er designet med evner som gir raskere behandling av store data og gjør det mulig å identifisere mønstre i store mengder data på relativt kort tid. De to primære komponentene i Hadoop - Hadoop Distributed File System (HDFS) og MapReduce - brukes til å administrere og behandle dine store data.

FlumeNG for stor dataintegrasjon

Det er ofte nødvendig å samle, aggregere og flytte ekstremt store mengder strømdata for å søke etter skjulte mønstre i store data. Tradisjonelle integrasjonsverktøy som ETL ville ikke være rask nok til å flytte de store datastrømmene i tide for å levere resultater for analyse som sanntids svindeloppdagelse. FlumeNG laster data i sanntid ved å streame dataene dine til Hadoop.

Vanligvis brukes Flume til å samle store mengder loggdata fra distribuerte servere. Den følger alle fysiske og logiske noder i en Flume-installasjon. Agent noder er installert på serverne og er ansvarlig for å håndtere måten en enkelt datastrøm overføres og behandles fra startpunktet til bestemmelsesstedet.

I tillegg brukes samlere til å gruppere datastrømmene til større strømmer som kan skrives til et Hadoop-filsystem eller annen stor datalagringsbeholder. Flume er designet for skalerbarhet og kan kontinuerlig legge til flere ressurser til et system for å håndtere svært store mengder data på en effektiv måte.Flumes produksjon kan integreres med Hadoop og Hive for analyse av dataene.

Flume har også transformasjonselementer som kan brukes på dataene og kan gjøre Hadoop-infrastrukturen din til en streamingkilde for ustrukturerte data.

Mønster i store data

Du finner mange eksempler på selskaper som begynner å realisere konkurransefortrinnene fra stor dataanalyse. For mange bedrifter blir datastrømmer for sosiale medier stadig en integrert del av en digital markedsføringsstrategi. I undersøkelsesstadiet kan denne teknologien brukes til å raskt søke gjennom store mengder streamingdata og trekke ut trendmønstrene som er relatert til bestemte produkter eller kunder.

Kodifiseringsfasen for store data

Med hundrevis av butikker og tusenvis av kunder trenger du en repeterbar prosess for å gjøre spranget fra mønsteridentifikasjon til implementering av nytt produktvalg og mer målrettet markedsføring. Når du har funnet noe interessant i din store dataanalyse, kodifiserer du den og gjør den til en del av forretningsprosessen.

For å kodifisere forholdet mellom dine store dataanalyser og driftsdata må du integrere dataene.

Stor dataintegrasjon og integreringstrinn

Store data har stor innvirkning på mange aspekter av datahåndtering, inkludert dataintegrasjon. Tradisjonelt har dataintegrasjon fokusert på bevegelse av data gjennom mellomvare, inkludert spesifikasjoner for meldingsoverføring og krav til applikasjonsprogrammeringsgrensesnitt (APIer). Disse konseptene for dataintegrasjon er mer hensiktsmessige for å administrere data i ro i stedet for data i bevegelse.

Flyttet inn i den nye verden av ustrukturerte data og streamingdata endrer det konvensjonelle begrepet dataintegrasjon. Hvis du vil innlemme analysen av streamingdata i forretningsprosessen, trenger du avansert teknologi som er rask nok til at du kan ta beslutninger i sanntid.

Etter at den store dataanalysen er fullført, trenger du en tilnærming som gjør at du kan integrere eller inkorporere resultatene av din store dataanalyse i forretningsprosessen og i sanntidsaksjoner.

Selskaper har høye forventninger til å få reell forretningsverdi fra stor dataanalyse. Faktisk vil mange selskaper gjerne begynne en dypere analyse av internt genererte store data, for eksempel sikkerhetsloggdata, som ikke tidligere var mulig på grunn av teknologiske begrensninger.

Teknologier for høyhastighets transport av svært store og raske data er et krav for integrering på tvers av distribuerte store datakilder og mellom store data og operasjonelle data. Ustrukturerte datakilder må ofte flyttes raskt over store geografiske avstander for deling og samarbeid.

Kobling av tradisjonelle kilder med store data er en flertallet prosess etter at du har sett på alle dataene fra streaming store datakilder og identifisert relevante mønstre. Etter å ha redusert mengden data du trenger for å administrere og analysere, må du nå tenke på integrasjon.