Slik bruker du datastreaming for store data - dummier

Video: Unlimited 4G Hotspot for $20 per Month! 2025

Noen ganger, når de nærmer seg store data, står selskaper overfor store mengder data og en liten ide om hvor de skal gå neste. Angi datastreaming. Når en betydelig mengde data må behandles raskt i nær sanntid for å få innsikt, er data i bevegelse i form av streaming data det beste svaret.

Hva er data som er ikke i ro? Dette ville være systemer som styrer aktive transaksjoner og derfor må ha utholdenhet. I disse tilfellene lagres dataene i en operativ datalager. Men i andre situasjoner har disse transaksjonene blitt utført, og det er på tide å analysere dataene vanligvis i et datalager eller datamaskin.

Dette betyr at informasjonen blir behandlet i batch og ikke i sanntid. Når organisasjoner planlegger sin fremtid, må de kunne analysere mye data, alt fra informasjon om hvilke kunder som kjøper og hvorfor. Det er viktig å forstå de ledende indikatorene for endring. Med andre ord, hvordan vil endringer påvirke hvilke produkter og tjenester en organisasjon vil tilby i fremtiden?

Mange forskningsorganisasjoner bruker denne typen store dataanalyser for å finne nye medisiner. Et forsikringsselskap vil kanskje sammenligne mønstre av trafikkulykker over et bredt geografisk område med værstatistikk. I disse tilfellene finnes det ingen fordel for å administrere denne informasjonen i sanntidshastighet. Klart må analysen være rask og praktisk. I tillegg vil organisasjoner analysere dataene for å se om nye mønstre kommer fram.

Streaming data er en analytisk databehandling plattform som er fokusert på hastighet. Dette skyldes at disse programmene krever en kontinuerlig strøm av ofte ustrukturerte data som skal behandles. Derfor analyseres data kontinuerlig og transformeres i minnet før det lagres på en disk. Behandling av datastrømmer fungerer ved å behandle "tidsvinduer" av data i minnet over en klynge av servere.

Dette ligner tilnærmingen når man håndterer data i hvilemodus Hadoop. Den primære forskjellen er spørsmålet om hastighet. I Hadoop-klyngen samles data i batch-modus og behandles deretter. Hastighet betyr mindre i Hadoop enn det gjør i datastrømning. Noen nøkkelprinsipper definerer når bruk av strømmer er mest hensiktsmessig:

Når det er nødvendig å bestemme en kjøpsmulighet for kjøp ved inngangspunktet, enten via sosiale medier eller via tillatelsesbasert meldingstjeneste
Samle informasjon om bevegelsen rundt en sikker side
For å kunne reagere på et arrangement som trenger umiddelbar respons, for eksempel en tjenesteavbrudd eller en endring i pasientens medisinske tilstand
Beregning av kostnader i sanntid, som er avhengig av variabler som bruk og tilgjengelige ressurser

Streaming-data er nyttig når analyser må gjøres i sanntid mens dataene er i gang.Faktisk reduseres verdien av analysen (og ofte dataene) med tiden. Hvis du for eksempel ikke kan analysere og handle umiddelbart, kan en salgsmulighet gå tapt, eller en trussel kan gå uoppdaget.

Følgende er noen eksempler som kan bidra til å forklare hvordan dette er nyttig.

Et kraftverk må være et svært sikkert miljø, slik at uautoriserte personer ikke forstyrrer levering av strøm til kunder. Bedrifter plasserer ofte sensorer rundt omkretsen av et område for å oppdage bevegelse. Men et problem kan eksistere. En stor forskjell eksisterer mellom en kanin som scurries rundt på siden og en bil kjører raskt og bevisst. Derfor må den enorme mengden data som kommer fra disse sensorene analyseres i sanntid, slik at en alarm bare høres når en faktisk trussel eksisterer.

Et teleselskap i et konkurransedyktig marked ønsker å sikre at utbruddene overvåkes nøye, slik at en oppdaget nedgang i servicenivåer kan økes til den aktuelle gruppen. Kommunikasjonssystemer genererer store datamengder som må analyseres i sanntid for å kunne ta de riktige tiltakene. En forsinkelse med å oppdage en feil kan på alvor påvirke kundetilfredsheten.

Det er unødvendig å si at bedrifter har å gjøre med mye data som må behandles og analyseres i sanntid. Derfor er det fysiske miljøet som støtter dette responsnivået kritisk. Streaming datamiljøer krever vanligvis en klynget maskinvareoppløsning, og noen ganger må en massivt parallell behandlingsmetode kreves for å håndtere analysen.

En viktig faktor for streaming dataanalyse er at det er en enkeltpassanalyse. Med andre ord, kan analytikeren ikke reanalysere dataene etter at den er streamet. Dette er vanlig i applikasjoner der du leter etter fravær av data.

Hvis flere passeringer kreves, må dataene legges inn i en slags varehus hvor det kan foretas tilleggsanalyse. For eksempel er det ofte nødvendig å etablere kontekst. Hvordan sammenligner disse streamingdataene med historiske data? Denne korrelasjonen kan fortelle deg mye om hva som har endret seg, og hva som endrer seg, kan bety for virksomheten din.