Streaming av data - dummies - Personlig finansiering 2025

Video: The Global Prayer Room | 24/7 Live Stream 2025

Når data flyter i stor mengder, lagring av alt kan være vanskelig eller umulig. Faktisk kan lagring av alt ikke engang være nyttig. Her er noen figurer på bare noen av hva du kan forvente å skje innen ett minutt på Internett:

150 millioner e-post sendt
350, 000 nye tweets sendt på Twitter
2. 4 millioner spørringer forespurt på Google
700 000 personer logget på sin konto på Facebook

Gitt slike volumer, kan det ikke virke effektivt å samle data hele dagen for inkrementell analyse. Du lagrer det bare et sted og analyserer det på følgende eller på en senere dag (som er den utbredte arkivstrategien som er typisk for databaser og datalager). Brukbare datasøk har imidlertid en tendens til å spørre om de nyeste dataene i strømmen, og dataene blir mindre nyttige når det er eldre (i noen sektorer, for eksempel økonomisk, kan en dag være mye tid).

Videre kan du forvente enda flere data å ankomme i morgen (mengden data øker daglig), og det gjør det vanskelig, om ikke umulig å trekke data fra repositorier mens du trykker på nye data. Å trekke gamle data fra repositorier etter hvert som friske data henter inn, er knyttet til straffen til Sisyphus. Sisyphus, som en gresk myte forteller, mottok en forferdelig straffe fra gud Zeus: Å være tvunget til å evig rulle en enorm boulder oppe på en høyde, bare for å se den rulle ned igjen hver gang.

Noen ganger gjør dataene enda mer umulige å håndtere, data kan komme så fort, og i så store mengder som å skrive det til disk er det umulig: Ny informasjon kommer raskere enn tiden som kreves for å skrive den til hardisk. Dette er et problem som er typisk for partikkeleksperimenter med partikkelakseleratorer som Large Hadron Collider, og krever at forskere bestemmer hvilke data som skal holdes. Selvfølgelig kan du kjøre data for en stund, men ikke for lenge, for køen vil raskt vokse og bli umulig å vedlikeholde. For eksempel, hvis de holdes i minnet, vil kødata snart føre til en feil i minnet.

Fordi nye datastrømmer kan gjøre den tidligere behandlingen på gamle data utelatt, og utsettelse ikke er en løsning, har folk utviklet flere strategier for å håndtere øyeblikkelig med massive og foranderlige datamengder. Folk bruker tre måter å håndtere store mengder data på:

Lagret: Enkelte data lagres, fordi det kan bidra til å svare på uklare spørsmål senere. Denne metoden er avhengig av teknikker for å lagre den umiddelbart og analysere den senere veldig fort, uansett hvor stor den er.
Oppsummert: Enkelte data er oppsummert fordi de holder alt som det er, gir ingen mening; bare viktige data blir holdt.
Forbruket: De gjenværende dataene forbrukes fordi bruken er forhåndsbestemt. Algoritmer kan umiddelbart lese, fordøye og slå dataene til informasjon. Etter dette glemmer systemet dataene for alltid.

Når du snakker om massive data som kommer inn i et datasystem, vil du ofte høre det i forhold til vann: streaming data, datastrømmer, datasvitslang.

Du oppdager hvordan datastrømmer er som forbruker vann fra springen: Ved å åpne springen kan du lagre vannet i kopper eller drikkeflasker, eller du kan bruke den til matlaging, skrubbing av mat, rengjøringsplater eller vaskehender. I alle fall er det meste av eller hele vannet borte, men det viser seg å være svært nyttig og faktisk viktig.