Video: Søkemotoroptimalisering - SEO - Få flere kunder til din Nettside! 2025
Menneskenes rase er nå på et utrolig skjæringspunkt av enestående datamengder, generert av stadig mindre og kraftig maskinvare, og analysert av algoritmer at det samme prosessen bidro til å utvikle seg. Det er ikke bare et spørsmål om volum, som i seg selv er en vanskelig utfordring.
Som formalisert av forskerfirmaet Gartner i 2001 og deretter reprized og utvidet av andre selskaper, som IBM, kan store data oppsummeres av fire V s som representerer sine nøkkelegenskaper:
- Volum: Mengden data
- Hastighet: Datagenereringshastigheten
- Variety: Antallet og typer datakilder
- Veracity: Kvaliteten og autoritativ stemme av dataene (kvantifiseringsfeil, dårlige data og støy blandet med signaler), et mål på usikkerheten til dataene
Hver stor datakarakteristikk gir en utfordring og en mulighet. For eksempel vurderer volum mengden nyttige data. Hva en organisasjon anser for store data kan være små data for en annen. Manglende evne til å behandle dataene på en enkelt maskin gjør ikke dataene store. Det som skiller store data fra dataene som er vanlig som vanlig, er at det tvinger en organisasjon til å revidere sine utbredte metoder og løsninger, og skyver nåværende teknologier og algoritmer for å se fremover.
Variety muliggjør bruk av store data for å utfordre den vitenskapelige metoden, som forklart av denne milepælen og mye diskutert artikkel skrevet av Chris Anderson, Wired s redaktør på det tidspunktet om hvor store mengder data som kan hjelpe vitenskapelige funn utenfor den vitenskapelige metoden. Forfatteren stoler på eksempelet på Google i reklame- og oversettelsesbransjen, hvor selskapet kunne oppnå fremgang uten å bruke bestemte modeller eller teorier, men ved å bruke algoritmer for å lære av data. Som i reklame kan vitenskaps (fysikk, biologi) data støtte innovasjon som gjør at forskere kan nærme seg problemer uten hypoteser, men ved å vurdere variasjonene som finnes i store mengder data og ved å finne algoritmer.
Veracity-karakteristikken hjelper demokratisering av dataene selv. Tidligere skaffet organisasjoner data fordi det var verdifullt og vanskelig å skaffe seg. På dette punktet oppretter ulike kilder data i slike voksende mengder som hindrer det, er meningsløst (90 prosent av verdens data er opprettet de siste to årene), så det er ingen grunn til å begrense tilgangen. Data blir til en slik vare at det er mange åpne dataprogrammer som går over hele verden.(USA har en lang tradisjon for åpen tilgang, de første åpne dataprogrammene dateres tilbake til 1970-tallet da National Oceanic and Atmospheric Administration, NOAA, begynte å frigjøre værdata fritt til offentligheten.) Men fordi data har blitt en vare, usikkerheten til disse dataene har blitt et problem. Du vet ikke lenger om dataene er helt sanne fordi du kanskje ikke engang kjenner kilden.
Data har blitt så allestedsnærværende at verdien ikke lenger er i den faktiske informasjonen (for eksempel data lagret i en firmaets database). Verdien av data finnes i hvordan du bruker den. Her kommer algoritmer til spill og endrer spillet. Et selskap som Google leverer seg fra fritt tilgjengelige data, for eksempel innholdet på nettsteder eller teksten i offentlige tilgjengelige tekster og bøker. Likevel kommer verdien av Google-ekstrakter fra dataene hovedsakelig fra dens algoritmer. Som et eksempel ligger dataverdien i PageRank-algoritmen (illustrert i kapittel 11), som er selve grunnlaget for Googles virksomhet. Verdien av algoritmer gjelder også for andre selskaper. Amazons anbefalingsmotor bidrar til en betydelig del av selskapets inntekter. Mange finansielle firmaer bruker algoritmisk handel og robo-råd, utnytter fritt tilgjengelige lagerdata og økonomisk informasjon for investeringer.
