Innholdsfortegnelse:
Video: Introduction to Data Highlighter 2025
Begrepet strukturert data refererer generelt til data som har en definert lengde og format for store data. Eksempler på strukturerte data inkluderer tall, datoer og grupper av ord og tall som heter strenger . De fleste eksperter er enige om at denne typen data står for om lag 20 prosent av dataene der ute. Strukturerte data er de dataene du sannsynligvis er vant til å håndtere. Den lagres vanligvis i en database.
Kilder til strukturerte store data
Selv om dette kan virke som vanlig som vanlig, tar strukturerte data i realiteten en ny rolle i verden med store data. Utviklingen av teknologi gir nye kilder til strukturerte data som blir produsert - ofte i sanntid og i store mengder. Datakildene er delt inn i to kategorier:
-
Datamaskin- eller maskingenerert: Maskingenerert data refererer generelt til data som er opprettet av en maskin uten menneskelig inngrep.
-
Menneskegenerert: Dette er data som mennesker, i samspill med datamaskiner, leverer.
Noen eksperter hevder at det finnes en tredje kategori som er en hybrid mellom maskin og menneske. Her er vi imidlertid opptatt av de to første kategoriene.
Maskingenererte strukturerte data kan omfatte følgende:
-
Sensordata: Eksempler inkluderer radiofrekvens ID-koder, smart meter, medisinske enheter og Global Positioning System-data. Bedrifter er interessert i dette for supply chain management og inventar kontroll.
-
webloggdata: Når servere, applikasjoner, nettverk og så videre opererer, fanger de alle slags data om deres aktivitet. Dette kan utgjøre store datamengder som kan være nyttige, for eksempel å håndtere avtaler på servicenivå eller for å forutsi sikkerhetsbrudd.
-
Salgsdata: Når kassereren svinger strekkoden til et produkt du kjøper, genereres alle dataene som er knyttet til produktet.
-
Finansdata: Mange finansielle systemer er nå programmatiske; de drives basert på forhåndsdefinerte regler som automatiserer prosesser. Stock-trading data er et godt eksempel på dette. Den inneholder strukturerte data som selskapssymbolet og dollarverdien. Noen av disse dataene er maskingenerert, og noen er menneskelig generert.
Eksempler på strukturerte menneskelige genererte data kan inneholde følgende:
-
Inndata: Dette er et hvilket som helst data som et menneske kan legge inn i en datamaskin, for eksempel navn, alder, inntekt, ikke-fri -form undersøkelsen svar, og så videre. Disse dataene kan være nyttige for å forstå grunnleggende kundeadferd.
-
Click-stream data: Data genereres hver gang du klikker en kobling på et nettsted. Disse dataene kan analyseres for å bestemme kundeadferd og kjøpsmønstre.
-
Gaming-relaterte data: Alle bevegelser du lager i et spill kan spilles inn. Dette kan være nyttig for å forstå hvordan sluttbrukerne beveger seg gjennom en spillportefølje.
Når sammen med millioner av andre brukere sender den samme informasjonen, er størrelsen astronomisk. I tillegg har mye av disse dataene en sanntidskomponent til den som kan være nyttig for å forstå mønstre som har potensial til å forutsi utfall.
Bunnlinjen er at denne typen informasjon kan være kraftig og kan benyttes til mange formål.
Relasjonelle databasers rolle i store data
Data utholdenhet refererer til hvordan en database beholder versjoner av seg selv når den endres. Den store granddaddy av vedvarende datalager er relationsdatabasebehandlingssystemet . I sin barndom brukte databehandlingsindustrien hva som nå anses primitive teknikker for persistens av data.
Relasjonsmodellen ble oppfunnet av Edgar Codd, en IBM-forsker, på 1970-tallet, og ble brukt av IBM, Oracle, Microsoft og andre. Det er fortsatt i stor bruk i dag og spiller en viktig rolle i utviklingen av store data. Forstå relasjonsdatabasen er viktig fordi andre typer databaser brukes med store data.
I en relasjonsmodell lagres dataene i en tabell. Denne databasen vil inneholde et skjema - det vil si en strukturell representasjon av det som finnes i databasen. For eksempel definerer skjemaet i en relasjonsdatabase tabellene, feltene i tabellene og forholdene mellom de to.
Dataene lagres i kolonner, en hver for hvert bestemt attributt. Dataene lagres også i raden. Den første tabellen lagrer produktinformasjon; den andre lagrer demografisk informasjon. Hver har ulike egenskaper. Hver tabell kan oppdateres med nye data, og data kan slettes, leses og oppdateres. Dette oppnås ofte i en relasjonsmodell ved hjelp av et strukturert søkspråk (SQL).
Et annet aspekt av relasjonsmodellen ved hjelp av SQL er at tabellene kan forespørres ved hjelp av en fellesnøkkel. Den fellesnøkkelen i tabellene er CustomerID.
Du kan sende inn en forespørsel, for eksempel for å bestemme kjønn av kunder som kjøpte et bestemt produkt. Det kan se slik ut:
Velg CustomerID, Stat, Kjønn, Produkt fra "Demografisk tabell", "Produkttabell" der Produkt = XXYY
