Hjem Personlig finansiering Grunnleggende om strukturerte og ustrukturerte data i forutsigende analyser - dummier

Grunnleggende om strukturerte og ustrukturerte data i forutsigende analyser - dummier

Video: Strukturert samtale kort versjon 11 11 19 2025

Video: Strukturert samtale kort versjon 11 11 19 2025
Anonim

Data som finnes i databaser, dokumenter, e-post og andre datafiler for prediktiv analyse kan kategoriseres enten som strukturerte eller ustrukturerte data. Strukturert data er godt organisert, følger en konsekvent rekkefølge, er relativt enkelt å søke og søke på, og kan lett nås og forstås av en person eller et dataprogram.

Et klassisk eksempel på strukturert data er et Excel-regneark med merkede kolonner. Slike strukturerte data er konsekvente; kolonneoverskrifter - vanligvis korte, nøyaktige beskrivelser av innholdet i hver kolonne - fortell deg nøyaktig hva slags innhold du kan forvente.

Strukturerte data lagres vanligvis i veldefinerte skjemaer som databaser. Det er vanligvis tabulært, med kolonner og rader som klart definerer sine attributter.

Ustrukturerte data, derimot, har en tendens til å være friformet, ikke-tabellformet, spredt og ikke lett gjenopprettelig; slike data krever bevisst intervensjon for å gi mening om det. Diverse e-post, dokumenter, nettsider og filer (enten tekst, lyd og / eller video) på spredte steder er eksempler på ustrukturerte data.

Det er vanskelig å kategorisere innholdet av ustrukturerte data. Det pleier å være for det meste tekst, det er vanligvis opprettet i en hodgepodge av fritt form stiler, og å finne noen attributter du kan bruke til å beskrive eller gruppere det er ingen liten oppgave.

Innholdet i ustrukturerte data er vanskelig å jobbe med eller fornemmelse av programmatisk. Dataprogrammer kan ikke analysere eller generere rapporter om slike data, bare fordi det mangler struktur, har ingen underliggende dominerende karakteristikk, og individuelle datatyper har ingen felles grunnlag.

Generelt er det en høyere prosentandel av ustrukturert data enn strukturert data i verden. Ustrukturerte data krever mer arbeid for å gjøre det nyttig, så det blir mer oppmerksomhet - har dermed en tendens til å forbruke mer tid.

Undervurder ikke betydningen av strukturerte data og den kraften det gir til analysen din. Det er langt mer effektivt å analysere strukturerte data enn å analysere ustrukturert data. Ustrukturerte data kan også være kostbare å forhåndsbehandle for analyse da du bygger et prediktivt analyseprosjekt. Valget av relevante data, dets rensing og påfølgende transformasjoner kan være langvarig og kjedelig.

De resulterende nyorganiserte dataene fra de nødvendige forbehandlingstrinnene kan da brukes i en prediktiv analysemodell. Grossisttransformasjonen av ustrukturerte data kan imidlertid måtte vente til du har din forutsigbare analysemodell oppe.

Datautvinning og tekstanalyse er to tilnærminger til strukturering av tekstdokumenter, sammenkobling av innholdet, gruppering og oppsummering av dataene og avdekking av mønstre i dataene. Begge disipliner gir et rikt rammeverk med algoritmer og teknikker for å minske teksten spredt over et hav av dokumenter.

Det er også verdt å merke seg at søkemotormodeller gir lett tilgjengelige verktøy for indeksering av data og gjør det søkbart.

La oss sammenligne strukturerte og ustrukturerte data.

Egenskaper Strukturert Ustrukturert
Forening Organisert Spredt og spredt
Utseende Formelt definert Fri form
Tilgjengelighet Lett å tilgang og spørring vanskelig å få tilgang til og spørre
Tilgjengelighet Prosentvis lavere Prosentvis høyere
Analyse Effektiv å analysere Det er nødvendig med ytterligere forhåndsbehandling

Ustrukturerte data er ikke helt mangel struktur - du må bare fryse det ut. Selv teksten i digitale filer har fortsatt noen struktur knyttet til den, og vises ofte i metadataene - for eksempel dokumenttitler, datoer sist endret, og forfatterens navn.

Det samme gjelder for e-post: Innholdet kan være ustrukturert, men strukturerte data er knyttet til dem - for eksempel dato og klokkeslett de ble sendt, navnene på senderne og mottakerne, enten de inneholder vedlegg.

Adskillelseslinjen mellom de to datatyper er ikke alltid klar. Generelt kan du alltid finne noen attributter av ustrukturerte data som kan betraktes som strukturerte data. Hvorvidt den strukturen er reflekterende over innholdet i dataene - eller nyttig i dataanalyse - er uklart i beste fall.

I den grad kan strukturerte data inneholde ustrukturerte data i den. I en nettform kan brukerne bli bedt om å gi tilbakemelding på et produkt ved å velge et svar fra flere valg - men presenteres også med en kommentarboks der de kan gi ytterligere tilbakemelding.

Svarene fra flere valg er strukturert; Kommentarfeltet er ustrukturert på grunn av sin frie form natur. Slike tilfeller forstås best som en blanding av strukturerte og ustrukturerte data. De fleste data er et kompositt av begge deler.

For et vellykket prediktivt analyseprosjekt må både dine strukturerte og ustrukturerte data kombineres i et logisk format som kan analyseres.

Grunnleggende om strukturerte og ustrukturerte data i forutsigende analyser - dummier

Redaktørens valg

DSLR-filmskaping enheter som holder kameraet stødig - dummier

DSLR-filmskaping enheter som holder kameraet stødig - dummier

Du kan holde DSLR-kameraet mens du tar en film . Ikke i det "ta tak i kameraet nær ansiktet ditt som om du tok et øyeblikksbilde" -teknikk, men heller med tilbehør som gir hjelp til å holde kameraet stabilt. Kamera rigg systemer Tenk på det som et menneskelig stativ, en to-pod, hvis du vil, ved hjelp av din ...

DSLR Filmmaking: Slik kontrollerer du blenderåpning for effekt - dummier

DSLR Filmmaking: Slik kontrollerer du blenderåpning for effekt - dummier

Blenderåpningen gir bare en valgt mengde av lys inn i DSLR-objektivet. Dette er nyttig når du tar film. Tenk på det som en dørvakt på en eksklusiv nattklubb. Når du dikterer blenderåpning, styrer du fokusnivået i scenen, akkurat som fyren bak fløyeltauet velger hvem som kommer inn.

DSLR Filmmaking Fundamentals - dummies

DSLR Filmmaking Fundamentals - dummies

Den ekstra tiden du tar med DSLR under hver del av filmmakingsprosessen er ofte nøkkelbestanddelen til en vellykket film. Det betyr at du tar et par ekstra øyeblikk for å sikre at skuddet er teknisk perfekt. Mens du tar bilder, må du være oppmerksom på effektive variasjoner av hvert skudd i scenen. På ...

Redaktørens valg

Data Visualisering Storyboard: Dokumentasjon Key Performance Indicators (KPIs) - dummies

Data Visualisering Storyboard: Dokumentasjon Key Performance Indicators (KPIs) - dummies

Forstå nøkkelmålinger som publikum må vise, overvåke eller spore er det siste skrittet i utviklingen av historien din. Enkelt sagt er en nøkkelindikator (KPI) en kjerne-måling som knytter seg direkte til selskapets mål. Gjennomføre scoping-workshops Den beste måten å jobbe med publikum på for å dokumentere KPI-er er ...

Data Visualisering Storyboard: Dokumentasjonsmål - dummies

Data Visualisering Storyboard: Dokumentasjonsmål - dummies

Å Få en klar forståelse av målgruppens mål og eksisterende smertepunkter vil hjelpe du bestemmer hva du skal inkludere og - enda viktigere - hva som ikke skal inkluderes i storyboardet. Den enkleste måten å gjøre dette på, kan være å holde en liten planleggingsøkt som inkluderer executive sponsor (hvis det er en) og ...

Data Visualisering Storyboard: Identifisere målgruppen din - dummies

Data Visualisering Storyboard: Identifisere målgruppen din - dummies

Det første trinnet i å utvikle et klart storyboard for deg datavisualisering identifiserer publikum. Hvem du bygger data visualisering for å bestemme hvilken type storyboard du utvikler og hvilket nivå av data du viser. Den enkleste måten å klassifisere målgruppen din er å se på to enkle komponenter: forretningsområde ...

Redaktørens valg

Hvordan du dømmer tidskravene til markedsautomatisering - dummies

Hvordan du dømmer tidskravene til markedsautomatisering - dummies

Du bør ikke forvente å sette mer enn noen få timer i uken til å administrere en markedsføringsautomatiseringsapplikasjon etter at den er oppe. Den store investeringen av tid er alt på forsiden. I tillegg til å estimere tiden det tar å sette opp kampanjene dine, bør du også anslå tid for utdanning, ...

Slik implementerer du Sales Qualified Lead Reports - dummies

Slik implementerer du Sales Qualified Lead Reports - dummies

I markedsautomatisering, Sales Qualified Leads (SQLs) er markedsføring Kvalifiserte Leads (MQL) som salgsteamet aksepterer. Etter at en MQL blir en SQL, er den utelatt av markedsføringslaget, og all rapportering er basert på salgsmulighetstrinnet til det er lukket. Arbeid med salgsteamet ditt for å lage en SQL-arbeidsflyt. ...

Slik setter du inn egendefinerte felt i Marketing Automation Tools - dummies

Slik setter du inn egendefinerte felt i Marketing Automation Tools - dummies

Du har sannsynligvis allerede og bruker spesifikke data poeng for segmentering, kvalifikasjon eller hovedoppgave blant alle dine markedsføringsprogrammer. Det nye markedsføringsautomatiseringsverktøyet kommer med en grunnleggende database, som må utvides for å inkludere disse egendefinerte datapunkter. Dette betyr at du legger til egendefinerte felt ved å bruke de kommende trinnene. Egendefinerte felt er ...