Hjem Personlig finansiering Grunnleggende om strukturerte og ustrukturerte data i forutsigende analyser - dummier

Grunnleggende om strukturerte og ustrukturerte data i forutsigende analyser - dummier

Video: Strukturert samtale kort versjon 11 11 19 2024

Video: Strukturert samtale kort versjon 11 11 19 2024
Anonim

Data som finnes i databaser, dokumenter, e-post og andre datafiler for prediktiv analyse kan kategoriseres enten som strukturerte eller ustrukturerte data. Strukturert data er godt organisert, følger en konsekvent rekkefølge, er relativt enkelt å søke og søke på, og kan lett nås og forstås av en person eller et dataprogram.

Et klassisk eksempel på strukturert data er et Excel-regneark med merkede kolonner. Slike strukturerte data er konsekvente; kolonneoverskrifter - vanligvis korte, nøyaktige beskrivelser av innholdet i hver kolonne - fortell deg nøyaktig hva slags innhold du kan forvente.

Strukturerte data lagres vanligvis i veldefinerte skjemaer som databaser. Det er vanligvis tabulært, med kolonner og rader som klart definerer sine attributter.

Ustrukturerte data, derimot, har en tendens til å være friformet, ikke-tabellformet, spredt og ikke lett gjenopprettelig; slike data krever bevisst intervensjon for å gi mening om det. Diverse e-post, dokumenter, nettsider og filer (enten tekst, lyd og / eller video) på spredte steder er eksempler på ustrukturerte data.

Det er vanskelig å kategorisere innholdet av ustrukturerte data. Det pleier å være for det meste tekst, det er vanligvis opprettet i en hodgepodge av fritt form stiler, og å finne noen attributter du kan bruke til å beskrive eller gruppere det er ingen liten oppgave.

Innholdet i ustrukturerte data er vanskelig å jobbe med eller fornemmelse av programmatisk. Dataprogrammer kan ikke analysere eller generere rapporter om slike data, bare fordi det mangler struktur, har ingen underliggende dominerende karakteristikk, og individuelle datatyper har ingen felles grunnlag.

Generelt er det en høyere prosentandel av ustrukturert data enn strukturert data i verden. Ustrukturerte data krever mer arbeid for å gjøre det nyttig, så det blir mer oppmerksomhet - har dermed en tendens til å forbruke mer tid.

Undervurder ikke betydningen av strukturerte data og den kraften det gir til analysen din. Det er langt mer effektivt å analysere strukturerte data enn å analysere ustrukturert data. Ustrukturerte data kan også være kostbare å forhåndsbehandle for analyse da du bygger et prediktivt analyseprosjekt. Valget av relevante data, dets rensing og påfølgende transformasjoner kan være langvarig og kjedelig.

De resulterende nyorganiserte dataene fra de nødvendige forbehandlingstrinnene kan da brukes i en prediktiv analysemodell. Grossisttransformasjonen av ustrukturerte data kan imidlertid måtte vente til du har din forutsigbare analysemodell oppe.

Datautvinning og tekstanalyse er to tilnærminger til strukturering av tekstdokumenter, sammenkobling av innholdet, gruppering og oppsummering av dataene og avdekking av mønstre i dataene. Begge disipliner gir et rikt rammeverk med algoritmer og teknikker for å minske teksten spredt over et hav av dokumenter.

Det er også verdt å merke seg at søkemotormodeller gir lett tilgjengelige verktøy for indeksering av data og gjør det søkbart.

La oss sammenligne strukturerte og ustrukturerte data.

Egenskaper Strukturert Ustrukturert
Forening Organisert Spredt og spredt
Utseende Formelt definert Fri form
Tilgjengelighet Lett å tilgang og spørring vanskelig å få tilgang til og spørre
Tilgjengelighet Prosentvis lavere Prosentvis høyere
Analyse Effektiv å analysere Det er nødvendig med ytterligere forhåndsbehandling

Ustrukturerte data er ikke helt mangel struktur - du må bare fryse det ut. Selv teksten i digitale filer har fortsatt noen struktur knyttet til den, og vises ofte i metadataene - for eksempel dokumenttitler, datoer sist endret, og forfatterens navn.

Det samme gjelder for e-post: Innholdet kan være ustrukturert, men strukturerte data er knyttet til dem - for eksempel dato og klokkeslett de ble sendt, navnene på senderne og mottakerne, enten de inneholder vedlegg.

Adskillelseslinjen mellom de to datatyper er ikke alltid klar. Generelt kan du alltid finne noen attributter av ustrukturerte data som kan betraktes som strukturerte data. Hvorvidt den strukturen er reflekterende over innholdet i dataene - eller nyttig i dataanalyse - er uklart i beste fall.

I den grad kan strukturerte data inneholde ustrukturerte data i den. I en nettform kan brukerne bli bedt om å gi tilbakemelding på et produkt ved å velge et svar fra flere valg - men presenteres også med en kommentarboks der de kan gi ytterligere tilbakemelding.

Svarene fra flere valg er strukturert; Kommentarfeltet er ustrukturert på grunn av sin frie form natur. Slike tilfeller forstås best som en blanding av strukturerte og ustrukturerte data. De fleste data er et kompositt av begge deler.

For et vellykket prediktivt analyseprosjekt må både dine strukturerte og ustrukturerte data kombineres i et logisk format som kan analyseres.

Grunnleggende om strukturerte og ustrukturerte data i forutsigende analyser - dummier

Redaktørens valg

Hvordan å stable og gruppereformer i Word 2013 - dummies

Hvordan å stable og gruppereformer i Word 2013 - dummies

Enkeltformer kan noen ganger være nyttige i en dokument, men den virkelige kraften til Word 2013's Shapes-funksjonen kan bli funnet ved å kombinere figurer for å lage mer komplekse tegninger og logoer. Du kan stable formene oppå hverandre og kontrollere rekkefølgen de vises i stakken. Når du har ...

Hvordan du angir punktavstand i Word 2013 - dummies

Hvordan du angir punktavstand i Word 2013 - dummies

Word 2013 lar deg legge til "luft" til plass før eller etter eller i midten av avsnittene dine. I midten av avsnittet har du linjeavstand. Før og etter avsnittet kommer punktavstand. Hvordan sette linjeavstanden Endre linjeavstanden legger til ekstra mellomrom mellom alle tekstlinjer ...

Slik starter du et nytt dokument i Word 2007 - dummies

Slik starter du et nytt dokument i Word 2007 - dummies

Starter et nytt dokument i Word 2007 er lett. Hvis du nettopp har startet Word 2007 og vil åpne et tomt dokument, kan du følge tre enkle trinn.

Redaktørens valg

Slik oppretter du en AWS Administrator User - Dummies

Slik oppretter du en AWS Administrator User - Dummies

Opprett Administrator-gruppen er det første trinnet for å sikre at din AWS (Amazon Web Services) -kontoen er fortsatt trygg. Det neste trinnet er å opprette en konto for deg selv og tilordne den til administratorgruppen, slik at du har full tilgang til de administrative funksjonene i din AWS-konto. Følgende trinn beskriver hvordan ...

Vurderer AWS-støttede plattformer - dummies

Vurderer AWS-støttede plattformer - dummies

Hvis du ikke har behandlet AWS eller skyen ennå, du kan være fristet til å tenke på plattformer som en bestemt kombinasjon av gjenstander. For eksempel, når du ser ditt eget lokale oppsett, har du en server som kjører et bestemt operativsystem og har et bestemt sett med maskinvareressurser. Systemet har en bestemt ...

Lage skuffer på Amazon Web Services - dummies

Lage skuffer på Amazon Web Services - dummies

Når du er den stolte eieren av Amazon Web Services (AWS ) konto, det er på tide å gjøre noe nyttig, som å lage en bøtte. Start med å sjekke ut dine S3-ressurser. For å gjøre det, klikk S3-lenken på startsiden for AWS Management Console, som vist her: Du er tatt til en side som lar deg administrere ...

Redaktørens valg

Slik bruker du Eye-Fi med Evernote-dummies

Slik bruker du Eye-Fi med Evernote-dummies

Et selskap kalt Eye-Fi gjør det mulig å Koble kameraet ditt med Evernote, selv uten å koble kameraet til datamaskinen. Følg disse trinnene for å bruke Eye-Fi: Følg instruksjonene som følger med Eye-Fi-kortet for å konfigurere en Eye-Fi-konto. Sett inn Eye-Fi-kortet i kameraet. Slå på kameraet ditt. ...

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hele poenget med å lagre nyttig informasjon er for å kunne finne den senere. Tagging i Evernote er fundamentalt lik for alle plattformer og er ekstremt nyttig når du dash om å prøve å skrive inn notater på hvilken enhet du bruker på den tiden. For å lage en tagg for et notat på en datamaskin eller ...