Video: Strukturert samtale kort versjon 11 11 19 2025
Data som finnes i databaser, dokumenter, e-post og andre datafiler for prediktiv analyse kan kategoriseres enten som strukturerte eller ustrukturerte data. Strukturert data er godt organisert, følger en konsekvent rekkefølge, er relativt enkelt å søke og søke på, og kan lett nås og forstås av en person eller et dataprogram.
Et klassisk eksempel på strukturert data er et Excel-regneark med merkede kolonner. Slike strukturerte data er konsekvente; kolonneoverskrifter - vanligvis korte, nøyaktige beskrivelser av innholdet i hver kolonne - fortell deg nøyaktig hva slags innhold du kan forvente.
Strukturerte data lagres vanligvis i veldefinerte skjemaer som databaser. Det er vanligvis tabulært, med kolonner og rader som klart definerer sine attributter.
Ustrukturerte data, derimot, har en tendens til å være friformet, ikke-tabellformet, spredt og ikke lett gjenopprettelig; slike data krever bevisst intervensjon for å gi mening om det. Diverse e-post, dokumenter, nettsider og filer (enten tekst, lyd og / eller video) på spredte steder er eksempler på ustrukturerte data.
Det er vanskelig å kategorisere innholdet av ustrukturerte data. Det pleier å være for det meste tekst, det er vanligvis opprettet i en hodgepodge av fritt form stiler, og å finne noen attributter du kan bruke til å beskrive eller gruppere det er ingen liten oppgave.
Innholdet i ustrukturerte data er vanskelig å jobbe med eller fornemmelse av programmatisk. Dataprogrammer kan ikke analysere eller generere rapporter om slike data, bare fordi det mangler struktur, har ingen underliggende dominerende karakteristikk, og individuelle datatyper har ingen felles grunnlag.
Generelt er det en høyere prosentandel av ustrukturert data enn strukturert data i verden. Ustrukturerte data krever mer arbeid for å gjøre det nyttig, så det blir mer oppmerksomhet - har dermed en tendens til å forbruke mer tid.
Undervurder ikke betydningen av strukturerte data og den kraften det gir til analysen din. Det er langt mer effektivt å analysere strukturerte data enn å analysere ustrukturert data. Ustrukturerte data kan også være kostbare å forhåndsbehandle for analyse da du bygger et prediktivt analyseprosjekt. Valget av relevante data, dets rensing og påfølgende transformasjoner kan være langvarig og kjedelig.
De resulterende nyorganiserte dataene fra de nødvendige forbehandlingstrinnene kan da brukes i en prediktiv analysemodell. Grossisttransformasjonen av ustrukturerte data kan imidlertid måtte vente til du har din forutsigbare analysemodell oppe.
Datautvinning og tekstanalyse er to tilnærminger til strukturering av tekstdokumenter, sammenkobling av innholdet, gruppering og oppsummering av dataene og avdekking av mønstre i dataene. Begge disipliner gir et rikt rammeverk med algoritmer og teknikker for å minske teksten spredt over et hav av dokumenter.
Det er også verdt å merke seg at søkemotormodeller gir lett tilgjengelige verktøy for indeksering av data og gjør det søkbart.
La oss sammenligne strukturerte og ustrukturerte data.
Egenskaper | Strukturert | Ustrukturert |
---|---|---|
Forening | Organisert | Spredt og spredt |
Utseende | Formelt definert | Fri form |
Tilgjengelighet | Lett å tilgang og spørring | vanskelig å få tilgang til og spørre |
Tilgjengelighet | Prosentvis lavere | Prosentvis høyere |
Analyse | Effektiv å analysere | Det er nødvendig med ytterligere forhåndsbehandling |
Ustrukturerte data er ikke helt mangel struktur - du må bare fryse det ut. Selv teksten i digitale filer har fortsatt noen struktur knyttet til den, og vises ofte i metadataene - for eksempel dokumenttitler, datoer sist endret, og forfatterens navn.
Det samme gjelder for e-post: Innholdet kan være ustrukturert, men strukturerte data er knyttet til dem - for eksempel dato og klokkeslett de ble sendt, navnene på senderne og mottakerne, enten de inneholder vedlegg.
Adskillelseslinjen mellom de to datatyper er ikke alltid klar. Generelt kan du alltid finne noen attributter av ustrukturerte data som kan betraktes som strukturerte data. Hvorvidt den strukturen er reflekterende over innholdet i dataene - eller nyttig i dataanalyse - er uklart i beste fall.
I den grad kan strukturerte data inneholde ustrukturerte data i den. I en nettform kan brukerne bli bedt om å gi tilbakemelding på et produkt ved å velge et svar fra flere valg - men presenteres også med en kommentarboks der de kan gi ytterligere tilbakemelding.
Svarene fra flere valg er strukturert; Kommentarfeltet er ustrukturert på grunn av sin frie form natur. Slike tilfeller forstås best som en blanding av strukturerte og ustrukturerte data. De fleste data er et kompositt av begge deler.
For et vellykket prediktivt analyseprosjekt må både dine strukturerte og ustrukturerte data kombineres i et logisk format som kan analyseres.
