Video: Bisnode Infografikk EM 2016 2024
Det finnes mange metoder for å analysere ustrukturert data for ditt store data-initiativ. Historisk sett kom disse teknikkene ut av tekniske områder som NLP (Natural Language Processing), kunnskapsoppdagelse, datautvinning, informasjonssøking og statistikk. Tekstanalyse er prosessen med å analysere ustrukturert tekst, utvinne relevant informasjon og omdanne den til strukturert informasjon som deretter kan utnyttes på ulike måter.
Analyse- og utvinningsprosessene utnytter teknikker som stammer fra beregnings-lingvistikk, statistikk og andre datavitenskapsdisipliner.
Noen ganger kan et eksempel bidra til å forklare et komplekst emne. Anta at du jobber for markedsavdelingen i et trådløst telefonselskap. Du har nettopp lansert to nye ringerplaner - Planlegg A og Plan B - og du får ikke opptaket du ville ha på Plan A. Den ustrukturerte teksten fra notatene til anropssentralen kan gi deg litt innsikt om hvorfor dette skjedde.
De understrekkede ordene gir informasjonen du trenger for å forstå hvorfor Plan A ikke får rask adopsjon. For eksempel vises entitet Plan A i alle anropssentralene, noe som indikerer at rapportene nevner planen.
Begrepet overføringsminutter, 4GB-data, dataplan, og dyrt er bevis på at det er et problem med overføringsminutter, dataplanen og prisen. Ord som latterlig og dumt gir innsikt i innringernes følelse, som i dette tilfellet er negativt.
Tekstanalyseprosessen bruker ulike algoritmer, for eksempel å forstå setningstrukturen, for å analysere den ustrukturerte teksten og deretter trekke ut informasjon, og omforme den informasjonen til strukturerte data. De strukturerte dataene hentet fra den ustrukturerte teksten er illustrert i tabell 13-1.
Identifikator | Enhet | Utgave | Sentiment |
---|---|---|---|
Cust XYZ | Plan A | Roll-over minutter | Nøytral |
Cust ABC | Plan A | Omløpsmomenter | Negativ |
XXXX | Plan A | Dyrt | Nøytral |
XXXX | Plan A | Dataplan | Nøytral |
Cust XYT > Planlegg A | Dataplan | Negativ | Du kan se på dette og si, "Men jeg kunne ha funnet det ut ved å se på call center-postene. "Men disse er bare en liten delmengde av informasjonen som registreres av tusenvis av call center-agenter. Hver enkelt agent kan ikke muligens fornemme en bred trend angående problemet med at hver plan tilbys av selskapet. |
Agenter har ikke tid eller krav til å dele denne informasjonen på tvers av alle andre sentralbyråagenter som kan få lignende antall anrop om Plan A. Men etter at denne informasjonen er samlet og behandlet ved hjelp av tekstanalysalgoritmer, er en trend kan dukke opp fra disse ustrukturerte dataene. Det er det som gjør tekstanalysen så kraftig.
Søke handler om å hente et dokument basert på hvilke sluttbrukere som allerede vet at de leter etter. Tekstanalyse handler om å oppdage informasjon. Mens tekstanalyser er forskjellig fra søk, kan det øke søketeknikker. For eksempel kan tekstanalyse kombinert med søk brukes til å gi bedre kategorisering eller klassifisering av dokumenter og å lage abstrakter eller sammendrag av dokumenter.
Det finnes fire teknologier: spørring, datautvinning, søk og tekstanalyse. På venstre side av bordet er spørring og søk, som begge handler om gjenfinning. For eksempel kan en sluttbruker spørre en database for å finne ut hvor mange kunder som har sluttet å bruke selskapets tjenester i den siste måneden.
Spørringen ville returnere et enkelt nummer. Bare ved å spørre flere og forskjellige spørsmål, vil sluttbrukeren få den informasjonen som kreves for å avgjøre hvorfor kunder går. På samme måte kan søkeordssøk tillate sluttbrukeren å finne dokumentene som inneholder navnene til selskapets konkurrenter. Søket ville returnere en gruppe dokumenter. Bare ved å lese dokumentene vil sluttbrukeren komme med eventuelle relevante svar.
Innhenting
Insikt | Strukturert | |
---|---|---|
Forespørsel: Returnerer data | Datautvinning: Innsikt fra strukturerte data | Ustrukturert |
Søk: Returnerer dokumenter | Tekstanalyse: Innsikt fra tekst < Teknologiene på venstre side returnerer opplysninger og krever menneskelig interaksjon for å syntetisere og analysere denne informasjonen. Teknologiene til høyre - datautvinning og tekstanalyse - gir innsikt mye raskere. Forhåpentligvis blir verdien av tekstanalyse til organisasjonen din klar. |