Innholdsfortegnelse:
Video: The Supply Curve 2024
Generelt bruker tekstanalyseløsninger for store data en kombinasjon av statistiske og Natural Language Processing (NLP) teknikker for å trekke ut informasjon fra ustrukturerte data. NLP er et bredt og komplekst felt som har utviklet seg de siste 20 årene.
Et primært mål med NLP er å utlede mening fra tekst. Natural Language Processing bruker vanligvis språklige begreper som grammatiske strukturer og deler av tale. Ofte er ideen bak denne typen analyser å avgjøre hvem som gjorde hva til hvem, når, hvor, hvordan og hvorfor.
NLP utfører analyse på tekst på forskjellige nivåer:
-
Lexisk / morfologisk analyse undersøker egenskapene til et enkelt ord - inkludert prefikser, suffiks, røtter og deler av tale (substantiv, verb, adjektiv og så videre) - informasjon som vil bidra til å forstå hva ordet betyr i sammenheng med teksten som er oppgitt. Lexisk analyse avhenger av en ordbok, tesaurus eller en liste over ord som gir informasjon om disse ordene.
-
Syntaktisk analyse bruker grammatisk struktur for å dissekere teksten og sette enkelte ord i kontekst. Her forstørrer du blikket ditt fra et enkelt ord til uttrykket eller hele setningen. Dette trinnet kan diagrammere forholdet mellom ord (grammatikken) eller se etter sekvenser av ord som danner korrekte setninger eller for sekvenser av tall som representerer datoer eller pengeværdier.
-
Semantisk analyse bestemmer mulige betydninger av en setning. Dette kan omfatte å undersøke ordrekkefølge og setningsstruktur og disambiguerende ord ved å knytte syntaksen som finnes i setningene, setningene og avsnittene.
-
Diskursnivåanalyse forsøker å bestemme betydningen av tekst utover setningsnivået.
Forstå utvunnet informasjon fra store data
Visse teknikker, kombinert med andre statistiske eller språklige teknikker for å automatisere merking og merking av tekstdokumenter, kan trekke ut følgende typer informasjon:
-
Vilkår: En annen navn på søkeord.
-
Enheter: Ofte kalt navngitte enheter , Dette er spesifikke eksempler på abstraksjoner. Eksempler er navn på personer, navn på selskaper, geografiske steder, kontaktinformasjon, datoer, tider, valutaer, titler og stillinger, og så videre. For eksempel kan tekstanalytisk programvare trekke ut enheten Jane Doe som en person referert til i teksten som analyseres. Enheten 3. mars 2007 kan hentes som en dato, og så videre.
-
Fakta: Også kalt relasjoner , fakta angir hvem / hva / hvor forholdet mellom to enheter. John Smith er administrerende direktør for firma Y og Aspirin reduserer feber er eksempler på fakta. Hendelser:
-
Mens noen eksperter bruker mellomtegnene faktum , forholdet , og hendelsen , skiller andre mellom hendelser og fakta, sier at hendelser vanligvis inneholder en tidsdimensjon og ofte fører til at fakta endrer seg. Eksempler er en endring i ledelsen i et selskap eller status for en salgsprosess. Begreper:
-
Dette er sett med ord og uttrykk som indikerer en bestemt ide eller emne som brukeren er opptatt av. For eksempel kan konseptet ulykkelig kunde inneholde ordene sint, skuffet, og forvirret og frasen koble fra tjenesten, ringte ikke tilbake, og sløsing med penger - blant mange andre. Dermed kan konseptet ulykkelig kunde trekkes ut uten at ordene ulykkelig eller kunde vises i teksten. Sentiment:
-
Sentimentanalyse brukes til å identifisere synspunkter eller følelser i den underliggende teksten. Noen teknikker gjør dette ved å klassifisere tekst som for eksempel subjektiv (mening) eller objektiv (faktum), ved hjelp av maskinlæring eller NLP-teknikker. Sentimentanalyse har blitt svært populær i "kundens stemme" typer applikasjoner. Stor datakonomonomier
Taxonomier er ofte kritiske for tekstanalyser. En
taksonomi er en metode for å organisere informasjon i hierarkiske relasjoner. Det kalles noen ganger som en måte å organisere kategorier på. Fordi en taksonomi definerer forholdet mellom vilkårene et selskap bruker, gjør det lettere å finne og deretter analysere tekst. For eksempel tilbyr en teletjenester tjenesteleverandør både kablet og trådløs service. Innenfor den trådløse tjenesten kan selskapet støtte mobiltelefoner og Internett-tilgang. Selskapet kan da ha to eller flere måter å kategorisere mobiltelefontjeneste på, for eksempel planer og telefontyper. Taksonomien kan nå helt ned til deler av en telefon selv.
Taxonomier kan også bruke synonymer og alternative uttrykk, og anerkjenner at mobiltelefon, mobiltelefon og mobiltelefon er alle de samme. Disse taksonomiene kan være ganske komplekse og kan ta lang tid å utvikle.