Sosial sentimentanalyse med Hadoop-dummies

Sosial sentimentanalyse er lett den mest overhyped av Hadoop bruker, som ikke bør være overraskende, gitt at verden er konstant forbundet og den nåværende uttrykksfulle befolkningen. Dette brukstilfellet bruker innhold fra fora, blogger og andre sosiale medier til å utvikle en følelse av hva folk gjør (for eksempel livshendelser) og hvordan de reagerer på verden rundt dem (følelser).

Siden tekstbasert data ikke passer naturlig inn i en relasjonsdatabase, er Hadoop et praktisk sted å utforske og kjøre analytikk på disse dataene.

Språk er vanskelig å tolke, selv for mennesker til tider - spesielt hvis du leser tekst skrevet av folk i en sosial gruppe som er forskjellig fra din egen. Denne gruppen mennesker kan snakke ditt språk, men deres uttrykk og stil er helt utenlandsk, så du har ingen anelse om de snakker om en god opplevelse eller en dårlig.

Hvis du for eksempel hører ordet bombe i forbindelse med en film, kan det bety at filmen var dårlig (eller bra hvis du er en del av ungdommen bevegelse som tolker "Det er da bombe" som et kompliment); selvfølgelig, hvis du er i flyselskapets sikkerhetsvirksomhet, har ordet bombe en helt annen betydning. Poenget er at språket brukes på mange forskjellige måter og er i stadig utvikling.

Når du analyserer følelser på sosiale medier, kan du velge mellom flere tilnærminger. Den grunnleggende metoden analyserer teksten teksten, trekker ut strengene, og bruker regler. I enkle situasjoner er denne tilnærmingen rimelig. Men etter hvert som kravene utvikler seg og reglene blir mer komplekse, blir manuelt kodende tekstuttrekk raskt ikke lenger mulig ut fra kodenes vedlikeholdsperspektiv, spesielt for ytelsesoptimalisering.

Grammatikk- og reglerbaserte tilnærminger til tekstbehandling er beregningsmessig dyrt, noe som er et viktig hensyn i stor utvinning i Hadoop. Jo mer involvert reglene (som er uunngåelig for komplekse formål som sentimentutvinning), jo mer behandling som trengs.

Alternativt blir en statistikkbasert tilnærming stadig mer vanlig for sentimentanalyse. I stedet for å skrive komplekse regler manuelt, kan du bruke klassifikasjonsorienterte maskinlæringsmodellene i Apache Mahout. Fangsten her er at du må trene modellene dine med eksempler på positiv og negativ følelse. Jo mer treningsdata du oppgir (for eksempel tekst fra tweets og klassifisering), desto mer nøyaktige blir resultatene dine.

Brukstilfellet for sosial sentimentanalyse kan brukes over et bredt spekter av næringer. For eksempel, vurder mattrygghet: Å prøve å forutsi eller identifisere utbrudd av matbårne sykdommer så raskt som mulig, er ekstremt viktig for helsepersonell.

Følgende figur viser et Hadoop-forankret program som inntar tweets ved hjelp av ekstrakter basert på den potensielle sykdommen: FLU eller matforgiftning.

Ser du det genererte varmekartet som viser den geografiske plasseringen til tweets? En egenskap for data i en verden av store data er at det meste er romlig beriket: Det har lokalitetsinformasjon (og tidsmessige attributter også). I dette tilfellet ble Twitter-profilen omvendt utviklet ved å slå opp den publiserte plasseringen.

Som det viser seg, har mange Twitter-kontoer geografiske plasseringer som en del av deres offentlige profiler (samt ansvarsfraskrivelser som tydelig sier at deres tanker er deres egne, i motsetning til å snakke for sine arbeidsgivere).

Hvor god er det med en prediksjonsmotor kan sosiale medier være for utbruddet av influensa eller en matforgiftningshendelse? Vurder de anonyme prøvedataene som vises. Du kan se at sosiale medier signaler trumpet alle andre indikatorer for å forutsi et influensautbrudd i et bestemt USA-fylke i løpet av sensommeren og inn i tidlig høst.

Dette eksemplet viser en annen fordel som kommer fra analysering av sosiale medier: Det gir deg en enestående mulighet til å se på attributtinformasjon i plakater profiler. Gitt, hva folk sier om seg selv i sine Twitter-profiler, er ofte ufullstendige (for eksempel er plasseringenskoden ikke fylt) eller ikke meningsfylt (plasseringskoden kan si cloud nine ).

Men du kan lære mye om mennesker over tid, basert på hva de sier. For eksempel kan en klient ha tweeted (publisert på Twitter) kunngjøringen om hennes barns fødsel, et Instagram-bilde av hennes siste maleri, eller en Facebook-postmelding som sier at hun ikke kan tro Walter Whites atferd i går kveldens Breaking Bad finale.

I dette allestedsnærværende eksempelet kan firmaet trekke ut en livshendelse som fyller en slektshistorie (et nytt barn er en verdifull oppdatering for en personbasert Master Data Management-profil), en hobby (maleri) og en interesseattributt (du elsker showet Breaking Bad ).

Ved å analysere sosiale data på denne måten har du mulighet til å utheve personlige attributter med informasjon som hobbyer, fødselsdager, livshendelser, geografiske steder (land, stat og by, for eksempel), arbeidsgiver, kjønn, ekteskapelig status og mer.

Anta i et minutt at du er CIO for et flyselskap. Du kan bruke innlegg fra glade eller sint, hyppige reisende, for ikke bare å fastslå følelser, men også omdanne kundeprofiler for ditt lojalitetsprogram ved hjelp av sosiale medier.

Forestill deg hvor mye bedre du kan målrette potensielle kunder med informasjonen som bare var delt - for eksempel, en e-post som forteller klienten at sesong 5 av Breaking Bad er nå tilgjengelig på flyets mediesystem eller kunngjøre at barn under 2 år flyr gratis.

Det er også et godt eksempel på hvordan systemer av rekord (f.eks. Salgs- eller abonnementsdatabaser) kan oppfylle systemer for engasjement (f.eks. Støtte kanaler). Selv om lojalitetsmedlemmernes innløsnings- og reisehistorie er i en relasjonsdatabase, kan systemet for engasjement oppdatere poster (for eksempel en kolonne).