Loggdataanalyse med Hadoop-dummies

Loganalyse er en vanlig brukstilstand for et innledende Hadoop-prosjekt. Faktisk var Hadops tidligste bruk for den omfattende analysen av clickstream logger - logger som registrerer data om nettsidene folk besøker og i hvilken rekkefølge de besøker dem.

Alle loggene med data som genereres av IT-infrastrukturen din, kalles ofte datautgassing. En logg er et biprodukt av en fungerende server, akkurat som røyk som kommer fra en arbeidsmotorens eksosrør. Datautslipp har konnotasjon av forurensning eller avfall, og mange bedrifter utvider utvilsomt denne typen data med den tanken i tankene.

Loggdataene vokser ofte raskt, og på grunn av de høye volumene som produseres, kan det være kjedelig å analysere. Og den potensielle verdien av disse dataene er ofte uklart. Så fristelsen i IT-avdelinger er å lagre denne loggdata i så lite tid som rimelig mulig. (Når alt kommer til alt, koster det penger for å beholde data, og hvis det ikke er noen oppfattet forretningsverdi, hvorfor lagre det?)

Men Hadoop endrer matematikken: Kostnaden for lagring av data er relativt billig, og Hadoop ble opprinnelig utviklet spesielt for storskala batchbehandling av loggdata.

Bruk av loggdataanalyse er et nyttig sted for å starte Hadoop-reisen, fordi sjansene er gode at dataene du jobber med, blir slettet eller "falt til gulvet. "Noen selskaper som konsekvent registrerer terabyte (TB) eller mer av kundens webaktivitet per uke, kaster bort dataene uten analyse (noe som gjør at du lurer på hvorfor de plaget å samle det).

For å komme i gang raskt, er dataene i denne brukstilstanden sannsynligvis enkle å få, og dekker vanligvis ikke de samme problemene du vil støte på hvis du starter Hadoop-reisen din med andre (styrte) data.

Når bransjeanalytikere diskuterer de raskt økende datamengdene som finnes (4. 1 exabytes fra 2014 - mer enn 4 millioner 1 TB harddisker), står loggdata for mye av denne veksten. Og ikke rart: Nesten alle aspekter av livet resulterer nå i generering av data. En smarttelefon kan generere hundrevis av logginnspillinger per dag for en aktiv bruker, sporing ikke bare tale, tekst og dataoverføring, men også geolokasjonsdata.

De fleste husholdninger har nå klare målere som logger på strømforbruket. Nyere biler har tusenvis av sensorer som registrerer aspekter av tilstand og bruk. Hvert klikk og musbevegelse du gjør mens du surfer på Internett, forårsaker en kaskade med logginnlegg som skal genereres.

Hver gang du kjøper noe - selv uten å bruke et kredittkort eller debetkort - registrerer systemene aktiviteten i databaser - og i logger.Du kan se noen av de vanligste kildene til loggdata: IT-servere, web clickstreams, sensorer og transaksjonssystemer.

Alle bransjer (samt alle logtyper som nettopp er beskrevet) har det store potensialet for verdifull analyse - spesielt når du kan nullle på en bestemt type aktivitet og deretter korrelere funnene dine med et annet datasett for å gi sammenheng.

For eksempel, vurder denne typiske nettbaserte surfing og kjøpserfaring:

Du surfer på nettstedet, leter etter gjenstander som skal kjøpes.
Du klikker for å lese beskrivelser av et produkt som fanger øyet ditt.
Til slutt legger du til et produkt i handlekurven og fortsetter til kassen (kjøpsaksjonen).

Etter at du har sett kostnadene for frakt, bestemmer du imidlertid at varen ikke er verdt prisen, og du lukker nettleservinduet. Hvert klikk du har laget - og deretter sluttet å lage - har potensial til å tilby verdifull innsikt til selskapet bak dette e-handelsstedet.

I dette eksemplet anta at denne virksomheten samler klikkstrømdata (data om hvert museklikk og sidevisning som en besøkende "berører") med sikte på å forstå hvordan de bedre kan betjene sine kunder. En felles utfordring blant e-handelsvirksomhet er å gjenkjenne nøkkelfaktorene for forlatte handlekurver. Når du utfører dypere analyser av klikkstrømdataene og undersøker brukeradferdene på nettstedet, er mønstre bundet til å dukke opp.

Vet din bedrift svaret på det tilsynelatende enkle spørsmålet, "Er enkelte produkter forlatt mer enn andre? "Eller svaret på spørsmålet," Hvor mye inntekt kan gjenvinnes dersom du reduserer vognabonnement med 10 prosent? "Følgende gir et eksempel på hva slags rapporter du kan vise til bedriftsledere dine, for å søke investeringen i Hadoop-årsaken din.

For å komme til det punktet der du kan generere dataene for å bygge grafene som vises, isolerer du nettlesersøktene til de enkelte brukere (en prosess kjent som øktisering) , identifiser innholdet i handlekurvene sine, og deretter etablere transaksjonsstatusen ved slutten av økten - alt ved å undersøke klikkstrømdataene.

Følgende er et eksempel på hvordan du monterer brukerens nettleser ved å gruppere alle klikk og nettadresser etter IP-adresse.

I en Hadoop-sammenheng jobber du alltid med nøkler og verdier - hver fase av MapReduce innspiller og utdataer data i sett med nøkler og verdier. Nøkkelen er IP-adressen, og verdien består av tidsstempel og nettadressen. Under kartfasen samles brukerøkter parallelt for alle filblokkene i clickstream datasettet som er lagret i Hadoop-klyngen.

Kartfasen returnerer disse elementene:

Den siste siden som er besøkt
En liste over varer i handlekurven
Transaksjonsstatusen for hver brukersession (indeksert av IP-adressetasten) < Reduksjonsmaskinen plukker opp disse postene og utfører aggregeringer for å summere antall og verdi av vognene som er forlatt per måned, og for å gi totaler av de vanligste endelige sidene som noen så på før brukerens slutt avsluttes.