Hjem Personlig finansiering Loggdataanalyse med Hadoop-dummies

Loggdataanalyse med Hadoop-dummies

Anonim

Loganalyse er en vanlig brukstilstand for et innledende Hadoop-prosjekt. Faktisk var Hadops tidligste bruk for den omfattende analysen av clickstream logger - logger som registrerer data om nettsidene folk besøker og i hvilken rekkefølge de besøker dem.

Alle loggene med data som genereres av IT-infrastrukturen din, kalles ofte datautgassing. En logg er et biprodukt av en fungerende server, akkurat som røyk som kommer fra en arbeidsmotorens eksosrør. Datautslipp har konnotasjon av forurensning eller avfall, og mange bedrifter utvider utvilsomt denne typen data med den tanken i tankene.

Loggdataene vokser ofte raskt, og på grunn av de høye volumene som produseres, kan det være kjedelig å analysere. Og den potensielle verdien av disse dataene er ofte uklart. Så fristelsen i IT-avdelinger er å lagre denne loggdata i så lite tid som rimelig mulig. (Når alt kommer til alt, koster det penger for å beholde data, og hvis det ikke er noen oppfattet forretningsverdi, hvorfor lagre det?)

Men Hadoop endrer matematikken: Kostnaden for lagring av data er relativt billig, og Hadoop ble opprinnelig utviklet spesielt for storskala batchbehandling av loggdata.

Bruk av loggdataanalyse er et nyttig sted for å starte Hadoop-reisen, fordi sjansene er gode at dataene du jobber med, blir slettet eller "falt til gulvet. "Noen selskaper som konsekvent registrerer terabyte (TB) eller mer av kundens webaktivitet per uke, kaster bort dataene uten analyse (noe som gjør at du lurer på hvorfor de plaget å samle det).

For å komme i gang raskt, er dataene i denne brukstilstanden sannsynligvis enkle å få, og dekker vanligvis ikke de samme problemene du vil støte på hvis du starter Hadoop-reisen din med andre (styrte) data.

Når bransjeanalytikere diskuterer de raskt økende datamengdene som finnes (4. 1 exabytes fra 2014 - mer enn 4 millioner 1 TB harddisker), står loggdata for mye av denne veksten. Og ikke rart: Nesten alle aspekter av livet resulterer nå i generering av data. En smarttelefon kan generere hundrevis av logginnspillinger per dag for en aktiv bruker, sporing ikke bare tale, tekst og dataoverføring, men også geolokasjonsdata.

De fleste husholdninger har nå klare målere som logger på strømforbruket. Nyere biler har tusenvis av sensorer som registrerer aspekter av tilstand og bruk. Hvert klikk og musbevegelse du gjør mens du surfer på Internett, forårsaker en kaskade med logginnlegg som skal genereres.

Hver gang du kjøper noe - selv uten å bruke et kredittkort eller debetkort - registrerer systemene aktiviteten i databaser - og i logger.Du kan se noen av de vanligste kildene til loggdata: IT-servere, web clickstreams, sensorer og transaksjonssystemer.

Alle bransjer (samt alle logtyper som nettopp er beskrevet) har det store potensialet for verdifull analyse - spesielt når du kan nullle på en bestemt type aktivitet og deretter korrelere funnene dine med et annet datasett for å gi sammenheng.

For eksempel, vurder denne typiske nettbaserte surfing og kjøpserfaring:

  1. Du surfer på nettstedet, leter etter gjenstander som skal kjøpes.

  2. Du klikker for å lese beskrivelser av et produkt som fanger øyet ditt.

  3. Til slutt legger du til et produkt i handlekurven og fortsetter til kassen (kjøpsaksjonen).

Etter at du har sett kostnadene for frakt, bestemmer du imidlertid at varen ikke er verdt prisen, og du lukker nettleservinduet. Hvert klikk du har laget - og deretter sluttet å lage - har potensial til å tilby verdifull innsikt til selskapet bak dette e-handelsstedet.

I dette eksemplet anta at denne virksomheten samler klikkstrømdata (data om hvert museklikk og sidevisning som en besøkende "berører") med sikte på å forstå hvordan de bedre kan betjene sine kunder. En felles utfordring blant e-handelsvirksomhet er å gjenkjenne nøkkelfaktorene for forlatte handlekurver. Når du utfører dypere analyser av klikkstrømdataene og undersøker brukeradferdene på nettstedet, er mønstre bundet til å dukke opp.

Vet din bedrift svaret på det tilsynelatende enkle spørsmålet, "Er enkelte produkter forlatt mer enn andre? "Eller svaret på spørsmålet," Hvor mye inntekt kan gjenvinnes dersom du reduserer vognabonnement med 10 prosent? "Følgende gir et eksempel på hva slags rapporter du kan vise til bedriftsledere dine, for å søke investeringen i Hadoop-årsaken din.

For å komme til det punktet der du kan generere dataene for å bygge grafene som vises, isolerer du nettlesersøktene til de enkelte brukere (en prosess kjent som øktisering) , identifiser innholdet i handlekurvene sine, og deretter etablere transaksjonsstatusen ved slutten av økten - alt ved å undersøke klikkstrømdataene.

Følgende er et eksempel på hvordan du monterer brukerens nettleser ved å gruppere alle klikk og nettadresser etter IP-adresse.

I en Hadoop-sammenheng jobber du alltid med nøkler og verdier - hver fase av MapReduce innspiller og utdataer data i sett med nøkler og verdier. Nøkkelen er IP-adressen, og verdien består av tidsstempel og nettadressen. Under kartfasen samles brukerøkter parallelt for alle filblokkene i clickstream datasettet som er lagret i Hadoop-klyngen.

Kartfasen returnerer disse elementene:

  • Den siste siden som er besøkt

  • En liste over varer i handlekurven

  • Transaksjonsstatusen for hver brukersession (indeksert av IP-adressetasten) < Reduksjonsmaskinen plukker opp disse postene og utfører aggregeringer for å summere antall og verdi av vognene som er forlatt per måned, og for å gi totaler av de vanligste endelige sidene som noen så på før brukerens slutt avsluttes.

Loggdataanalyse med Hadoop-dummies

Redaktørens valg

Hvordan å stable og gruppereformer i Word 2013 - dummies

Hvordan å stable og gruppereformer i Word 2013 - dummies

Enkeltformer kan noen ganger være nyttige i en dokument, men den virkelige kraften til Word 2013's Shapes-funksjonen kan bli funnet ved å kombinere figurer for å lage mer komplekse tegninger og logoer. Du kan stable formene oppå hverandre og kontrollere rekkefølgen de vises i stakken. Når du har ...

Hvordan du angir punktavstand i Word 2013 - dummies

Hvordan du angir punktavstand i Word 2013 - dummies

Word 2013 lar deg legge til "luft" til plass før eller etter eller i midten av avsnittene dine. I midten av avsnittet har du linjeavstand. Før og etter avsnittet kommer punktavstand. Hvordan sette linjeavstanden Endre linjeavstanden legger til ekstra mellomrom mellom alle tekstlinjer ...

Slik starter du et nytt dokument i Word 2007 - dummies

Slik starter du et nytt dokument i Word 2007 - dummies

Starter et nytt dokument i Word 2007 er lett. Hvis du nettopp har startet Word 2007 og vil åpne et tomt dokument, kan du følge tre enkle trinn.

Redaktørens valg

Slik oppretter du en AWS Administrator User - Dummies

Slik oppretter du en AWS Administrator User - Dummies

Opprett Administrator-gruppen er det første trinnet for å sikre at din AWS (Amazon Web Services) -kontoen er fortsatt trygg. Det neste trinnet er å opprette en konto for deg selv og tilordne den til administratorgruppen, slik at du har full tilgang til de administrative funksjonene i din AWS-konto. Følgende trinn beskriver hvordan ...

Vurderer AWS-støttede plattformer - dummies

Vurderer AWS-støttede plattformer - dummies

Hvis du ikke har behandlet AWS eller skyen ennå, du kan være fristet til å tenke på plattformer som en bestemt kombinasjon av gjenstander. For eksempel, når du ser ditt eget lokale oppsett, har du en server som kjører et bestemt operativsystem og har et bestemt sett med maskinvareressurser. Systemet har en bestemt ...

Lage skuffer på Amazon Web Services - dummies

Lage skuffer på Amazon Web Services - dummies

Når du er den stolte eieren av Amazon Web Services (AWS ) konto, det er på tide å gjøre noe nyttig, som å lage en bøtte. Start med å sjekke ut dine S3-ressurser. For å gjøre det, klikk S3-lenken på startsiden for AWS Management Console, som vist her: Du er tatt til en side som lar deg administrere ...

Redaktørens valg

Slik bruker du Eye-Fi med Evernote-dummies

Slik bruker du Eye-Fi med Evernote-dummies

Et selskap kalt Eye-Fi gjør det mulig å Koble kameraet ditt med Evernote, selv uten å koble kameraet til datamaskinen. Følg disse trinnene for å bruke Eye-Fi: Følg instruksjonene som følger med Eye-Fi-kortet for å konfigurere en Eye-Fi-konto. Sett inn Eye-Fi-kortet i kameraet. Slå på kameraet ditt. ...

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hele poenget med å lagre nyttig informasjon er for å kunne finne den senere. Tagging i Evernote er fundamentalt lik for alle plattformer og er ekstremt nyttig når du dash om å prøve å skrive inn notater på hvilken enhet du bruker på den tiden. For å lage en tagg for et notat på en datamaskin eller ...