Hjem Personlig finansiering Loggdataanalyse med Hadoop-dummies

Loggdataanalyse med Hadoop-dummies

Anonim

Loganalyse er en vanlig brukstilstand for et innledende Hadoop-prosjekt. Faktisk var Hadops tidligste bruk for den omfattende analysen av clickstream logger - logger som registrerer data om nettsidene folk besøker og i hvilken rekkefølge de besøker dem.

Alle loggene med data som genereres av IT-infrastrukturen din, kalles ofte datautgassing. En logg er et biprodukt av en fungerende server, akkurat som røyk som kommer fra en arbeidsmotorens eksosrør. Datautslipp har konnotasjon av forurensning eller avfall, og mange bedrifter utvider utvilsomt denne typen data med den tanken i tankene.

Loggdataene vokser ofte raskt, og på grunn av de høye volumene som produseres, kan det være kjedelig å analysere. Og den potensielle verdien av disse dataene er ofte uklart. Så fristelsen i IT-avdelinger er å lagre denne loggdata i så lite tid som rimelig mulig. (Når alt kommer til alt, koster det penger for å beholde data, og hvis det ikke er noen oppfattet forretningsverdi, hvorfor lagre det?)

Men Hadoop endrer matematikken: Kostnaden for lagring av data er relativt billig, og Hadoop ble opprinnelig utviklet spesielt for storskala batchbehandling av loggdata.

Bruk av loggdataanalyse er et nyttig sted for å starte Hadoop-reisen, fordi sjansene er gode at dataene du jobber med, blir slettet eller "falt til gulvet. "Noen selskaper som konsekvent registrerer terabyte (TB) eller mer av kundens webaktivitet per uke, kaster bort dataene uten analyse (noe som gjør at du lurer på hvorfor de plaget å samle det).

For å komme i gang raskt, er dataene i denne brukstilstanden sannsynligvis enkle å få, og dekker vanligvis ikke de samme problemene du vil støte på hvis du starter Hadoop-reisen din med andre (styrte) data.

Når bransjeanalytikere diskuterer de raskt økende datamengdene som finnes (4. 1 exabytes fra 2014 - mer enn 4 millioner 1 TB harddisker), står loggdata for mye av denne veksten. Og ikke rart: Nesten alle aspekter av livet resulterer nå i generering av data. En smarttelefon kan generere hundrevis av logginnspillinger per dag for en aktiv bruker, sporing ikke bare tale, tekst og dataoverføring, men også geolokasjonsdata.

De fleste husholdninger har nå klare målere som logger på strømforbruket. Nyere biler har tusenvis av sensorer som registrerer aspekter av tilstand og bruk. Hvert klikk og musbevegelse du gjør mens du surfer på Internett, forårsaker en kaskade med logginnlegg som skal genereres.

Hver gang du kjøper noe - selv uten å bruke et kredittkort eller debetkort - registrerer systemene aktiviteten i databaser - og i logger.Du kan se noen av de vanligste kildene til loggdata: IT-servere, web clickstreams, sensorer og transaksjonssystemer.

Alle bransjer (samt alle logtyper som nettopp er beskrevet) har det store potensialet for verdifull analyse - spesielt når du kan nullle på en bestemt type aktivitet og deretter korrelere funnene dine med et annet datasett for å gi sammenheng.

For eksempel, vurder denne typiske nettbaserte surfing og kjøpserfaring:

  1. Du surfer på nettstedet, leter etter gjenstander som skal kjøpes.

  2. Du klikker for å lese beskrivelser av et produkt som fanger øyet ditt.

  3. Til slutt legger du til et produkt i handlekurven og fortsetter til kassen (kjøpsaksjonen).

Etter at du har sett kostnadene for frakt, bestemmer du imidlertid at varen ikke er verdt prisen, og du lukker nettleservinduet. Hvert klikk du har laget - og deretter sluttet å lage - har potensial til å tilby verdifull innsikt til selskapet bak dette e-handelsstedet.

I dette eksemplet anta at denne virksomheten samler klikkstrømdata (data om hvert museklikk og sidevisning som en besøkende "berører") med sikte på å forstå hvordan de bedre kan betjene sine kunder. En felles utfordring blant e-handelsvirksomhet er å gjenkjenne nøkkelfaktorene for forlatte handlekurver. Når du utfører dypere analyser av klikkstrømdataene og undersøker brukeradferdene på nettstedet, er mønstre bundet til å dukke opp.

Vet din bedrift svaret på det tilsynelatende enkle spørsmålet, "Er enkelte produkter forlatt mer enn andre? "Eller svaret på spørsmålet," Hvor mye inntekt kan gjenvinnes dersom du reduserer vognabonnement med 10 prosent? "Følgende gir et eksempel på hva slags rapporter du kan vise til bedriftsledere dine, for å søke investeringen i Hadoop-årsaken din.

For å komme til det punktet der du kan generere dataene for å bygge grafene som vises, isolerer du nettlesersøktene til de enkelte brukere (en prosess kjent som øktisering) , identifiser innholdet i handlekurvene sine, og deretter etablere transaksjonsstatusen ved slutten av økten - alt ved å undersøke klikkstrømdataene.

Følgende er et eksempel på hvordan du monterer brukerens nettleser ved å gruppere alle klikk og nettadresser etter IP-adresse.

I en Hadoop-sammenheng jobber du alltid med nøkler og verdier - hver fase av MapReduce innspiller og utdataer data i sett med nøkler og verdier. Nøkkelen er IP-adressen, og verdien består av tidsstempel og nettadressen. Under kartfasen samles brukerøkter parallelt for alle filblokkene i clickstream datasettet som er lagret i Hadoop-klyngen.

Kartfasen returnerer disse elementene:

  • Den siste siden som er besøkt

  • En liste over varer i handlekurven

  • Transaksjonsstatusen for hver brukersession (indeksert av IP-adressetasten) < Reduksjonsmaskinen plukker opp disse postene og utfører aggregeringer for å summere antall og verdi av vognene som er forlatt per måned, og for å gi totaler av de vanligste endelige sidene som noen så på før brukerens slutt avsluttes.

Loggdataanalyse med Hadoop-dummies

Redaktørens valg

VBA Feilsøking av hurtigtaster - dummies

VBA Feilsøking av hurtigtaster - dummies

Siden kode i et programmeringsspråk må skrives nøyaktig, kan det ikke være feil eller bugs. Heldigvis kan du feilsøke kode i VBA raskt med disse feilsøkingsgenveiene: Handlingsgenveisnøkkel Bytt brytepunkt F9 Gå inn i F8 Gå over Shift + F8 Gå ut Ctrl + Shift + F8 Kjør til markør Ctrl + F8 Fjern alle brytpunkter Ctrl + F9

VBA 2007 Snarveier for umiddelbar og kode Windows - dummies

VBA 2007 Snarveier for umiddelbar og kode Windows - dummies

For å få oppgavene dine gjort raskt i umiddelbar vindu (som lar deg kjøre kode når som helst, rett på stedet) og Kodevindu (brukes til skriving, redigering og visning av VBA), bruker disse snarveiene: Handling Snarveisnøkkel Flytt markør høyre tegn - → Velg tegn til høyre Skift + - → Flytt Markør ett ord Ctrl + - → Velg ...

VBA-tastaturgenveier - dummies

VBA-tastaturgenveier - dummies

Hvis du bruker VBA for å strømlinjeforme Windows-programmer og operasjoner, bruk snarveisnøklene I den følgende listen kan du effektivisere hurtigere og raskere. Trykk for å gjøre dette Trykk for å gjøre dette Alt + F11 Åpne VBA-editoren F1 Få hjelp til et hvilket som helst valgt element Alt + F8 Vis en liste over ...

Redaktørens valg

Hvordan man løser geometriske problemer på ASVAB-dummier

Hvordan man løser geometriske problemer på ASVAB-dummier

Geometriske problemer på ASVAB krever at du beregner volumet, omkretsen, arealet, omkretsen, diameteren og så videre av forskjellige geometriske former. Disse problemene er ikke veldig vanskelig med litt kunnskap om noen geometriske formler. Du maler et gjerde som er 20 meter langt og 6 meter høyt. Hvor mye kvadratfot av gjerdet ...

Hvordan du løser investeringer / lånproblemer på ASVAB-dummies

Hvordan du løser investeringer / lånproblemer på ASVAB-dummies

Vil du se investering / låneproblemer på ASVAB. Disse problemene er primært rettet mot enkle renter på investeringer og lån, ved hjelp av formelen I = prt, hvor jeg er interessen, p er rektor, r er renten (i prosent), og t er tiden. Investerings- / låneproblemene du ser på ...

Redaktørens valg

Utforsker generell kodingsprosess - dummier

Utforsker generell kodingsprosess - dummier

Jobber i koding innebærer mer enn bare å sitte foran en datamaskin. Det er andre skritt du må ta for å sikre at et prosjekt ses gjennom til slutten. Formålet med planleggingsfasen er å forstå klientens mål. Noen kunder vil kanskje være den første som kommer inn ...

Hva er lodding og hvordan bruker du løst verktøy? - dummies

Hva er lodding og hvordan bruker du løst verktøy? - dummies

Lodding (uttales "soddering") innebærer et materiale som kalles loddemetal som smelter når den plasseres på en varm gjenstand; den smelte loddemidlet avkjøler og danner en bånd mellom to gjenstander. Ditt mest grunnleggende loddeverktøy er et loddejern med loddestasjon. En loddestasjon holder ditt varme loddejern og holder loddemåleren og tetningen renere ...