Hjem Personlig finansiering Hvordan bruke Apache Hadoop for Prediktive Analytics - dummies

Hvordan bruke Apache Hadoop for Prediktive Analytics - dummies

Video: BankID - uten Java (spark) 2025

Video: BankID - uten Java (spark) 2025
Anonim

Apache Hadoop er en gratis, åpen kildekode programvareplattform for å skrive og kjøre programmer som behandler en stor mengde data for prediktiv analyse. Det muliggjør distribuert parallellbehandling av store datasett generert fra forskjellige kilder. I hovedsak er det et kraftig verktøy for lagring og behandling av store data.

Hadoop lagrer alle typer data, strukturert eller ustrukturert, fra forskjellige kilder - og samlet deretter dataene på nesten hvilken som helst måte du vil. Hadoop håndterer heterogene data ved hjelp av distribuert parallellbehandling - noe som gjør det til et meget effektivt rammeverk å bruke i analytisk programvare som håndterer store data. Ikke rart at noen store selskaper vedtar Hadoop, inkludert Facebook, Yahoo!, Google, IBM, Twitter og LinkedIn.

Før Hadoop kunne selskapene ikke dra nytte av store data, som ikke ble analysert og nesten ubrukelig. Kostnaden for å lagre dataene i en proprietær relasjonsdatabase og lage et strukturert format rundt det, begrunnte ikke fordelene ved å analysere dataene og benytte seg av det. Hadoop, derimot, gjør oppgaven sømløs - til en brøkdel av kostnaden - slik at selskapene kan finne verdifull innsikt i de store dataene de har kjøpt og samler.

Du trenger ikke å lage et skjema før du kan forstå dine data; Hadoop lar deg spørre dataene i sitt opprinnelige format.

I tillegg til å håndtere store mengder av varierte data, er Hadoop feiltolerant ved hjelp av enkle programmer som håndterer planleggingen av behandlingen fordelt over flere maskiner. Disse programmene kan oppdage maskinvarefeil og viderekoble en oppgave til en annen kjører maskin. Dette arrangementet gjør at Hadoop kan levere høy tilgjengelighet, uavhengig av maskinvarefeil.

Hadoop bruker to hovedkomponenter (delprosjekter) for å gjøre jobben: MapReduce og Hadoop Distributed File System. De to komponentene fungerer samarbeidende:

MapReduce

: Hadops implementering av MapReduce er basert på Googles forskning på programmeringsmodeller for å behandle store datasett ved å dele dem i små arbeidsblokker. MapReduce bruker distribuerte algoritmer, på en gruppe datamaskiner i en klynge, for å behandle store datasett.Den består av to funksjoner:

  • Kart ()

    • -funksjonen som ligger på masteren knutepunkt (nettverksmaskin). Den deler innspørringsspørsmålet eller oppgaven i mindre undergrupper, som den distribuerer til arbeidsnoder som behandler de mindre oppgavene og sender svarene tilbake til hovedknutepunktet. Undertasene kjøres parallelt på flere datamaskiner. Funksjonen Reduce ()

    • samler resultatene fra alle deltakene og kombinerer dem til å produsere et aggregert sluttresultat - som det returnerer som svar på den opprinnelige store spørringen. Hadops distribuert filsystem (HDFS) : HDFS kopierer datablokkene som ligger på andre datamaskiner i datasenteret (for å sikre pålitelighet) og styrer overføringen av data til de ulike delene av distribuert system.

  • Vurder en database på to milliard mennesker, og antar at du vil beregne antall sosiale venner til Mr. X og ordne dem i henhold til deres geografiske plasseringer. Det er en høy ordre. Dataene for to milliarder mennesker kan oppstå i vidt forskjellige kilder, for eksempel sosiale nettverk, e-postkontaktadresselister, innlegg, tweets, surfhistorier - og det er bare for åpnere. Hadoop kan aggregere denne enorme, mangfoldige massen av data slik at du kan undersøke det med en enkel forespørsel.

Du vil bruke MapReduce programmeringsfunksjoner for å løse dette spørsmålet. Definere kart og Redusere prosedyrer gjør selv dette store datasettet håndterbart. Ved hjelp av verktøyene som Hadoop-rammen tilbyr, ville du opprette en MapReduce-implementering som ville gjøre beregningen som to deltakere:

Beregn gjennomsnittlig antall sosiale venner til Mr. X.

Ordne Mr. Xs venner etter geografisk plassering.

  • Ditt MapReduce implementeringsprogram vil kjøre disse delene i parallell, administrere kommunikasjon mellom deltakene og samle resultatene. Av to milliarder mennesker, ville du vite hvem Mr. Xs online venner er.

  • Hadoop tilbyr en rekke kartprosessorer; hvilken (e) du velger vil avhenge av infrastrukturen din.

Hver av prosessorene dine håndterer et visst antall poster. Anta at hver prosessor håndterer en million dataposter. Hver prosessor utfører en Kartprosedyre som produserer flere poster av nøkkelverdipar hvor

G

(nøkkel) er den geografiske plasseringen en person (land) og N (verdi) er antall kontakter personen har. Anta at hver Kartprosessor produserer mange par av skjemaet, for eksempel følgende: Prosessorkort # 1:

Prosessorkort # 2:

Prosessorkort # 3:

Prosessorkort # 4:

Prosessoroversikt # 5:

Prosessorkort # 6:

I reduksjonsfasen tildeler Hadoop en oppgave til et bestemt antall prosessorer: Utfør reduksjonsprosedyren som samler verdiene til de samme tastene for å produsere et sluttresultat. I dette eksemplet reduserer implementeringen summen av verdier for hver nøkkel - geografisk plassering. Så, etter kartfasen, gir Reduce-fasen følgende:

------ ----

Klart, Mr.X er en populær fyr - men dette var et veldig enkelt eksempel på hvordan MapReduce kan brukes. Tenk deg at du har å gjøre med et stort datasett hvor du vil utføre komplekse operasjoner som for eksempel klynging av milliarder dokumenter hvor operasjonen og dataene bare er for store for en enkelt maskin å håndtere. Hadoop er verktøyet å vurdere.

Hvordan bruke Apache Hadoop for Prediktive Analytics - dummies

Redaktørens valg

10 Tips for visuelt analysere og presentere data i Excel - dummies

10 Tips for visuelt analysere og presentere data i Excel - dummies

Her er noen konkrete forslag om hvordan du med hell kan bruke diagrammer som dataanalyseværktøy i Excel, og hvordan du kan bruke diagrammer for å mer effektivt kommunisere resultatene av dataanalysen du gjør. Bruk riktig diagramtype Hva mange mennesker ikke skjønner er at du bare kan lage fem ...

10 Måter å forbedre Power Pivot Performance - dummies

10 Måter å forbedre Power Pivot Performance - dummies

Når du publiserer Power Pivot-rapporter på nettet, har du tenkt for å gi publikum den beste opplevelsen som er mulig. En stor del av denne erfaringen er å sikre at ytelsen er god. Ordet ytelse (som det gjelder applikasjoner og rapportering) er vanligvis synonymt med hastighet - eller hvor raskt et program utfører bestemte handlinger ...

Legger ekstra analyselagre til Excel-diagrammer - dummies

Legger ekstra analyselagre til Excel-diagrammer - dummies

Det er ikke uvanlig å bli bedt om å legge til Ekstra analyse til din visualisering som vanligvis ikke er plottet på et Excel-diagram. For eksempel viser dette diagramet salg for hvert kvartal, men klienten vil kanskje også se prosentveksten i samme kvartal. De fleste Excel-analytikere oppfyller dette behovet med faktiske tekstbokser. ...

Redaktørens valg

Reise fotografering kamera sammenligning diagram - dummies

Reise fotografering kamera sammenligning diagram - dummies

Fra smarte telefoner til punkt-og-skyte og digitale speilreflekskameraer, du har en mange fotograferingsvalg der ute. Bruk følgende diagram for å se hvilken type kamera som passer best for deg. Smartphone Point-and-shoot dSLR Bildesensor Kvalitet Lav til middels Medium Høy Vannbestandig (egnet for basseng) Sjeldne Få modeller Sjeldne Optiske Zoom Lav ...

Ta et makrofoto-dummies

Ta et makrofoto-dummies

Fotografi (makrofotografi) gir deg den som ser bildene dine, utsikt over verden ikke normalt sett av det blotte øye. De fleste kameraer, selv smarttelefoner, kan skyte ting med en rimelig nærhet med en viss grad av klarhet og fokus. Mens du reiser, finner du ting som skyter nærbilde, for eksempel hva du spiser til middag, en merkelig feil, ...

Forestille et Moving Object - dummies

Forestille et Moving Object - dummies

Når du ser et bilde, skjønner du selv hva som skjedde da det ble tatt. Noen bilder kan innebære bevegelse eller aktivitet. For eksempel kan du fokusere på en sykkel som beveger seg nedover gaten med bygningene bak den sløret. Dette er annerledes enn grunne dybdeskarphet, men fordi blenderåpningen ikke er det som skaper ...

Redaktørens valg

ACT-strategi for å multiplisere en horisontal matrise med en vertikal matrise - dummies

ACT-strategi for å multiplisere en horisontal matrise med en vertikal matrise - dummies

På ACT Matematisk test, du må sannsynligvis multiplisere par matriser som har enten en rad eller en kolonne. En enkel måte å formere en horisontal matrise med en vertikal matris er å sette opp et lite rutenett. Denne metoden lar deg fylle ut tallene for å få det riktige svaret. Matrix ...

ACT-strategi for å løse en matrise ved hjelp av en determinant-dummies

ACT-strategi for å løse en matrise ved hjelp av en determinant-dummies

Er en determinant en vanlig operasjon utført på en firkantet matrise. På ACT Math-testen er den eneste determinantformelen du trenger å være kjent med, for en 2 x 2-matrise. Her er formelen for determinanten av Merk at determinanten av en matrise bare er et tall, ikke en matrise. Å ...

ACT Trick for Quadratics: Slik finner du raskt en Parabola-dummies retning

ACT Trick for Quadratics: Slik finner du raskt en Parabola-dummies retning

For å spare tid når du graver en kvadratisk funksjon på ACT Math-testen, kan du raskt bestemme retningen for parabolen ved hjelp av et enkelt triks basert på koeffisienten a. Dette trikset vedrører tegnet på variabelen a (i uttrykket ax2): Når a er positivt, er grafen konkav opp. I ...