Hjem Personlig finansiering Hvordan bruke Apache Hadoop for Prediktive Analytics - dummies

Hvordan bruke Apache Hadoop for Prediktive Analytics - dummies

Video: BankID - uten Java (spark) 2024

Video: BankID - uten Java (spark) 2024
Anonim

Apache Hadoop er en gratis, åpen kildekode programvareplattform for å skrive og kjøre programmer som behandler en stor mengde data for prediktiv analyse. Det muliggjør distribuert parallellbehandling av store datasett generert fra forskjellige kilder. I hovedsak er det et kraftig verktøy for lagring og behandling av store data.

Hadoop lagrer alle typer data, strukturert eller ustrukturert, fra forskjellige kilder - og samlet deretter dataene på nesten hvilken som helst måte du vil. Hadoop håndterer heterogene data ved hjelp av distribuert parallellbehandling - noe som gjør det til et meget effektivt rammeverk å bruke i analytisk programvare som håndterer store data. Ikke rart at noen store selskaper vedtar Hadoop, inkludert Facebook, Yahoo!, Google, IBM, Twitter og LinkedIn.

Før Hadoop kunne selskapene ikke dra nytte av store data, som ikke ble analysert og nesten ubrukelig. Kostnaden for å lagre dataene i en proprietær relasjonsdatabase og lage et strukturert format rundt det, begrunnte ikke fordelene ved å analysere dataene og benytte seg av det. Hadoop, derimot, gjør oppgaven sømløs - til en brøkdel av kostnaden - slik at selskapene kan finne verdifull innsikt i de store dataene de har kjøpt og samler.

Du trenger ikke å lage et skjema før du kan forstå dine data; Hadoop lar deg spørre dataene i sitt opprinnelige format.

I tillegg til å håndtere store mengder av varierte data, er Hadoop feiltolerant ved hjelp av enkle programmer som håndterer planleggingen av behandlingen fordelt over flere maskiner. Disse programmene kan oppdage maskinvarefeil og viderekoble en oppgave til en annen kjører maskin. Dette arrangementet gjør at Hadoop kan levere høy tilgjengelighet, uavhengig av maskinvarefeil.

Hadoop bruker to hovedkomponenter (delprosjekter) for å gjøre jobben: MapReduce og Hadoop Distributed File System. De to komponentene fungerer samarbeidende:

MapReduce

: Hadops implementering av MapReduce er basert på Googles forskning på programmeringsmodeller for å behandle store datasett ved å dele dem i små arbeidsblokker. MapReduce bruker distribuerte algoritmer, på en gruppe datamaskiner i en klynge, for å behandle store datasett.Den består av to funksjoner:

  • Kart ()

    • -funksjonen som ligger på masteren knutepunkt (nettverksmaskin). Den deler innspørringsspørsmålet eller oppgaven i mindre undergrupper, som den distribuerer til arbeidsnoder som behandler de mindre oppgavene og sender svarene tilbake til hovedknutepunktet. Undertasene kjøres parallelt på flere datamaskiner. Funksjonen Reduce ()

    • samler resultatene fra alle deltakene og kombinerer dem til å produsere et aggregert sluttresultat - som det returnerer som svar på den opprinnelige store spørringen. Hadops distribuert filsystem (HDFS) : HDFS kopierer datablokkene som ligger på andre datamaskiner i datasenteret (for å sikre pålitelighet) og styrer overføringen av data til de ulike delene av distribuert system.

  • Vurder en database på to milliard mennesker, og antar at du vil beregne antall sosiale venner til Mr. X og ordne dem i henhold til deres geografiske plasseringer. Det er en høy ordre. Dataene for to milliarder mennesker kan oppstå i vidt forskjellige kilder, for eksempel sosiale nettverk, e-postkontaktadresselister, innlegg, tweets, surfhistorier - og det er bare for åpnere. Hadoop kan aggregere denne enorme, mangfoldige massen av data slik at du kan undersøke det med en enkel forespørsel.

Du vil bruke MapReduce programmeringsfunksjoner for å løse dette spørsmålet. Definere kart og Redusere prosedyrer gjør selv dette store datasettet håndterbart. Ved hjelp av verktøyene som Hadoop-rammen tilbyr, ville du opprette en MapReduce-implementering som ville gjøre beregningen som to deltakere:

Beregn gjennomsnittlig antall sosiale venner til Mr. X.

Ordne Mr. Xs venner etter geografisk plassering.

  • Ditt MapReduce implementeringsprogram vil kjøre disse delene i parallell, administrere kommunikasjon mellom deltakene og samle resultatene. Av to milliarder mennesker, ville du vite hvem Mr. Xs online venner er.

  • Hadoop tilbyr en rekke kartprosessorer; hvilken (e) du velger vil avhenge av infrastrukturen din.

Hver av prosessorene dine håndterer et visst antall poster. Anta at hver prosessor håndterer en million dataposter. Hver prosessor utfører en Kartprosedyre som produserer flere poster av nøkkelverdipar hvor

G

(nøkkel) er den geografiske plasseringen en person (land) og N (verdi) er antall kontakter personen har. Anta at hver Kartprosessor produserer mange par av skjemaet, for eksempel følgende: Prosessorkort # 1:

Prosessorkort # 2:

Prosessorkort # 3:

Prosessorkort # 4:

Prosessoroversikt # 5:

Prosessorkort # 6:

I reduksjonsfasen tildeler Hadoop en oppgave til et bestemt antall prosessorer: Utfør reduksjonsprosedyren som samler verdiene til de samme tastene for å produsere et sluttresultat. I dette eksemplet reduserer implementeringen summen av verdier for hver nøkkel - geografisk plassering. Så, etter kartfasen, gir Reduce-fasen følgende:

------ ----

Klart, Mr.X er en populær fyr - men dette var et veldig enkelt eksempel på hvordan MapReduce kan brukes. Tenk deg at du har å gjøre med et stort datasett hvor du vil utføre komplekse operasjoner som for eksempel klynging av milliarder dokumenter hvor operasjonen og dataene bare er for store for en enkelt maskin å håndtere. Hadoop er verktøyet å vurdere.

Hvordan bruke Apache Hadoop for Prediktive Analytics - dummies

Redaktørens valg

Hvordan å stable og gruppereformer i Word 2013 - dummies

Hvordan å stable og gruppereformer i Word 2013 - dummies

Enkeltformer kan noen ganger være nyttige i en dokument, men den virkelige kraften til Word 2013's Shapes-funksjonen kan bli funnet ved å kombinere figurer for å lage mer komplekse tegninger og logoer. Du kan stable formene oppå hverandre og kontrollere rekkefølgen de vises i stakken. Når du har ...

Hvordan du angir punktavstand i Word 2013 - dummies

Hvordan du angir punktavstand i Word 2013 - dummies

Word 2013 lar deg legge til "luft" til plass før eller etter eller i midten av avsnittene dine. I midten av avsnittet har du linjeavstand. Før og etter avsnittet kommer punktavstand. Hvordan sette linjeavstanden Endre linjeavstanden legger til ekstra mellomrom mellom alle tekstlinjer ...

Slik starter du et nytt dokument i Word 2007 - dummies

Slik starter du et nytt dokument i Word 2007 - dummies

Starter et nytt dokument i Word 2007 er lett. Hvis du nettopp har startet Word 2007 og vil åpne et tomt dokument, kan du følge tre enkle trinn.

Redaktørens valg

Slik oppretter du en AWS Administrator User - Dummies

Slik oppretter du en AWS Administrator User - Dummies

Opprett Administrator-gruppen er det første trinnet for å sikre at din AWS (Amazon Web Services) -kontoen er fortsatt trygg. Det neste trinnet er å opprette en konto for deg selv og tilordne den til administratorgruppen, slik at du har full tilgang til de administrative funksjonene i din AWS-konto. Følgende trinn beskriver hvordan ...

Vurderer AWS-støttede plattformer - dummies

Vurderer AWS-støttede plattformer - dummies

Hvis du ikke har behandlet AWS eller skyen ennå, du kan være fristet til å tenke på plattformer som en bestemt kombinasjon av gjenstander. For eksempel, når du ser ditt eget lokale oppsett, har du en server som kjører et bestemt operativsystem og har et bestemt sett med maskinvareressurser. Systemet har en bestemt ...

Lage skuffer på Amazon Web Services - dummies

Lage skuffer på Amazon Web Services - dummies

Når du er den stolte eieren av Amazon Web Services (AWS ) konto, det er på tide å gjøre noe nyttig, som å lage en bøtte. Start med å sjekke ut dine S3-ressurser. For å gjøre det, klikk S3-lenken på startsiden for AWS Management Console, som vist her: Du er tatt til en side som lar deg administrere ...

Redaktørens valg

Slik bruker du Eye-Fi med Evernote-dummies

Slik bruker du Eye-Fi med Evernote-dummies

Et selskap kalt Eye-Fi gjør det mulig å Koble kameraet ditt med Evernote, selv uten å koble kameraet til datamaskinen. Følg disse trinnene for å bruke Eye-Fi: Følg instruksjonene som følger med Eye-Fi-kortet for å konfigurere en Eye-Fi-konto. Sett inn Eye-Fi-kortet i kameraet. Slå på kameraet ditt. ...

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hele poenget med å lagre nyttig informasjon er for å kunne finne den senere. Tagging i Evernote er fundamentalt lik for alle plattformer og er ekstremt nyttig når du dash om å prøve å skrive inn notater på hvilken enhet du bruker på den tiden. For å lage en tagg for et notat på en datamaskin eller ...