Hjem Personlig finansiering Hadoop Integrasjon med R-dummies

Hadoop Integrasjon med R-dummies

Innholdsfortegnelse:

Video: WebWeka Tutorial #1: Getting Started 2024

Video: WebWeka Tutorial #1: Getting Started 2024
Anonim

I begynnelsen var store data og R ikke naturlige venner. R programmering krever at alle objekter lastes inn i hovedminnet til en enkelt maskin. Begrensningene i denne arkitekturen blir raskt realisert når store data blir en del av ligningen.

I motsetning til distribuerte filsystemer som Hadoop mangler sterke statistiske teknikker, men er ideelle for å måle komplekse operasjoner og oppgaver. Vertikale skaleringsløsninger - som krever investering i kostbar supercomputer-maskinvare - kan ofte ikke konkurrere med kostnadseffektiv avkastning som tilbys av distribuerte, hardwarevareklynger.

For å overholde begrensningene i R-språket i minnet, må dataforskere ofte begrense analysen til bare en delmengde av tilgjengelige eksempeldata. Før dypere integrasjon med Hadoop, tilbød R språkprogrammerer en målestokkstrategi for å overvinne utfordringene i minnet som stod av store datasett på enkelte maskiner.

Dette ble oppnådd ved hjelp av meldingspasserende systemer og personsøking. Denne teknikken er i stand til å lette arbeidet over datasett for stor til å lagre i hovedminnet samtidig; Imidlertid presenterer programmet for lavt nivå programmering en bratt læringskurve for de som ikke er kjent med parallelle programmeringsparadigmer.

Alternative tilnærminger forsøker å integrere Rs statistiske evner med Hadops distribuerte klynger på to måter: sammenkobling med SQL-spørrespråk og integrasjon med Hadoop Streaming. Med førstnevnte er målet å utnytte eksisterende SQL data warehousing plattformer som Hive and Pig. Disse skjemaene forenkler Hadops jobbprogrammering ved hjelp av SQL-setninger for å gi programmer på høyt nivå for å utføre statistiske jobber over Hadoop-data.

For programmerere som ønsker å programmere MapReduce-jobber på språk (inkludert R) annet enn Java, er et annet alternativ å benytte Hadops Streaming API. Bruker-innsendte MapReduce-jobber gjennomgår datatransformasjoner ved hjelp av UNIX-standardstrømmer og serialisering, garanterer Java-kompatibel inngang til Hadoop - uavhengig av hvilket språk som opprinnelig ble levert av programmereren.

Utviklere fortsetter å utforske ulike strategier for å utnytte den distribuerte beregningsevnen til MapReduce og den nesten ubegrensede lagringskapasiteten til HDFS på måter som kan utnyttes av R.

Integrasjon av Hadoop med R pågår, med tilbud fra IBM (Big R som en del av BigInsights) og Revolution Analytics (Revolution R Enterprise). Bridging-løsninger som integrerer høyt nivå programmerings- og spørrende språk med Hadoop, som RHive og RHadoop, er også tilgjengelige.

Hvert system har som mål å levere de dype analytiske egenskapene til R-språket til mye større datamengder.

RHive

RHive-rammen fungerer som en bro mellom R-språket og Hive. RHive leverer de rike statistiske biblioteker og algoritmer til R til data lagret i Hadoop ved å utvide Hives SQL-lignende spørrespråk (HiveQL) med R-spesifikke funksjoner. Gjennom RHive-funksjonene kan du bruke HiveQL til å bruke R statistiske modeller til data i Hadoop-klyngen du har katalogisert ved hjelp av Hive.

RHadoop

En annen åpen kildekode ramme tilgjengelig for R programmører er RHadoop, en samling av pakker ment å hjelpe til med å administrere distribusjon og analyse av data med Hadoop. Tre pakker med notat - rmr2, rhdfs og rhbase - gir det meste av RHadops funksjonalitet:

  • rmr2: Rmr2-pakken støtter oversettelse av R-språket til Hadoop-kompatible MapReduce-jobber (produserer effektiv, lavnivå MapReduce-kode fra høyere R-kode).

  • rhdfs: Rhdfs-pakken inneholder en R-språk-API for filbehandling over HDFS-butikker. Ved hjelp av rhdfs kan brukere lese fra HDFS-butikker til en R-dataramme (matrise), og på samme måte skrive data fra disse R-matrices tilbake til HDFS-lagring.

  • rhbase: rhbase-pakker gir også en R-språk-API, men deres mål i livet er å håndtere databasebehandling for HBase-butikker, i stedet for HDFS-filer.

Revolusjon R

Revolusjon R (ved Revolution Analytics) er et kommersielt R-tilbud med støtte for R-integrasjon på Hadoop distribuerte systemer. Revolusjon R lover å levere forbedret ytelse, funksjonalitet og brukervennlighet for R på Hadoop. For å gi dyp analyse som er relatert til R, gjør Revolution R bruk av selskapets ScaleR-bibliotek - en samling av statistiske analysalgoritmer utviklet spesielt for store datasamlinger i bedriftskala.

ScaleR har som mål å levere rask utførelse av R-programkoden på Hadoop-klynger, slik at R-utvikleren kun kan fokusere på sine statistiske algoritmer og ikke på MapReduce. Videre håndterer den en rekke analytiske oppgaver, for eksempel dataforberedelse, visualisering og statistiske tester.

IBM BigInsights Big R

Big R tilbyr end-to-end-integrasjon mellom R og IBMs Hadoop-tilbud, BigInsights, slik at R-utviklere kan analysere Hadoop-data. Målet er å utnytte Rs programmeringssyntax og kodingsparadigmer, samtidig som man sikrer at dataene som drives ved opphold i HDFS. R datatyper tjener som proxy til disse datalagerene, noe som betyr at R-utviklere ikke trenger å tenke på lavnivå MapReduce-konstruksjoner eller Hadoop-spesifikke skriptspråk (som Pig).

BigInsights Big R-teknologien støtter flere datakilder - inkludert flatfiler, HBase- og Hive-lagringsformater - samtidig som de gir parallell og partisjonert utførelse av R-kode over Hadoop-klyngen. Den skjuler mange av kompleksiteten i de underliggende HDFS- og MapReduce-rammene, slik at Big R-funksjoner utfører omfattende dataanalyser - både på strukturert og ustrukturert data.

Endelig lar skalbarheten til Big Rs statistiske motor R-utviklere å benytte seg av både forhåndsdefinerte statistiske teknikker, samt forfattere nye algoritmer selv.

Hadoop Integrasjon med R-dummies

Redaktørens valg

Hvordan å stable og gruppereformer i Word 2013 - dummies

Hvordan å stable og gruppereformer i Word 2013 - dummies

Enkeltformer kan noen ganger være nyttige i en dokument, men den virkelige kraften til Word 2013's Shapes-funksjonen kan bli funnet ved å kombinere figurer for å lage mer komplekse tegninger og logoer. Du kan stable formene oppå hverandre og kontrollere rekkefølgen de vises i stakken. Når du har ...

Hvordan du angir punktavstand i Word 2013 - dummies

Hvordan du angir punktavstand i Word 2013 - dummies

Word 2013 lar deg legge til "luft" til plass før eller etter eller i midten av avsnittene dine. I midten av avsnittet har du linjeavstand. Før og etter avsnittet kommer punktavstand. Hvordan sette linjeavstanden Endre linjeavstanden legger til ekstra mellomrom mellom alle tekstlinjer ...

Slik starter du et nytt dokument i Word 2007 - dummies

Slik starter du et nytt dokument i Word 2007 - dummies

Starter et nytt dokument i Word 2007 er lett. Hvis du nettopp har startet Word 2007 og vil åpne et tomt dokument, kan du følge tre enkle trinn.

Redaktørens valg

Slik oppretter du en AWS Administrator User - Dummies

Slik oppretter du en AWS Administrator User - Dummies

Opprett Administrator-gruppen er det første trinnet for å sikre at din AWS (Amazon Web Services) -kontoen er fortsatt trygg. Det neste trinnet er å opprette en konto for deg selv og tilordne den til administratorgruppen, slik at du har full tilgang til de administrative funksjonene i din AWS-konto. Følgende trinn beskriver hvordan ...

Vurderer AWS-støttede plattformer - dummies

Vurderer AWS-støttede plattformer - dummies

Hvis du ikke har behandlet AWS eller skyen ennå, du kan være fristet til å tenke på plattformer som en bestemt kombinasjon av gjenstander. For eksempel, når du ser ditt eget lokale oppsett, har du en server som kjører et bestemt operativsystem og har et bestemt sett med maskinvareressurser. Systemet har en bestemt ...

Lage skuffer på Amazon Web Services - dummies

Lage skuffer på Amazon Web Services - dummies

Når du er den stolte eieren av Amazon Web Services (AWS ) konto, det er på tide å gjøre noe nyttig, som å lage en bøtte. Start med å sjekke ut dine S3-ressurser. For å gjøre det, klikk S3-lenken på startsiden for AWS Management Console, som vist her: Du er tatt til en side som lar deg administrere ...

Redaktørens valg

Slik bruker du Eye-Fi med Evernote-dummies

Slik bruker du Eye-Fi med Evernote-dummies

Et selskap kalt Eye-Fi gjør det mulig å Koble kameraet ditt med Evernote, selv uten å koble kameraet til datamaskinen. Følg disse trinnene for å bruke Eye-Fi: Følg instruksjonene som følger med Eye-Fi-kortet for å konfigurere en Eye-Fi-konto. Sett inn Eye-Fi-kortet i kameraet. Slå på kameraet ditt. ...

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hele poenget med å lagre nyttig informasjon er for å kunne finne den senere. Tagging i Evernote er fundamentalt lik for alle plattformer og er ekstremt nyttig når du dash om å prøve å skrive inn notater på hvilken enhet du bruker på den tiden. For å lage en tagg for et notat på en datamaskin eller ...