Hjem Personlig finansiering Hadoop Integrasjon med R-dummies

Hadoop Integrasjon med R-dummies

Innholdsfortegnelse:

Video: WebWeka Tutorial #1: Getting Started 2025

Video: WebWeka Tutorial #1: Getting Started 2025
Anonim

I begynnelsen var store data og R ikke naturlige venner. R programmering krever at alle objekter lastes inn i hovedminnet til en enkelt maskin. Begrensningene i denne arkitekturen blir raskt realisert når store data blir en del av ligningen.

I motsetning til distribuerte filsystemer som Hadoop mangler sterke statistiske teknikker, men er ideelle for å måle komplekse operasjoner og oppgaver. Vertikale skaleringsløsninger - som krever investering i kostbar supercomputer-maskinvare - kan ofte ikke konkurrere med kostnadseffektiv avkastning som tilbys av distribuerte, hardwarevareklynger.

For å overholde begrensningene i R-språket i minnet, må dataforskere ofte begrense analysen til bare en delmengde av tilgjengelige eksempeldata. Før dypere integrasjon med Hadoop, tilbød R språkprogrammerer en målestokkstrategi for å overvinne utfordringene i minnet som stod av store datasett på enkelte maskiner.

Dette ble oppnådd ved hjelp av meldingspasserende systemer og personsøking. Denne teknikken er i stand til å lette arbeidet over datasett for stor til å lagre i hovedminnet samtidig; Imidlertid presenterer programmet for lavt nivå programmering en bratt læringskurve for de som ikke er kjent med parallelle programmeringsparadigmer.

Alternative tilnærminger forsøker å integrere Rs statistiske evner med Hadops distribuerte klynger på to måter: sammenkobling med SQL-spørrespråk og integrasjon med Hadoop Streaming. Med førstnevnte er målet å utnytte eksisterende SQL data warehousing plattformer som Hive and Pig. Disse skjemaene forenkler Hadops jobbprogrammering ved hjelp av SQL-setninger for å gi programmer på høyt nivå for å utføre statistiske jobber over Hadoop-data.

For programmerere som ønsker å programmere MapReduce-jobber på språk (inkludert R) annet enn Java, er et annet alternativ å benytte Hadops Streaming API. Bruker-innsendte MapReduce-jobber gjennomgår datatransformasjoner ved hjelp av UNIX-standardstrømmer og serialisering, garanterer Java-kompatibel inngang til Hadoop - uavhengig av hvilket språk som opprinnelig ble levert av programmereren.

Utviklere fortsetter å utforske ulike strategier for å utnytte den distribuerte beregningsevnen til MapReduce og den nesten ubegrensede lagringskapasiteten til HDFS på måter som kan utnyttes av R.

Integrasjon av Hadoop med R pågår, med tilbud fra IBM (Big R som en del av BigInsights) og Revolution Analytics (Revolution R Enterprise). Bridging-løsninger som integrerer høyt nivå programmerings- og spørrende språk med Hadoop, som RHive og RHadoop, er også tilgjengelige.

Hvert system har som mål å levere de dype analytiske egenskapene til R-språket til mye større datamengder.

RHive

RHive-rammen fungerer som en bro mellom R-språket og Hive. RHive leverer de rike statistiske biblioteker og algoritmer til R til data lagret i Hadoop ved å utvide Hives SQL-lignende spørrespråk (HiveQL) med R-spesifikke funksjoner. Gjennom RHive-funksjonene kan du bruke HiveQL til å bruke R statistiske modeller til data i Hadoop-klyngen du har katalogisert ved hjelp av Hive.

RHadoop

En annen åpen kildekode ramme tilgjengelig for R programmører er RHadoop, en samling av pakker ment å hjelpe til med å administrere distribusjon og analyse av data med Hadoop. Tre pakker med notat - rmr2, rhdfs og rhbase - gir det meste av RHadops funksjonalitet:

  • rmr2: Rmr2-pakken støtter oversettelse av R-språket til Hadoop-kompatible MapReduce-jobber (produserer effektiv, lavnivå MapReduce-kode fra høyere R-kode).

  • rhdfs: Rhdfs-pakken inneholder en R-språk-API for filbehandling over HDFS-butikker. Ved hjelp av rhdfs kan brukere lese fra HDFS-butikker til en R-dataramme (matrise), og på samme måte skrive data fra disse R-matrices tilbake til HDFS-lagring.

  • rhbase: rhbase-pakker gir også en R-språk-API, men deres mål i livet er å håndtere databasebehandling for HBase-butikker, i stedet for HDFS-filer.

Revolusjon R

Revolusjon R (ved Revolution Analytics) er et kommersielt R-tilbud med støtte for R-integrasjon på Hadoop distribuerte systemer. Revolusjon R lover å levere forbedret ytelse, funksjonalitet og brukervennlighet for R på Hadoop. For å gi dyp analyse som er relatert til R, gjør Revolution R bruk av selskapets ScaleR-bibliotek - en samling av statistiske analysalgoritmer utviklet spesielt for store datasamlinger i bedriftskala.

ScaleR har som mål å levere rask utførelse av R-programkoden på Hadoop-klynger, slik at R-utvikleren kun kan fokusere på sine statistiske algoritmer og ikke på MapReduce. Videre håndterer den en rekke analytiske oppgaver, for eksempel dataforberedelse, visualisering og statistiske tester.

IBM BigInsights Big R

Big R tilbyr end-to-end-integrasjon mellom R og IBMs Hadoop-tilbud, BigInsights, slik at R-utviklere kan analysere Hadoop-data. Målet er å utnytte Rs programmeringssyntax og kodingsparadigmer, samtidig som man sikrer at dataene som drives ved opphold i HDFS. R datatyper tjener som proxy til disse datalagerene, noe som betyr at R-utviklere ikke trenger å tenke på lavnivå MapReduce-konstruksjoner eller Hadoop-spesifikke skriptspråk (som Pig).

BigInsights Big R-teknologien støtter flere datakilder - inkludert flatfiler, HBase- og Hive-lagringsformater - samtidig som de gir parallell og partisjonert utførelse av R-kode over Hadoop-klyngen. Den skjuler mange av kompleksiteten i de underliggende HDFS- og MapReduce-rammene, slik at Big R-funksjoner utfører omfattende dataanalyser - både på strukturert og ustrukturert data.

Endelig lar skalbarheten til Big Rs statistiske motor R-utviklere å benytte seg av både forhåndsdefinerte statistiske teknikker, samt forfattere nye algoritmer selv.

Hadoop Integrasjon med R-dummies

Redaktørens valg

Hvordan du samler ressurser i Minecraft - dummies

Hvordan du samler ressurser i Minecraft - dummies

Du kan samle ressurser på flere måter for Minecraft-strukturen - noen er mer effektiv enn andre. Her finner du noen forskjellige måter å samle materialer på for din struktur. Du har et par forskjellige alternativer når det gjelder gruvedrift. Hver har sine fordeler og ulemper, så det er opp til ...

Hvordan bygge Minecraft-kretser og -maskiner med Minecart-spor - dummier

Hvordan bygge Minecraft-kretser og -maskiner med Minecart-spor - dummier

Minecart og skinner er Minecraft-funksjoner ofte brukt til å transportere spillere. Men de kan også utføre mange mekaniske egenskaper bedre enn de vanlige redstone-elementene. Minecarts er enheter som kan rulle raskt langs minecartskinner. De kan svinge, gå opp og ned skråninger, og til og med spore (selv om de lider mye ...

Hvordan bygge din første Minecraft Garden - dummies

Hvordan bygge din første Minecraft Garden - dummies

Se hvordan du oppretter en vakker hage i Minecraft ved å planlegge riktig layout, få en rekke unike planter, og organisere plass.

Redaktørens valg

Markedet ditt mobilnettsted til media - dummies

Markedet ditt mobilnettsted til media - dummies

IPhone og iPad er varme emner i media i disse dager. Når du er ferdig med å designe nettstedet ditt for disse nye medieenhetene, ikke glem å markedsføre dem til tradisjonelle medier. Tiltrekke medieoppmerksomhet til mobilwebområdet ditt er ikke i motsetning til å tiltrekke det til noen annen virksomhet. Trikset er å fortelle et godt ...

Gjør skannede dokumenter søkbare og redigerbare - dummies

Gjør skannede dokumenter søkbare og redigerbare - dummies

Når du skanner et dokument direkte til en PDF-fil, Acrobat fanger all tekst og grafikk på hver side som om de alle var bare ett stort grafisk bilde. Dette er bra så langt det går, bortsett fra at det ikke går veldig langt fordi du ikke kan redigere eller søke i PDF-dokumentet ...

Markedet med SMS-meldinger - dummies

Markedet med SMS-meldinger - dummies

Lengden på SMS- begrenset til 160 tegn, så reklamemeldingen din må være kort og søt. Disse meldingene kan inneholde lenker til nettsteder eller klikk for å ringe meldinger: Du klikker på SMS, slik at telefonen ringer. SMS-kampanjer er mye enklere å håndtere enn ...

Redaktørens valg

Rediger, endre farge eller fjern Photoshop Shape Layers - dummies

Rediger, endre farge eller fjern Photoshop Shape Layers - dummies

Bruk formlag i Photoshop Creative Suite 5 når målet med designet ditt er å integrere vektormodeller og pikseldata sømløst. Når du har opprettet et formlag, kan du redigere formen, endre fargen eller fjerne laget helt. Rediger en form Som Adobe Illustrator, gir Photoshop både et valg av sti ...

Oppdag Photoshops malerverktøy - dummies

Oppdag Photoshops malerverktøy - dummies

Ingenting i Photoshop CC gir deg mer presis kontroll over fargen i bildet ditt enn ved bruk av blyantpenningen verktøy med en 1-piks pensel. Husk at bildet ditt består av mange småfargede firkanter (piksler), og at fargen på de enkelte firkantene er det som gir utseendet til et tre eller et ...

Forbedre portretter i Photoshop CC - dummier

Forbedre portretter i Photoshop CC - dummier

Forbedre detaljer som å avklare motivets briller i Photoshop CC kan hjelpe bildene dine og portretter ser det mye bedre ut. Whitening tennene er et annet godt triks for å lyse opp bildene dine. Deklarende briller i Photoshop Eyeglasses kan være fotografens mareritt! Refleksjonene fra glass er vanligvis spekulative høydepunkter - det vil si områder av ren ...