Hjem Personlig finansiering Grafbehandling i Hadoop - dummies

Grafbehandling i Hadoop - dummies

Innholdsfortegnelse:

Video: hadoop yarn architecture 2025

Video: hadoop yarn architecture 2025
Anonim

En av de mer spennende nye NoSQL-teknologiene innebærer lagring og behandling av grafdata. Du kan kanskje tro at denne utsagnet er gammelt, fordi datavitenskapere har utviklet grafanalyseteknikker i flere tiår. Det du sier kan godt være sant, men hva er nytt er at ved å bruke Hadoop, kan du gjøre grafanalyse i stor skala.

Hva er grafdata?

A graf i datavilkår er bare en representasjon av individuelle enheter og deres relasjoner. En grafs enheter er kjent som noder (eller vertices ), og relasjonene mellom enheter i en graf kalles kanter (eller tilkoblinger >). Å representere datasett i en graf, i motsetning til tradisjonelle rader og kolonner, gjør det mye enklere å behandle dataene dine på måter som gjør forholdet mellom objekter krystallklart. Typiske grafberegninger er representert ved den korteste banenavstanden mellom flere noder i grafen din, eller bare ved hvor mange noder som har tilkoblinger av en bestemt type til en bestemt node.

Programmer for grafanalyse

Det mest kjente programmet for grafdatabaser er Googles PageRank-algoritme, som beregner sammenhengerforholdene mellom alle kjente nettsider. Google representerer nettet som en gigantisk graf, hvor nettsidene er noder, og koblingene fra en side til en annen er representert som kanter. (Google delte rikdommen ved å publisere et papir som beskriver grafanalyseprosjektet - merket Pregel-back i 2010.) Grafbehandlingen som Google var interessert i, involverte å beregne antall innkommende tilkoblinger for hver nettside.

Facebook gjorde en betydelig splash i 2013 da den annonserte at den brukte Apache Giraph (basert på Pregel-papiret), en grafbehandlingsmotor utviklet for å behandle grafer lagret i HDFS. Det viste Giraphs kraft ved å vise en graf som representerer alle Facebook-brukere (over 1 milliard) og deres vennskap (milliarder!), Som helt har over 1 billion kanter. Denne skalaen er svimlende: Hvis du er Facebook, og du må gjøre beregninger som vennevilkår, hva bedre verktøy å bruke enn en grafbehandlingsmotor? Det er ingen overraskelse at en distribuert grafdatabase ligger i kjernen til alle andre bemerkelsesverdige sosiale medier, inkludert Twitter, LinkedIn, OkCupid og Pinterest.

En grafbehandlingsmotor kan enkelt svare på mange praktiske spørsmål for sosiale medier. To eksempler er hvordan LinkedIn viser graden av separasjon mellom deg og en annen bruker er en kortest beregning av banen (hva er den nærmeste forbindelsen mellom to noder?) og hvordan OkCupid viser brukere med felles interesser, er et sett med samarbeidsfiltreringsberegninger (hva er de vanligste forbindelsene til et bestemt sett med noder?).

Grafanalyse i Hadoop

Fra våren 2014 forblir grafanalyse på Hadoop i sine tidlige stadier. Med adventen av Garn i Hadoop 2, vil grafanalyse og andre spesialiserte behandlingsteknikker bli stadig mer populær på Hadoop. Mange av de sosiale nettstedene som er nevnt i denne artikkelen, bruker sine egne, proprietære grafdatabaser og prosessorer, men Facebook er en fremtredende bruker av Giraph. Fordi Facebooks (underforstått) godkjenningssegment, har Giraph blitt et populært valg for grafanalyse på Hadoop, men det har noen begrensninger. Det er bare en behandlingsmotor fordi den laster data som en graf i klyngens minne, og den er optimalisert for batch-orienterte spørringer.

En annen grafbehandlingsløsning kommer fra Aurelius, et selskap som har gitt ut et sett med open source grafanalyseverktøy for Hadoop. Kjernen i tilbudene er Titan, en grafdatabase som bruker HBase som et vedvarende lag, som er optimalisert for interaktive spørringer, og Faunus, en grafbehandlingsmotor som lagrer et øyeblikksbilde av en graf fra Titan i HDFS, og kjører MapReduce jobber mot det. For både de interaktive (Titan) og batch (Faunus) applikasjonene har Aurelius den felles graf-traversale API kalt Gremlin.

Endelig har Apache Spark-prosjektet GraphX-offshoot, som gjør det mulig å generere grafdata, og deretter behandle alt innenfor Spark-rammen.

Grafbehandling i Hadoop - dummies

Redaktørens valg

Hvordan du samler ressurser i Minecraft - dummies

Hvordan du samler ressurser i Minecraft - dummies

Du kan samle ressurser på flere måter for Minecraft-strukturen - noen er mer effektiv enn andre. Her finner du noen forskjellige måter å samle materialer på for din struktur. Du har et par forskjellige alternativer når det gjelder gruvedrift. Hver har sine fordeler og ulemper, så det er opp til ...

Hvordan bygge Minecraft-kretser og -maskiner med Minecart-spor - dummier

Hvordan bygge Minecraft-kretser og -maskiner med Minecart-spor - dummier

Minecart og skinner er Minecraft-funksjoner ofte brukt til å transportere spillere. Men de kan også utføre mange mekaniske egenskaper bedre enn de vanlige redstone-elementene. Minecarts er enheter som kan rulle raskt langs minecartskinner. De kan svinge, gå opp og ned skråninger, og til og med spore (selv om de lider mye ...

Hvordan bygge din første Minecraft Garden - dummies

Hvordan bygge din første Minecraft Garden - dummies

Se hvordan du oppretter en vakker hage i Minecraft ved å planlegge riktig layout, få en rekke unike planter, og organisere plass.

Redaktørens valg

Markedet ditt mobilnettsted til media - dummies

Markedet ditt mobilnettsted til media - dummies

IPhone og iPad er varme emner i media i disse dager. Når du er ferdig med å designe nettstedet ditt for disse nye medieenhetene, ikke glem å markedsføre dem til tradisjonelle medier. Tiltrekke medieoppmerksomhet til mobilwebområdet ditt er ikke i motsetning til å tiltrekke det til noen annen virksomhet. Trikset er å fortelle et godt ...

Gjør skannede dokumenter søkbare og redigerbare - dummies

Gjør skannede dokumenter søkbare og redigerbare - dummies

Når du skanner et dokument direkte til en PDF-fil, Acrobat fanger all tekst og grafikk på hver side som om de alle var bare ett stort grafisk bilde. Dette er bra så langt det går, bortsett fra at det ikke går veldig langt fordi du ikke kan redigere eller søke i PDF-dokumentet ...

Markedet med SMS-meldinger - dummies

Markedet med SMS-meldinger - dummies

Lengden på SMS- begrenset til 160 tegn, så reklamemeldingen din må være kort og søt. Disse meldingene kan inneholde lenker til nettsteder eller klikk for å ringe meldinger: Du klikker på SMS, slik at telefonen ringer. SMS-kampanjer er mye enklere å håndtere enn ...

Redaktørens valg

Rediger, endre farge eller fjern Photoshop Shape Layers - dummies

Rediger, endre farge eller fjern Photoshop Shape Layers - dummies

Bruk formlag i Photoshop Creative Suite 5 når målet med designet ditt er å integrere vektormodeller og pikseldata sømløst. Når du har opprettet et formlag, kan du redigere formen, endre fargen eller fjerne laget helt. Rediger en form Som Adobe Illustrator, gir Photoshop både et valg av sti ...

Oppdag Photoshops malerverktøy - dummies

Oppdag Photoshops malerverktøy - dummies

Ingenting i Photoshop CC gir deg mer presis kontroll over fargen i bildet ditt enn ved bruk av blyantpenningen verktøy med en 1-piks pensel. Husk at bildet ditt består av mange småfargede firkanter (piksler), og at fargen på de enkelte firkantene er det som gir utseendet til et tre eller et ...

Forbedre portretter i Photoshop CC - dummier

Forbedre portretter i Photoshop CC - dummier

Forbedre detaljer som å avklare motivets briller i Photoshop CC kan hjelpe bildene dine og portretter ser det mye bedre ut. Whitening tennene er et annet godt triks for å lyse opp bildene dine. Deklarende briller i Photoshop Eyeglasses kan være fotografens mareritt! Refleksjonene fra glass er vanligvis spekulative høydepunkter - det vil si områder av ren ...