Innholdsfortegnelse:
- Trinn 1: Laster ned en VM
- Trinn 2: Last ned Bigtop
- Trinn 3: Installere Bigtop
- Trinn 4: Starte Hadoop
- Trinn 5: Last ned prøvedatasettet
- Trinn 6: Kopiere prøvedatasettet til HDFS
Video: Technology Stacks - Computer Science for Business Leaders 2016 2024
Hvis du er komfortabel med å jobbe med VM og Linux, kan du installere Bigtop på en annen VM enn det som anbefales. Hvis du er veldig modig og har maskinvaren, fortsett og prøv å installere Bigtop på en klynge av maskiner i fullt distribuert modus!
Trinn 1: Laster ned en VM
Hadoop kjører på alle populære Linux-distribusjoner, så du trenger en Linux VM. Det er et fritt tilgjengelig (og lovlig!) CentOS 6 bilde tilgjengelig.
Du trenger et 64-biters operativsystem på den bærbare datamaskinen for å kunne kjøre denne VM. Hadoop trenger et 64-biters miljø.
Når du har lastet ned VM, pakker du den fra den nedlastede ZIP-filen til målkatalogen. Sørg for at du har rundt 50 GB ledig plass som Hadoop, og dine prøvedata vil trenge det.
Hvis du ikke allerede har en VM-spiller, kan du laste ned en gratis.
Når du har konfigurert din VM-spiller, åpner du spilleren, går til Fil → Åpne, og deretter går du til katalogen hvor du hentet Linux VM. Se etter en fil som heter og velg den. Du får se informasjon om hvor mange prosessorer og hvor mye minne det vil bruke. Finn ut hvor mye minne datamaskinen din har, og allokere halvparten av den til VM å bruke. Hadoop trenger mye minne.
Når du er klar, klikk på Play-knappen, og Linux-forekomsten din starter opp. Du får se mange meldinger flyr da Linux starter og du kommer til en påloggingsskjerm. Brukernavnet er allerede satt til "Tom. "Angi passordet som" tomtom "og logg inn.
Trinn 2: Last ned Bigtop
Fra din Linux VM, høyreklikk på skjermen og velg Åpne i Terminal fra kontekstmenyen som vises. Dette åpner en Linux-terminal, hvor du kan kjøre kommandoer. Klikk inne i terminalen slik at du kan se markøren blinker og skriv inn følgende kommando: su -
Du blir bedt om passordet ditt, så skriv inn "tomtom" som du gjorde tidligere. Denne kommandoen bytter brukeren til rot, som er hovedkontoen for en Linux-datamaskin - du trenger dette for å kunne installere Hadoop.
Med roten din tilgang (ikke la strømmen komme til hodet ditt), kjør følgende kommando:
wget -O / etc / yum. repos. d / BigTop. repo// www. apache. org / dist / BigTop / bigtop-
0. 7. 0 / repos / centos6 / bigtop. repo
Kommandoen er i hovedsak en webforespørsel, som ber om en bestemt fil i nettadressen du kan se og skrive den til en bestemt bane - i dette tilfellet er det /.
Trinn 3: Installere Bigtop
Geniene bak Linux har gjort livet ganske enkelt for folk som trenger å installere store programvarepakker som Hadoop.Det du lastet ned i det siste trinnet, var ikke hele Bigtop-pakken og alle dens avhengigheter. Det var bare en arkivfil (med utvidelsen), som forteller et installasjonsprogram som programvarepakker er nødvendig for Bigtop-installasjonen.
Som et stort programvareprodukt har Hadoop mange forutsetninger, men du trenger ikke å bekymre deg. En velfungerende fil vil peke på eventuelle avhengigheter, og installatøren er smart nok til å se om de mangler på datamaskinen din, og deretter laster ned og installerer dem.
Installatøren du bruker her kalles yum, som du får se i handlingen nå:
Yum install hadoop * mahout * oozie * hbase * hive * nyanse * gris * zookeeper *
Legg merke til at du 're plukke og velge Hadoop komponenter å installere. Det finnes en rekke andre komponenter tilgjengelig i Bigtop, men disse er de eneste du vil bruke her. Siden VM er en ny Linux-installasjon, trenger du mange avhengigheter, så du må vente litt.
Yum installatøren er ganske ordentlig, så du kan se nøyaktig hva som blir lastet ned og installert for å passere tiden. Når installeringsprosessen er ferdig, bør du se en melding som sier "Fullfør! "
Trinn 4: Starte Hadoop
Før du begynner å kjøre programmer på Hadoop, er det noen grunnleggende konfigurasjon og oppsett ting du trenger å gjøre. Her er de i orden:
-
Last ned og installer Java:
yum install java-1. 7. 0-openjdk-devel. x86_64
-
Formater NameNode:
sudo / etc / init. d / hadoop-hdfs-namenode init
-
Start Hadoop-tjenestene for din pseudodistribuerte klynge:
for jeg hadde hadoop-hdfs-namenode hadoop-hdfs-datanode; gjør sudo service $ jeg starter; gjort
-
Lag en underkatalogstruktur i HDFS:
sudo / usr / lib / hadoop / libexec / init-hdfs. sh
-
Start YARN-daemonene:
sudo-tjenesten hadoop-garn-resourcemanager startsudo service hadoop-garn-nodemanager start
Og med det er du ferdig. Gratulerer! Du har installert en fungerende Hadoop-distribusjon!
Trinn 5: Last ned prøvedatasettet
For å laste ned prøvedatasettet åpner du Firefox-nettleseren fra VM, og går til dataexpo-siden.
Du trenger ikke hele datasettet, så start med ett år, 1987. Når du er i ferd med å laste ned, velg alternativet Åpne med Arkivbehandling.
Når filen er lastet ned, trekk filen ut i din hjemmekatalog hvor du enkelt kan finne den. Klikk på Utdrag-knappen, og velg deretter Skrivebordskatalogen.
Trinn 6: Kopiere prøvedatasettet til HDFS
Husk at Hadoop-programmene kun kan fungere med data etter at det er lagret i HDFS. Så hva du skal gjøre nå, er å kopiere flydatafilen for 1987 til HDFS. Skriv inn følgende kommando:
hdfs dfs -copyFromLocal 1987. csv / user / root