Video: Apache Sqoop Tutorial | Sqoop: Import & Export Data From MySQL To HDFS | Hadoop Training | Edureka 2025
Klar til å dykke inn i å importere data med Sqoop? Start med å se på figuren, som illustrerer trinnene i en typisk Sqoop-importoperasjon fra et RDBMS eller et datalagringssystem. Ingenting er for komplisert her - bare en typisk produktdatatabell fra et (typisk) fiktivt selskap som importeres til en typisk Apache Hadoop-klynge fra et typisk datahåndteringssystem (DMS).
I trinn 1 bruker Sqoop riktig kontakt for å hente produkttabellmetadataene fra måldisplayet. (Metadataene brukes til å kartlegge datatyper fra produkttabellen til datatyper på Java-språket.)
Trinn 2 bruker deretter disse metadataene til å generere og kompilere en Java-klasse som skal brukes av en eller flere kartoppgaver til importer de faktiske radene fra produkttabellen. Sqoop lagrer den genererte Java-klassen til temprommet eller til en katalog du angir, slik at du kan utnytte den til senere behandling av datapostene dine.
Den Sqoop genererte Java-koden som er lagret for deg, er som gaven som fortsetter å gi! Med denne koden importerer Sqoop-import fra DMS og lagrer dem til HDFS ved hjelp av ett av tre formater som du kan velge: binære Avro-data, binære sekvensfiler eller avgrensede tekstfiler. Etterpå er denne koden tilgjengelig for senere databehandling.
Sekvensfiler er et naturlig valg hvis du importerer binære datatyper, og du trenger den genererte Java-klassen for å serialisere og deserialisere dataene dine senere - kanskje for MapReduce-prosessering eller eksport. Avro-data - basert på Apaches eget serialiseringsramme - er nyttig hvis du trenger å samhandle med andre programmer etter importen til HDFS.
Hvis du velger å lagre importerte data i avgrenset tekstformat, kan du finne den genererte Java-koden verdifull senere når du analyserer og utfører dataformatkonverteringer på de nye dataene. Du ser at den genererte koden også hjelper deg med å slå sammen datasett etter Sqoop-importoperasjoner, og den genererte Java-koden kan bidra til å unngå tvetydighet når du behandler avgrensede tekstdata.
Til slutt deler Sqoop dataoppføringene i produkttabellen over en rekke kartoppgaver (med antall mappere som er spesifisert av brukeren) og importerer tabelldataene til HDFS, Hive eller HBase.
