Video: Hadoop vs Spark | Which One to Choose? | Hadoop Training | Spark Training | Edureka 2025
For å lage en lang historie kort gir Hive Hadoop en bro til RDBMS verden og gir en SQL-dialekt kjent som Hive Query Language (HiveQL), som kan brukes til å utføre SQL-lignende oppgaver. Det er de store nyhetene, men det er mer å Hive enn å møte øynene, som de sier, eller flere applikasjoner av denne nye teknologien enn du kan presentere i en standard heishøyde.
Hive gjør det mulig for eksempel konseptet EDW (Enterprise Data Warehouse), en ledende brukstilfelle for Apache Hadoop, der data warehouses er satt opp som RDBMSer, bygget spesielt for dataanalyse og rapportering.
tillegg til virksomheten, og at den kan augment og utfylle eksisterende EDWer. Hive, HBase og Sqoop muliggjør EDW augmentation. Nært forbundet med RDBMS / EDW-teknologi er ekstrakt, transformasjon og belastning (ETL) teknologi. For å forstå hva ETL gjør, hjelper det å vite at data i mange bruksfaser ikke umiddelbart kan lastes inn i relasjonsdatabasen - det må først hentes fra sin opprinnelige kilde, omformes til et passende format og deretter lastes inn i RDBMS eller EDW.Et firma eller en organisasjon kan for eksempel trekke ut ustrukturert tekstdata fra et Internettforum, forvandle dataene til et strukturert format som er både verdifullt og nyttig, og laster deretter de strukturerte dataene inn i EDW.
Du kan se at Hive er et kraftig ETL-verktøy i sin egen rett, sammen med den store spilleren i dette rike: Apache Pig. Igjen kan brukere prøve å sette opp Hive and Pig somde
nye ETL-verktøyene for datasenteret. (La dem prøve.)
s for eksisterende ETL-verktøy, men i stedet er kraftige nye ETL-verktøy å være brukes når det er hensiktsmessig. Sist men ikke minst, gir Apache Hive deg kraftige analytiske verktøy, alt innenfor rammen av HiveQL. Disse verktøyene bør se og føle seg godt kjent for IT-fagfolk som forstår hvordan man bruker SQL.
