Video: Week 9 2024
Apache Hive er utvilsomt det mest utbredte datasøkegrensesnittet i Hadoop-fellesskapet. Opprinnelig var designmålene for Hive ikke for full SQL-kompatibilitet og høy ytelse, men skulle gi et enkelt, noe kjent grensesnitt for utviklere som måtte utføre batchforespørsler mot Hadoop.
Denne snarere piecemeal tilnærmingen virker ikke lenger, slik at etterspørselen vokser for ekte SQL-støtte og god ytelse. Hortonworks reagerte på denne etterspørselen ved å skape Stinger-prosjektet, der det investerte sine utviklingsressurser for å forbedre Hive for å være raskere, å skalere på petabyte nivå, og være mer kompatibelt med SQL-standarder. Dette arbeidet skulle leveres i tre faser.
I fase 1 og 2 så du en rekke optimaliseringer for hvordan forespørsler ble behandlet, samt tilleggsstøtte for tradisjonelle SQL-datatyper; tillegg av ORCFile-formatet for effektivisering av prosessering og lagring; og integrasjon med YARN for bedre ytelse.
I fase 3 finner de virkelig viktige utviklingen sted, noe som avkaller Hive fra MapReduce. Spesielt involverer det utgivelsen av Apache Tez, som er en alternativ behandlingsmodell for Hadoop, designet for interaktive arbeidsbelastninger.
I tillegg til Stinger-prosjektet, spretter Hortonworks et ambisiøst initiativ for at Hive kan støtte redigeringsdata på radnivå med full overensstemmelse med ACID-egenskapene for databasesystemer: Atomicity, Consistency, Isolation levels, og holdbarhet.