Mine store data med Hive-dummies

Video: How Does a Quantum Computer Work? 2025

Hive er et batch-orientert, datalagringslag laget på kjerneelementene til Hadoop (HDFS og MapReduce) og er veldig nyttig i store data. Det gir brukere som kjenner SQL med en enkel SQL-lite implementering kalt HiveQL uten å ofre tilgang via mappere og reduksjonsverktøy. Med Hive kan du få det beste fra begge verdener: SQL-like tilgang til strukturert data og sofistikert stor dataanalyse med MapReduce.

I motsetning til de fleste datavarehusene, er Hive ikke designet for raske svar på spørsmål. Faktisk kan spørringer ta flere minutter eller til og med timer, avhengig av kompleksiteten. Som et resultat er Hive best brukt til data mining og dypere analyser som ikke krever sanntidsadferd. Fordi det er avhengig av Hadoop-fundamentet, er det meget utvidbart, skalerbart og elastisk, noe som det gjennomsnittlige datalagret ikke er.

Hive bruker tre mekanismer for dataanalyse:

Tabeller: Hive-tabeller er de samme som RDBMS-tabeller som består av rader og kolonner. Fordi Hive er lagret på Hadoop HDFS, blir tabellene kartlagt til kataloger i filsystemet. I tillegg støtter Hive tabeller lagret i andre native filsystemer.
Partisjoner: Et Hive-bord kan støtte en eller flere partisjoner. Disse partisjonene er kartlagt til underkataloger i det underliggende filsystemet og representerer fordelingen av data i hele tabellen. For eksempel, hvis en tabell kalles autos, med en nøkkelverdi på 12345 og en produsentverdi Ford, , vil banen til partisjonen være / hivewh / biler / kv = 12345 / Ford.
Skuffer: Dataene kan i sin tur deles i skuffer. Skuffer lagres som filer i partisjonskatalogen i det underliggende filsystemet. Spannene er basert på hash av en kolonne i bordet. I det forrige eksempelet kan du ha en bøtte som heter Focus, som inneholder alle egenskapene til en Ford Focus-bil.

Hive-metadata lagres eksternt i "metastoren". "Metastoren er en relasjonsdatabase som inneholder detaljerte beskrivelser av Hive-skjemaet, inkludert kolonne typer, eiere, nøkkel- og verdidata, tabellstatistikk og så videre. Metastoren er i stand til å synkronisere katalogdata med andre metadatatjenester i Hadoop økosystemet.

Hive støtter et SQL-lignende språk som heter HiveQL. HiveQL støtter mange av SQL primitives, for eksempel velg, delta, aggregat, union alle, og så videre. Den støtter også flerversomme spørringer og innlegg ved å dele inndataene i en enkelt HiveQL-setning. HiveQL kan utvides til å støtte brukerdefinert aggregering, kolonnetransformasjon og innebygde MapReduce-skript.