Video: Top 25 Excel 2016 Tips and Tricks 2025
En rekke selskaper investerer tungt for å drive åpne kildeprosjekter og proprietære løsninger for SQL-tilgang til Hadoop-data. Når du hører begrepet SQL-tilgang, , bør du vite at du stoler på noen få grunnleggende forutsetninger:
-
Språkstandarder: Den viktigste standarden innebærer selvfølgelig selve språket. Mange "SQL-lignende" løsninger eksisterer, selv om de vanligvis ikke måler seg på bestemte grunnleggende måter - måter som ville hindre at selv typiske SQL-setninger virker.
Det amerikanske National Standards Institute (ANSI) etablerte SQL som en offisiell teknisk standard, og IT-bransjen godtar ANSI SQL-92-standarden som representerer referansen for grunnleggende SQL-compliance. ANSI har gitt ut en rekke gradvis mer avanserte versjoner gjennom årene som databaseteknologier har utviklet seg.
-
Drivere: En annen nøkkelkomponent i en SQL-tilgangsløsning er driver - grensesnittet for applikasjoner for å koble til og bytte data med datalageret. Uten en driver er det ikke noe SQL-grensesnitt for noen klientprogrammer eller verktøy for å koble til for innsending av SQL-spørringer.
Som sådan, må noen SQL på Hadoop-løsning i hvert fall ha JDBC- og ODBC-drivere, fordi de er de mest brukte databasegrensene.
-
Real-time tilgang: Inntil Hadoop 2, MapReduce-basert utførelse var det eneste tilgjengelige alternativet for analyse mot data lagret i Hadoop. For relativt enkle spørsmål som involverte en fullstendig skanning av data i et bord, var Hadoop ganske rask i forhold til en tradisjonell relasjonsdatabase.
Husk at dette er en batchanalysebruk, hvor rask kan bety timer, avhengig av hvor mye data er involvert. Men når det gjaldt mer komplekse søk, involverte delsett av data, gjorde Hadoop det ikke bra. MapReduce er et batchbehandlingsramme, slik at du oppnår høy ytelse for sanntidsforespørsler før Hadoop 2 var arkitektonisk umulig.
En tidlig motivator for YARN, det nye ressurshåndterings- og planleggingssystemet på blokken, var dette behovet for å støtte andre prosessrammer for å aktivere sanntidssikkerhetsbelastninger, for eksempel interaktive SQL-spørringer. Faktisk bør en riktig SQL-løsning ikke la folk vente på rimelige spørsmål.
-
Gjensidig data: Et vanlig spørsmål i mange diskusjoner om SQL-støtte på Hadoop er "Kan vi bruke, og uttalelser som vi ville kunne gjøre i en typisk relasjonsdatabase? "For nå er svaret nei, noe som gjenspeiler HDFS - det er fokusert på store, uforanderlige filer.Teknologier som Hive tilbyr skrivebeskyttet tilgang til disse filene. Uansett er det pågående arbeid i Hive Apache-prosjektet.
