Video: Databases & Data Warehouses, Data: Structures, Types, Integrations 2025
HBase er en distribuert, ikke-relasjonell (kolonnebasert) database som benytter HDFS som sin persistensbutikk for store dataprosjekter. Den er modellert etter Google BigTable, og er i stand til å være vert for store tabeller (milliarder kolonner / rader) fordi den er lagdelt på Hadoop-klynger av råvarehardware.
HBase gir tilfeldig, sanntids lese / skrive tilgang til store data. HBase er svært konfigurerbar, og gir stor fleksibilitet for å håndtere store mengder data effektivt. Ta en titt på hvordan HBase kan hjelpe deg med å løse dine store datautfordringer.
HBase er en kolonne database, slik at alle data lagres i tabeller med rader og kolonner som ligner relasjonsdatabasebehandlingssystemer (RDBMSs). Krysset mellom en rad og en kolonne kalles en celle. En viktig forskjell mellom HBase-tabeller og RDBMS-tabeller er versjonering.
Hver celleverdi inneholder en "versjon" -attributt, noe som ikke er noe mer enn en tidsstempel som unikt identifiserer cellen. Versjonering av spor endrer seg i cellen og gjør det mulig å hente hvilken som helst versjon av innholdet dersom det blir nødvendig. HBase lagrer dataene i celler i avtagende rekkefølge (ved hjelp av tidsstempel), så en lese vil alltid finne de nyeste verdiene først.
Kolonner i HBase tilhører en kolonnefamilie. Kolonnens familienavn brukes som prefiks for å identifisere medlemmer av sin familie. For eksempel, frukt: eple og frukt: banan er medlemmer av fruktkolonnefamilien. HBase-implementeringer er innstilt på kolonnefamilienivå, så det er viktig å være oppmerksom på hvordan du skal få tilgang til dataene og hvor stor du forventer at kolonnene skal være.
Röene i HBase-tabellene har også en nøkkel knyttet til dem. Konstruksjonen av nøkkelen er veldig fleksibel. Det kan være en beregnet verdi, en streng eller en annen datastruktur. Nøkkelen brukes til å kontrollere tilgangen til cellene i raden, og de lagres i rekkefølge fra lav verdi til høy verdi.
Alle disse funksjonene sammen utgjør skjemaet. Skjemaet er definert og opprettet før data kan lagres. Likevel kan tabeller endres og nye kolonnefamilier kan legges til etter at databasen er oppe. Denne utvidbarheten er ekstremt nyttig når det gjelder store data fordi du ikke alltid vet om variasjonen av datastrømmene dine.
