Administrere Big Data Technologies i en Hybrid Cloud-dummies

Begrepet store data brukes ofte i verden av hybrid cloud-teknologi på grunn av det pågående behovet for å behandle økende mengder data. Det viktigste faktumet om store data er at den eksisterer på tipping point av de løsninger som organisasjoner har historisk satt på plass for å håndtere store mengder komplekse data. Stor datateknologi gjør at folk faktisk kan analysere og utnytte disse dataene effektivt.

Volum:

Store data er store i volum. Det refererer generelt til minst flere terabyte data. Mange store dataimplementeringer ser ut til å analysere petabytes av informasjon.

navn Verdi

Byte	10
0	Giga ¹⁰
9	byte ^Terabyte 10
12 > bytes	petabyte ¹⁰ 15
byte	Exabyte ¹⁰ 18
bytes	^Variety: Store data kommer i forskjellige former og størrelser. Den inneholder disse typer data:

Strukturerte data

er den typiske typen data som analytikere brukes til å håndtere. Det inkluderer inntekter og antall salg - typen data du tenker på, inkludert i en database. Strukturerte data blir også produsert på nye måter i produkter som sensorer og RFID-koder.
- Semistrukturerte data har noen struktur til det, men ikke slik du tenker på tabeller i en database. Den inneholder EDI-formater og XML.
  Ustrukturerte data
- inkluderer tekst, bilde og lyd, inkludert alle dokumenter, e-postmeldinger, tweet eller blogger internt til et firma eller på Internett. Ustrukturerte data utgjør ca. 80 prosent av alle dataene. Hastighet:
- Dette er hastigheten som dataene beveger seg på. Tenk på sensorer som fanger data hver millisekund eller datastrømmer utgang fra medisinsk utstyr. Store data kommer ofte til deg i en strøm, så det har en sanntids natur knyttet til den. Skyen er et ideelt sted for store data på grunn av sin skalerbare lagring, beregningskraft og elastiske ressurser. Sky-modellen er storskala; distribuert databehandling og en rekke rammer og teknologier har kommet fram for å støtte denne modellen, inkludert
Apache Hadoop: En distribuert dataplattform distribuert i Java. Det er et programvarebibliotek som gjør det mulig å distribuere behandling på tvers av datamaskiner. Det er virkelig et distribuert filsystem. Det oppretter et datapool, hver med et Hadoop-filsystem. Hadoop ble designet for å håndtere store mengder komplekse data.Dataene kan struktureres, ustrukturert eller semistruktureres. Hadoop kan kjøre over mange servere som ikke deler minne eller disk. Se Hadoop for mer informasjon.

MapReduce:

En programvareramme introdusert av Google for å støtte distribuert databehandling på store datamengder. Det er kjernen til hva Hadoop gjør med store data og store dataanalyser. Den er designet for å utnytte skyens ressurser. Denne beregningen gjøres på tvers av mange datamaskiner, kalt klynger
, og hver klynge refereres til som en knutepunkt. MapReduce kan håndtere både strukturerte og ustrukturerte data. Brukere angir en kartfunksjon som behandler et nøkkel / verdi-par for å generere et sett mellomliggende par og en reduksjonsfunksjon som fusjonerer disse parene. Store databaser En viktig appell fra Hadoop er at den kan håndtere ulike typer data. Parallelle databasebehandlingssystemer har vært på markedet i flere tiår. De kan støtte parallell kjøring fordi de fleste av tabellene er partisjonert over noder i en klynge, og de kan oversette SQL-kommandoer til en plan som er delt over nodene i klyngen. Imidlertid handler de mest om strukturert data fordi det er vanskelig å passe ustrukturert, freeform-data inn i kolonnene og radene i en relasjonsmodell. Hadoop har startet en bevegelse i det som er kalt NoSQL,

som betyr ikke bare SQL. Begrepet refererer til et sett med teknologier som er forskjellig fra relasjonelle databasesystemer. En stor forskjell er at de ikke bruker SQL. De er også designet for distribuerte datalager.

NoSQL betyr ikke at folk ikke skal bruke SQL. Snarere er ideen at, avhengig av hva problemet ditt er, kan relasjonsdatabaser og NoSQL-databaser sameksistere i en organisasjon. Det finnes mange eksempler på slike databaser, inkludert følgende:

Apache Cassandra: Et åpen kildekode distribuert datahåndteringssystem opprinnelig utviklet av Facebook. Det har ingen strenge strukturkrav, så det kan håndtere alle forskjellige typer data. Eksperter hevder at det utmerker seg ved høyvolum, sanntids transaksjonsbehandling. Andre open source databaser inkluderer MongoDB, Apache CouchDB og Apache HBase. Amazon Simple DB:

Amazon likner denne databasen til et regneark fordi den har kolonner og rader med attributter og elementer lagret i hver. I motsetning til et regneark kan hver celle imidlertid ha flere verdier, og hvert element kan ha sitt eget sett med tilknyttede attributter. Amazon indekserer deretter dataene automatisk. For nylig annonserte Amazon Amazon Dynamo DB som en måte å bringe store data NoSQL til skyen.

Google BigTable: Denne hybrid er som et stort bord. Fordi tabellene kan være store, deles de på radgrenser til tabeller, som kan være hundrevis av megabyte eller så. MapReduce brukes ofte til å generere og modifisere data lagret i BigTable.