Endre Business Intelligence-produkter til å håndtere store data - dummies

Tradisjonelle forretningsinformasjonsprodukter var ikke egentlig designet for å håndtere store data, slik at de kanskje krever noen endringer. De ble designet for å jobbe med svært strukturerte, velforståtte data, ofte lagret i et relasjonsdatabase og vist på skrivebordet eller datamaskinen. Denne tradisjonelle business intelligence-analysen brukes vanligvis på stillbilder av data i stedet for hele mengden data tilgjengelig. Hva er forskjellig med stor dataanalyse?

Stor datadata

Store data består av strukturert, halvstrukturert og ustrukturert data. Du har ofte mye av det, og det kan være ganske komplisert. Når du tenker på å analysere det, må du være oppmerksom på de potensielle egenskapene til dataene dine:

Det kan komme fra usikre kilder. Stor dataanalyse innebærer ofte å aggregere data fra ulike kilder. Disse kan omfatte både interne og eksterne datakilder. Hvor pålitelige er disse eksterne kildene til informasjon? For eksempel, hvor pålitelig er sosiale medier data som en tweet? Informasjonen kan komme fra en ubekreftet kilde. Integriteten til disse dataene må vurderes i analysen.
Det kan være skittent. Skitne data refererer til unøyaktige, ufullstendige eller feilaktige data. Dette kan inkludere feilstaving av ord; en sensor som er ødelagt, ikke riktig kalibrert eller ødelagt på noen måte; eller til og med dupliserte data. Dataforskere diskuterer hvor de skal rense dataene - enten nær kilden eller i sanntid.

Selvfølgelig sier en tankegang at de skitne dataene ikke bør rengjøres i det hele tatt fordi det kan inneholde interessante utjevninger. Rensestrategien vil trolig avhenge av kilden og typen data og målet med analysen. For eksempel, hvis du utvikler et spamfilter, er målet å oppdage de dårlige elementene i dataene, slik at du ikke vil rengjøre det.
Signal / støyforholdet kan være lavt. Med andre ord kan signalet (brukbar informasjon) bare være en liten prosentandel av dataene; støyen er resten. Å være i stand til å trekke ut et lite signal fra støyende data, er en fordel for store dataanalyser, men du må være oppmerksom på at signalet faktisk kan være lite.
Det kan være sanntid. I mange tilfeller prøver du å analysere sanntids datastrømmer.

Stor datastyring skal være en viktig del av analysekvasjonen. Under forretningsanalyser må forbedringer gjøres for styringsløsninger for å sikre sannheten som kommer fra de nye datakildene, særlig fordi de kombineres med eksisterende pålitelige data lagret i et lager.Datasikkerhet og personvernløsninger må også forbedres for å støtte styring / styring av store data lagret i ny teknologi.

Analytiske store datalgoritmer

Når du vurderer stor dataanalyse, må du være klar over at når du strekker seg utover skrivebordet, må algoritmene du bruker ofte bli refactored, endre intern kode uten å påvirke ekstern funksjon. Skjønnheten i en stor datainfrastruktur er at du kan kjøre en modell som pleide å ta timer eller dager i minutter.

Dette lar deg gjenta på modellen hundrevis av ganger over. Hvis du imidlertid kjører en regresjon på en milliard rader med data over et distribuert miljø, må du vurdere ressursbehovene knyttet til volumet av data og dets plassering i klyngen. Dine algoritmer må være databevisste.

I tillegg begynner leverandørene å tilby nye analyser designet for å bli plassert nær de store datakilder for å analysere data på plass. Denne tilnærmingen med å kjøre analytikk nært til datakildene, minimerer mengden lagrede data ved bare å beholde dataene med høy verdi. Det gjør det også mulig å analysere dataene før, noe som er kritisk for beslutningstaking i sanntid.

Selvfølgelig vil analysene fortsette å utvikle seg. For eksempel kan det hende du trenger real-time visualiseringsfunksjoner for å vise sanntidsdata som kontinuerlig endres. Hvordan plotter du praktisk talt en milliard poeng på en grafplot? Eller, hvordan jobber du med de prediktive algoritmer slik at de utfører raskt nok og dyp nok analyse for å utnytte et stadig voksende, komplekst datasett? Dette er et område med aktiv forskning.

Støtte for stor datainfrastruktur

Det er nok å si at hvis du leter etter en plattform, må den oppnå følgende:

Integrere teknologier: Infrastrukturen trenger å integrere nye store datateknologier med tradisjonell teknologi for å kunne behandle alle slags store data og gjøre det forbrukbart av tradisjonelle analyser.
Lag store mengder forskjellig data: Det kan være nødvendig med et bedriftsherdet Hadoop-system som kan behandle / lagre / administrere store mengder data i ro, enten det er strukturert, halvstrukturert eller ustrukturert.
Prosessdata i bevegelse: Det kan være nødvendig med en strømkompatibilitet for å behandle data i bevegelse som kontinuerlig genereres av sensorer, smarte enheter, video, lyd og logger for å støtte beslutningstaking i sanntid.
Lagerdata: Det kan hende du trenger en løsning optimalisert for operasjonelle eller dype analytiske arbeidsbelastninger for å lagre og administrere de voksende mengdene pålitelige data.

Og selvfølgelig trenger du muligheten til å integrere dataene du allerede har på plass sammen med resultatene av den store dataanalysen.