Video: Recommender Systems 2025
Stor dataanalyse har fått mye sprøytebruk nylig, og med god grunn. Du må kjenne egenskapene til stor dataanalyse hvis du vil være en del av denne bevegelsen. Bedrifter vet at noe er der ute, men inntil nylig har ikke vært i stand til å minde det. Dette skaper konvolutten på analyse er et spennende aspekt av den store dataanalysebevegelsen.
Bedrifter er glade for å kunne få tilgang til og analysere data som de har samlet inn eller ønsker å få innsikt fra, men har ikke klart å håndtere eller analysere effektivt. Det kan innebære å visualisere store mengder forskjellig data, eller det kan innebære avansert analysert streaming på deg i sanntid. Det er evolusjonerende i noen henseender og revolusjonerende i andre.
Så, hva er forskjellig når firmaet skyver konvolutten med stor dataanalyse? Infrastrukturen som støtter stor dataanalyse er forskjellig og algoritmer har blitt endret for å være infrastrukturbevisst.
Stor dataanalyse bør ses fra to perspektiver:
-
Beslutningsrettet
-
Handlingsorientert
Beslutningssentrisk analyse er mer lik tradisjonell forretningsinformasjon. Se på selektive delsett og representasjoner av større datakilder, og prøv å bruke resultatene til prosessen med å gjøre forretningsbeslutninger. Sikkert disse vedtakene kan føre til en eller annen form for handling eller prosessendring, men formålet med analysen er å øke beslutningen.
Handlingsorientert analyse brukes til rask respons, når et mønster kommer frem eller det oppdages spesifikke typer data, og handling er nødvendig. Å dra nytte av store data gjennom analyse og forårsaker proaktive eller reaktive atferdsendringer gir stort potensial for tidlige adoptere.
Finne og bruke store data ved å lage analyseprogrammer kan holde nøkkelen til å trekke ut verdien snarere snarere enn senere. For å oppnå denne oppgaven er det mer effektivt å bygge disse tilpassede applikasjonene fra bunnen av eller ved å utnytte plattformer og / eller komponenter.
Se først på noen av de ekstra egenskapene ved stor dataanalyse som gjør det forskjellig fra tradisjonelle analyser bortsett fra de tre Vs volum, hastighet og variasjon:
-
Det kan være programmatisk. En av de største endringene i analysen er at du tidligere hadde å gjøre med datasett du manuelt kunne laste inn i et program og utforske. Med stor dataanalyse kan du bli utsatt for en situasjon hvor du kanskje begynner med rå data som ofte må håndteres programmatisk for å utføre noen undersøkelser på grunn av datalengden.
-
Det kan være datastyrt. Mens mange datavitenskapere bruker en hypotesebasert tilnærming til dataanalyse (utvikle en premiss og samle inn data for å se om denne premissen er riktig), kan du også bruke dataene til å kjøre analysen - spesielt hvis du har samlet store mengder av det. For eksempel kan du bruke en maskinlæringsalgoritme til å gjøre denne typen hypotesefri analyse.
-
Det kan bruke mange attributter. Tidligere har du kanskje hatt å gjøre med hundrevis av attributter eller egenskaper til datakilden. Nå kan du håndtere hundrevis av gigabyte data som består av tusenvis av attributter og millioner av observasjoner. Alt skjer nå i større målestokk.
-
Det kan være iterativt. Mer beregne kraft betyr at du kan iterere på modellene dine til du får dem hvordan du vil ha dem. Her er et eksempel. Anta at du bygger en modell som prøver å finne prediktorer for bestemte kundeoppføringer som er tilknyttet. Du kan begynne å trekke ut et rimelig utvalg av data eller koble til hvor dataene ligger. Du kan bygge en modell for å teste en hypotese.
Mens du tidligere ikke har hatt så mye minne for å få modellen til å fungere effektivt, vil du trenge en enorm mengde fysisk minne for å gå gjennom de nødvendige iterasjonene som kreves for å trene algoritmen. Det kan også være nødvendig å bruke avanserte datateknikker som naturlig språkbehandling eller nevrale nettverk som automatisk utvikler modellen basert på læring, ettersom flere data er lagt til.
-
Det kan være raskt for å få beregne syklusene du trenger ved å utnytte en skybasert infrastruktur som en tjeneste. Med Infrastructure as a Service (IaaS) plattformer som Amazon Cloud Services (ACS), kan du raskt tilby en gruppe maskiner for å innta store datasett og analysere dem raskt.
