Kjører Statistiske Modeller i Hadops MapReduce - dummies

Video: IT Chapter Two 2025

Konvertering av statistiske modeller for å kjøre parallelt er en utfordrende oppgave. I det tradisjonelle paradigmet for parallell programmering er minnetilgang regulert ved bruk av tråder - delprosesser laget av operativsystemet for å distribuere et enkelt delt minne over flere prosessorer.

Faktorer som løpevilkår mellom konkurrerende tråder - når to eller flere tråder prøver å endre felles data samtidig - kan påvirke ytelsen til algoritmen din, samt påvirke presisjonen av de statistiske resultatene dine programutganger - spesielt for langsiktige analyser av store prøvesett.

En pragmatisk tilnærming til dette problemet er å anta at ikke mange statistikere vil kjenne inn og ut av MapReduce (og vice versa), og du kan heller ikke forvente at de skal være oppmerksomme på alle fallgruvene at parallell programmering innebærer. Bidragsytere til Hadoop-prosjektet har (og fortsetter å utvikle) statistiske verktøy med disse realitetene i tankene.

Resultatet: Hadoop tilbyr mange løsninger for implementering av algoritmene som kreves for å utføre statistisk modellering og analyse uten å overbelaste statistikeren med nyanserte parallelle programmeringshensyn.