Video: Statistical Programming with R by Connor Harris 2025
Årsaken folk prøver deres data før de kjører statistisk analyse i Hadoop er at denne typen analyse ofte krever betydelige databehandling ressurser. Dette handler ikke bare om datamengder: det er fem hovedfaktorer som påvirker omfanget av statistisk analyse:
-
Dette er enkelt, men vi må nevne det: volumet av dataene som du skal utføre analysen bestemmer definitivt omfanget av analysen.
-
Antallet transformasjoner som trengs på datasettet før man bruker statistiske modeller, er definitivt en faktor.
-
Antallet parvise sammenhenger du må beregne spiller en rolle.
-
Graden av kompleksitet i de statistiske beregningene som skal brukes, er en faktor.
-
Antall statistiske modeller som skal brukes på datasettet spiller en viktig rolle.
På den måten kan den vende den analytiske datastrømmen; i stedet for å flytte dataene fra depotet til analyseserveren, leverte Hadoop analytics direkte til dataene. Mer spesifikt lar HDFS deg lagre fjellene dine med data og deretter ta med beregningen (i form av MapReduce-oppgaver) til slave noder.
I Hadoop kopierer HDFS partisjoner av data på tvers av flere noder og maskiner. Også statistiske algoritmer som ble utviklet for behandling av data i minnet, må nå tilpasse seg datasett som spenner over flere noder / stativer og ikke kunne håpe å passe i en enkelt blokk i minnet.
