Video: Frykt som ressurs og begrensning 2025
Statistisk analyse er langt fra å være et nytt barn i blokken, og det er sikkert gamle nyheter at det avhenger av behandling av store mengder data for å få ny innsikt. Imidlertid er mengden data som tradisjonelt behandles av disse systemene i området mellom 10 og 100 (eller hundrevis av) gigabyte - ikke terabyte- eller petabyte-områdene sett i dag, med andre ord.
Og det kreves ofte en dyr symmetrisk multi-prosessering (SMP) maskin med så mye minne som mulig for å holde dataene som ble analysert. Det er fordi mange av de algoritmer som ble brukt av de analytiske tilnærmingene, var ganske "beregne intensiv" og var designet for å løpe i minnet - da de krever flere, og ofte hyppige, passerer gjennom dataene.
Forhåndsinnstilt med dyr maskinvare og en ganske høy forpliktelse når det gjelder tid og RAM, prøvde folk å gjøre analysenes arbeidsbelastning litt mer rimelig ved å analysere bare et utvalg av dataene. Tanken var å holde fjellene på databerget trygt stanset i datalagring, bare å flytte en statistisk signifikant sampling av dataene fra deres repositorier til en statistisk motor.
Selv om prøvetaking er en god ide i teorien, er dette i praksis ofte en upålitelig taktikk. Å finne en statistisk signifikant prøvetaking kan være utfordrende for sparsomme og / eller skjeve datasett, som er ganske vanlig. Dette fører til dårlig dømt samplings, som kan introdusere avvikende og uregelmessige datapunkter, og kan i sin tur forstyrre resultatene av analysen din.
