Video: Intro til CrashPlan 2025
Når du jobber med stor datastatistikk, identifiserer du spredningen av et datasett fra sentrum med flere forskjellige sammendragsforanstaltninger: varians, standard avvik, kvartiler, interkvartilstand (IQR).
Varians er den gjennomsnittlige kvadratiske avviket mellom elementene i datasettet og gjennomsnittet. For et utvalg av data beregnes variansen slik:
hvor
-
x i er verdien av et enkelt element i prøven.
-
er prøven gjennomsnittlig.
-
n er prøvestørrelsen.
Standardavviket er kvadratroten av variansen. For de fleste applikasjoner er standardavviket mer praktisk å bruke enn variansen som et mål for spredning. Det er fordi variansen måles i kvadrert enheter, mens standardavviket måles i de samme enhetene som dataene. For eksempel vil variansen av et datasett bestående av priser bli målt i dollar kvadrat, og standardavviket vil bli målt i dollar. Standardavvik er det mest brukte målet for spredningen i et datasett.
Quartiles deler et datasett i fire like deler. Det første kvartilet (Q 1 ) deler dataene inn i de laveste 25 prosent av observasjonene og de høyeste 75 prosentene (25 prosent av observasjonene er mindre enn Q 1 < og 75 prosent er større enn Q 1 ). Det andre kvartilet (Q 2 ) deler dataene inn i de laveste 50 prosent av observasjonene og høyest 50 prosent. Det tredje kvartilet (Q 3 ) deler dataene inn i de laveste 75 prosent av observasjonene og høyest 25 prosent. Interkvartilstanden (IQR) er lik forskjellen mellom den tredje og den første kvartilen:
Kvartilene i et datasett er best illustrert med en
boksplot. Følgende figur viser et boksplott av daglige avkastninger til ExxonMobil i 2013. Boksplot av daglig retur til ExxonMobil lager i 2013.
utelaterte
som enkelte punkter). Q 1 er vist som bunnen av boksen, Q 2 er den solide sorte linjen midt i boksen, og Q 3 er toppen av boksen. Maksimal avkastning vises som et enkelt punkt øverst på plottet.
