Hvor mye spredning er det i dataene? - dummies

Video: Intro til CrashPlan 2025

Når du jobber med stor datastatistikk, identifiserer du spredningen av et datasett fra sentrum med flere forskjellige sammendragsforanstaltninger: varians, standard avvik, kvartiler, interkvartilstand (IQR).

Varians er den gjennomsnittlige kvadratiske avviket mellom elementene i datasettet og gjennomsnittet. For et utvalg av data beregnes variansen slik:

hvor

x _i er verdien av et enkelt element i prøven.
er prøven gjennomsnittlig.
n er prøvestørrelsen.

Standardavviket er kvadratroten av variansen. For de fleste applikasjoner er standardavviket mer praktisk å bruke enn variansen som et mål for spredning. Det er fordi variansen måles i kvadrert enheter, mens standardavviket måles i de samme enhetene som dataene. For eksempel vil variansen av et datasett bestående av priser bli målt i dollar kvadrat, og standardavviket vil bli målt i dollar. Standardavvik er det mest brukte målet for spredningen i et datasett.

Quartiles deler et datasett i fire like deler. Det første kvartilet (Q ₁ ) deler dataene inn i de laveste 25 prosent av observasjonene og de høyeste 75 prosentene (25 prosent av observasjonene er mindre enn Q _{1 < og 75 prosent er} større enn Q 1 _{). Det andre kvartilet (Q} 2 _{) deler dataene inn i de laveste 50 prosent av observasjonene og høyest 50 prosent. Det tredje kvartilet (Q} 3 _{) deler dataene inn i de laveste 75 prosent av observasjonene og høyest 25 prosent. Interkvartilstanden (IQR) er lik forskjellen mellom den tredje og den første kvartilen:}

IQR representerer de midterste 50 prosent av dataene.

Kvartilene i et datasett er best illustrert med en

boksplot. Følgende figur viser et boksplott av daglige avkastninger til ExxonMobil i 2013. Boksplot av daglig retur til ExxonMobil lager i 2013.

Boksplottet viser flere nøkkelstatistikker for ExxonMobil-avkastningen: > Minimumsavkastningen er vist på en graf som et enkeltpunkt nederst i plottet (en boksplott viser

utelaterte

som enkelte punkter). Q 1 er vist som bunnen av boksen, Q ₂ er den solide sorte linjen midt i boksen, og Q ₃ er toppen av boksen. Maksimal avkastning vises som et enkelt punkt øverst på plottet.