Innholdsfortegnelse:
- ved siden av intervallet og medianen. Disse kvartilene er henholdsvis 25 prosent og 75 prosent kvantiler, som er tallene for hvilke en fjerdedel og tre fjerdedeler av dataene er mindre. Du får disse tallene ved hjelp av quantile () -funksjonen, slik:
Video: Game Theory: Why You CAN'T Beat Super Smash Bros Ultimate! 2024
Et enkelt nummer forteller deg ikke mye om dataene dine. Ofte er det like viktig å vite spredningen av dataene dine. Du kan bruke R for å se på dette spredningen ved hjelp av en rekke forskjellige tilnærminger.
Først kan du beregne enten variansen eller standardavviket for å oppsummere spredningen i et enkelt nummer. For det har du de praktiske funksjonene var () for variansen og sd () for standardavviket. For eksempel beregner du standardavviket for variabelen mpg i datarammebilene slik:
quantile,
eller percentile, forteller deg hvor mye av dataene dine ligger under en viss verdi. Den 50 prosentkvantilen, for eksempel, er ingenting annet enn medianen. Igjen, R har noen praktiske funksjoner for å hjelpe deg med å se på kvantiene. Slik beregner du dataserioden i R De mest brukte kvantiliene er faktisk 0 prosent og 100 prosent kvantiler. Du kan like lett ringe dem minimum og maksimum, fordi det er hva de er. Du kan få både min () og max () funksjoner sammen med rekkevidde () -funksjonen. Denne funksjonen gir deg praktisk rekkevidde av dataene. Så, for å vite mellom hvilke to verdier alle kilometerene ligger, gjør du bare følgende:
>> rekkevidde (biler $ mpg) [1] 10. 4 33. 9
Slik beregner du datakvartiler i R
Området gir deg bare begrenset informasjon. Ofte rapporterer statistikere det første og det tredjekvartilet
ved siden av intervallet og medianen. Disse kvartilene er henholdsvis 25 prosent og 75 prosent kvantiler, som er tallene for hvilke en fjerdedel og tre fjerdedeler av dataene er mindre. Du får disse tallene ved hjelp av quantile () -funksjonen, slik:
Standardverdien for prob-argumentet er en vektor som representerer minimumet (0), den første kvartilen (0. 25), medianen (0. 5), den tredje kvartil (0,75) og maksimum (1).
Alle disse funksjonene har et argument. rm som lar deg fjerne alle NA-verdier før du beregner den respektive statistikken. Hvis du ikke gjør dette, vil enhver vektor som inneholder NA ha NA som et resultat. Dette fungerer identisk med na. rm argument av summen () -funksjonen.