Hvordan beskrives variasjonen av data i R-dummies

Video: Game Theory: Why You CAN'T Beat Super Smash Bros Ultimate! 2024

Et enkelt nummer forteller deg ikke mye om dataene dine. Ofte er det like viktig å vite spredningen av dataene dine. Du kan bruke R for å se på dette spredningen ved hjelp av en rekke forskjellige tilnærminger.

Først kan du beregne enten variansen eller standardavviket for å oppsummere spredningen i et enkelt nummer. For det har du de praktiske funksjonene var () for variansen og sd () for standardavviket. For eksempel beregner du standardavviket for variabelen mpg i datarammebilene slik:

>> sd (biler $ mpg) [1] 6. 026948

Ved siden av middel og variasjon kan du også se på kvantiene. A

quantile,

eller percentile, forteller deg hvor mye av dataene dine ligger under en viss verdi. Den 50 prosentkvantilen, for eksempel, er ingenting annet enn medianen. Igjen, R har noen praktiske funksjoner for å hjelpe deg med å se på kvantiene. Slik beregner du dataserioden i R De mest brukte kvantiliene er faktisk 0 prosent og 100 prosent kvantiler. Du kan like lett ringe dem minimum og maksimum, fordi det er hva de er. Du kan få både min () og max () funksjoner sammen med rekkevidde () -funksjonen. Denne funksjonen gir deg praktisk rekkevidde av dataene. Så, for å vite mellom hvilke to verdier alle kilometerene ligger, gjør du bare følgende:

>> rekkevidde (biler $ mpg) [1] 10. 4 33. 9

Slik beregner du datakvartiler i R

Området gir deg bare begrenset informasjon. Ofte rapporterer statistikere det første og det tredje

kvartilet

ved siden av intervallet og medianen. Disse kvartilene er henholdsvis 25 prosent og 75 prosent kvantiler, som er tallene for hvilke en fjerdedel og tre fjerdedeler av dataene er mindre. Du får disse tallene ved hjelp av quantile () -funksjonen, slik:

>> quantile (biler $ mpg) 0% 25% 50% 75% 100% 10. 400 15. 425 19. 200 22. 800 33. 900 Kvartilene er ikke det samme som nedre og øvre hengsel beregnet i fem-tallet sammendrag. De to sistnevnte er henholdsvis medianen av den nedre og øvre halvdelen av dataene dine, og de avviker litt fra første og tredje kvartil. For å få fem tallstatistikk, bruker du fivenum () -funksjonen. Slik får du fart på kvantilfunksjonen i R

Quantile () -funksjonen kan gi deg noe kvantil du vil ha. For det bruker du probs-argumentet. Du gir probene (eller sannsynlighetene) som et brøknummer. For 20 prosentkvantilen bruker du for eksempel 0. 20 som et argument for verdien.Dette argumentet tar også en vektor som en verdi, slik at du for eksempel kan få 5 prosent og 95 prosentkvantiler som denne: >> quantile (biler $ mpg, probs = c (0, 05, 0.95)) 5% 95% 11. 995 31. 300

Standardverdien for prob-argumentet er en vektor som representerer minimumet (0), den første kvartilen (0. 25), medianen (0. 5), den tredje kvartil (0,75) og maksimum (1).

Alle disse funksjonene har et argument. rm som lar deg fjerne alle NA-verdier før du beregner den respektive statistikken. Hvis du ikke gjør dette, vil enhver vektor som inneholder NA ha NA som et resultat. Dette fungerer identisk med na. rm argument av summen () -funksjonen.