Innholdsfortegnelse:
Video: SpareBank 1 e-sport - Episode 2 - Slik bygger du et godt FIFA-lag uten å bruke penger 2024
Du bruker tapply () for å lage tabelloppsummeringer av data i R. Med tapply () kan du enkelt lage oppsummeringer av undergrupper i data. Denne funksjonen tar tre argumenter:
-
X : En vektor
-
INDEX : En faktor eller liste over faktorer
-
FUN : En funksjon < For eksempel, beregne den gjennomsnittlige sepallengden i datasettet iris: >> tapply (iris $ Sepal. Lengde, iris $ Art, gjennomsnitt) setosa versicolor virginica 5. 006 5. 936 6. 588
Med dette kort linje med kode, gjør du noen mektige ting. Du forteller R for å ta Sepal. Lengde kolonne, del den etter arter, og beregne deretter gjennomsnittet for hver gruppe.
Dette er et viktig idiom for å skrive kode i R, og det går vanligvis etter navnet Split, Apply, and Combine (SAC). I dette tilfellet deler du en vektor i grupper, bruker en funksjon til hver gruppe, og kombinerer deretter resultatet med en vektor.
Selvfølgelig, ved hjelp av funksjonen with () kan du skrive din kodelinje på en litt mer lesbar måte: >> med (iris, tapply (Sepal. Lengde, Arter, gjennomsnitt)) setosa versicolor virginica 5. 006 5. 936 6. 588Ved hjelp av tapply () kan du også lage flere komplekse tabeller for å oppsummere dataene dine. Du gjør dette ved å bruke en liste som INDEX-argumentet ditt.
Slik bruker du tapply () for å lage høyere dimensjonale tabeller
For eksempel, prøv å oppsummere datarammens mtcars, en innebygd dataramme med data om motorvognmotorer og ytelse. Som med ethvert objekt kan du bruke str () for å inspisere strukturen: >> str (mtcars)
Variabel am er en numerisk vektor som indikerer om motoren har en automatisk (0) eller manuell (1) girkasse. Fordi dette ikke er veldig beskrivende, start med å lage et nytt objekt, biler, det er en kopi av mtcars, og endre kolonnen am til å være en faktor:
>> biler <- innenfor (mtcars, + am <- faktor (am, nivåer = 0: 1, etiketter = c ("Automatisk", "Manuell")) +)
Nå Bruk tapply () for å finne gjennomsnittlig miles per gallon (mpg) for hver type girkasse: >> med (biler, tapply (mpg, am, mean)) Automatisk Manuell 17. 14737 24. 39231
Ja, du er riktig. Dette er fortsatt bare et endimensjonalt bord. Prøv nå å lage et todimensjonalt bord med type girkasse og antall gir (gir): >> med (biler, tapply (mpg, liste (gir, am), gjennomsnitt)) Automatisk Manuell 3 16. 10667 NA 4 21. 05000 26. 275 5 NA 21. 380
Du bruker tapply () for å lage tabelloppsummeringer av data. Dette ligner litt på tabellen () -funksjonen. Tabellen () kan imidlertid bare lage beredskapstabeller (det vil si tabeller med teller), mens med tapply () kan du spesifisere hvilken som helst funksjon som aggregeringsfunksjonen.Med andre ord, med tapply (), kan du beregne teller, midler eller annen verdi.
Hvis du vil oppsummere statistikk på en enkelt vektor, er tapply () veldig nyttig og rask å bruke.Slik bruker du aggregat ()
En annen R-funksjon som gjør noe veldig like, er aggregat (): >> med (biler, aggregat (mpg, liste (gir = gir, am = am)) gir am x 1 3 Automatisk 16. 10667 2 4 Automatisk 21. 05000 3 4 Manuell 26. 27500 4 5 Manuell 21. 38000
Deretter tar du aggregat () til nye høyder ved hjelp av formelgrensesnittet.