Video: LibreOffice 6.0: New Features 2024
Hvis du har en smeltet datasett , er du klar til å omforme den med R. For å illustrere at omformingsprosessen holder alle dataene dine intakte, prøv å rekonstruere originalen: >> dcast (mgoals, Venue + Game ~ variabel, sum) Spillested Granny Geraldine Gertrude 1 1. Brugge 12 5 11 2 2. Gent 4 4 5 3 3rd Gent 5 2 6 4 4. Brugge 6 4 7
Kan du se hvordan dcast () tar en formel som sitt andre argument? Mer om det om et minutt, men først inspiser resultatene dine. Den bør samsvare med den opprinnelige datarammen.
Du bruker funksjonen dcast () til å kaste en smeltet dataramme. For å være klar bruker du dette til å konvertere fra et langt format til et bredt format, men du kan også bruke dette til å aggregere i mellomformater, som ligner på hvordan et pivottabell fungerer.
Funksjonen dcast () tar tre argumenter:
-
: En smeltet dataramme. formel
-
: En formel som angir hvordan du vil kaste dataene. Denne formelen tar formen x_variable ~ y_variable. Men det er forenklet å gjøre et poeng. Du kan bruke flere x -variables, multiple y -variables og til og med z -variables. moro. aggregat
-
: En funksjon som skal brukes dersom støpeformelen gir dataaggregering (for eksempel lengde (), sum () eller gjennomsnittlig ()).
Hvis du vil få et bord med spillestedet som går nedover rader og spilleren over kolonnene, din casting-formel skal være Sted-variabel: >> dcast (mgoals, Venue ~ variabel, sum) Spillested Granny Geraldine Gertrude 1 Bruges 18 9 18 2 Gent 9 6 11
Det er faktisk mulig å ha mer kompliserte støpeformler. Ifølge hjelpesiden for dcast (), tar støpformelen dette formatet:
x_variable + x_2 ~ y_variable + y_2 ~ z_variable ~ …
Merk at du kan kombinere flere variabler i hver dimensjon med plustegnet (+), og du skiller hver dimensjon med en tilde (~). Også, hvis du har to eller flere fliser i formelen (det vil si at du inkluderer
z
-variable), vil resultatet bli et flerdimensjonalt utvalg.
Så, for å få en oppsummering av målene etter spillested, spiller (variabel) og spill, gjør du følgende: >> dcast (mgoals, Venue + variabel ~ Spill, sum) Spillvariabel 1. 2. Brugge Granny 12 0 0 6 2 Bruges Geraldine 5 0 0 4 3 Bruges Gertrude 11 0 0 7 4 Ghent Granny 0 4 5 0 5 Ghent Geraldine 0 4 2 0 6 Ghent Gertrude 0 5 6 0 En av grunnene til at du burde forstå data i langformat er at både grafikkpakken gitterplaten og ggplot2 gjør stor bruk av langformatdata.Fordelen er at du enkelt kan lage plott av dataene dine som sammenligner ulike undergrupper.