Video: Excel Tutorial - Beginner 2024
Når vi snakker om omforming av data i R, er det viktig å gjenkjenne data i lange og brede formater. Disse visuelle metaforene beskriver to måter å representere den samme informasjonen på. Det er nyttig å kjenne disse formatene når du bruker R.
Du kan gjenkjenne data i bredt format ved at kolonner generelt representerer grupper. Så vårt eksempel på basketballspill er i brede format, fordi det er en kolonne for kurver laget av hver av deltakerne:
Spillested Granny Geraldine Gertrude 1 Første Bruges 12 5 11 2 Andre Ghent 4 4 5 3 3rd Gent 5 2 6 4 4. Bruges 6 4 7
I kontrast, se på den lange format av nøyaktig samme data:
Spillested Variabelverdi 1 1ste Bruges Granny 12 2 2. Ghent Granny 4 3 3. Ghent Granny 5 4 4. Bruges Granny 6 5 1 Bruges Geraldine 5 6 2 Ghent Geraldine 4 7 3rd Ghent Geraldine 2 8 4. Brugge Geraldine 4 9 Første Brugger Gertrude 11 10 2. Ghent Gertrude 5 11 3. Ghent Gertrude 6 12 4. Brugge Gertrude 7
Legg merke til hvordan i de lange formatene de tre kolonnene til Granny, Geraldine og Gertrude er forsvunnet. I deres sted har du nå en kolonne som kalles verdi som inneholder den faktiske poengsummen, og en kolonne som heter variabel som knytter poenget til en av de tre damene.
Når du konverterer data mellom lange og brede formater, er det viktig å kunne skille identifiseringsvariabler fra målte variabler:
-
Identifikatorvariabler: Identifikator eller ID, variabler identifiserer observasjonene. Tenk på disse som nøkkelen som identifiserer dine observasjoner. (I databasedesign kalles disse primære eller sekundære nøkler.)
-
Målte variabler: Dette representerer målingene du observerte.
I vårt eksempel er identifikasjonsvariablene Game and Venue, mens de målte variablene er målene (det vil si kolonnene Granny, Geraldine og Gertrude).