Video: Data Analysis in R by Dustin Tran 2024
Før du prøver å Beskriv dataene dine i R, du må sørge for at dataene er i riktig format. Dette betyr
-
Kontroller at alle dataene er inneholdt i en dataramme (eller i en vektor hvis det er en enkelt variabel)
-
Kontroller at alle variablene er av riktig type
-
Kontrollerer at verdiene er alle behandlet riktig
Enkelte data kan bare ha et begrenset antall forskjellige verdier. For eksempel kan folk være enten mann eller kvinne, og du kan beskrive de fleste hårtyper med bare noen få farger.
Noen ganger er flere verdier teoretisk mulige, men ikke realistiske. For eksempel kan biler ha mer enn 16 sylindere i sine motorer, men du finner ikke mange av dem. På en eller annen måte kan alle disse dataene ses som kategorisk . Ved denne definisjonen inneholder kategoriske data også ordinære data.
På den annen side har du data som kan ha ubegrenset antall mulige verdier. Dette betyr ikke nødvendigvis at verdiene kan være noen verdi du liker. For eksempel er kjørelengde av en bil uttrykt i miles per gallon, ofte avrundet til hele milen. Likevel vil den virkelige verdien være litt forskjellig for hver bil.
Det eneste som definerer hvor mange mulige verdier du tillater, er nøyaktigheten du uttrykker dataene med. Data som kan uttrykkes med et valgt presisjonsnivå er kontinuerlig . Både intervallskalert data og forholdstallskalert data er vanligvis kontinuerlige data.
Skillet mellom kategoriske og kontinuerlige data er imidlertid ikke alltid klart. Alder er i hovedsak en kontinuerlig variabel, men det uttrykkes ofte i antall år siden fødselen.
Du har fortsatt mange mulige verdier hvis du gjør det, men hva skjer hvis du ser på alderen på barna på din lokale videregående skole? Plutselig har du bare fem, kanskje seks forskjellige verdier i dataene dine. På det tidspunktet kan du få mer ut av analysen din hvis du behandler dataene som kategorisk.
Når du beskriver dataene dine, må du skille mellom data som har nytte av å bli konvertert til en faktor og data som må forbli numeriske. Hvis du kan se dataene dine som kategoriske, hjelper det å analysere det ved å konvertere det til en faktor.