Video: Data Analysis in R by Dustin Tran 2024
Den første avgjørelsen du må gjøre før du analyserer dataene er hvordan du representerer dataene i R. Hvis Dataene dine har bare en dimensjon, da vet du allerede at vektorer representerer denne type data veldig bra. Men hvis dataene dine har mer enn en dimensjon, har du muligheten til å bruke matriser, lister eller datarammer. Så spørsmålet er: Når bruker du hvilken?
Matriser og høyere dimensjonale arrayer er nyttige når alle dataene dine er av en enkelt klasse - med andre ord, er alle data numeriske eller alle dataene dine er tegn. Hvis du er matematiker eller statistiker, er du kjent med matriser og sannsynligvis bruker denne typen objekt veldig ofte.
Men i mange praktiske situasjoner har du data som har mange forskjellige klasser - med andre ord, vil du ha en blanding av numeriske og tegndata. I dette tilfellet må du bruke enten lister eller datarammer.
Hvis du forestiller dataene dine som et enkelt regneark, er en dataramme sannsynligvis et godt valg. Husk at en dataramme bare er en liste over navngitte vektorer av samme lengde, som konseptuelt ligner et regneark med kolonner og en kolonneoverskrift for hver.
Hvis du er kjent med databaser, kan du tenke på en dataramme som ligner på et enkelt bord i en database. Datarammer er enormt nyttige og vil i mange tilfeller være ditt første valg av objekter for lagring av dataene dine.
Hvis dataene består av en samling objekter, men du kan ikke representere det som en matrise eller en dataramme, er en liste det ideelle valget. Fordi lister kan inneholde alle slags andre objekter, inkludert andre lister eller datarammer, er de enormt fleksible. Derfor har R et bredt utvalg av verktøy for å behandle lister.
Det kan hende du finner ut at en dataramme er et meget passende valg for de fleste analyse- og databehandlingsoppgaver. Det er en veldig praktisk måte å representere dataene dine på, og det ligner på å jobbe med databasetabeller. Når du leser data fra en kommaseparert verdi (CSV) fil med funksjonen lest. csv () eller les. tabell (), R setter resultatene i en dataramme.
Objekt | Beskrivelse | Kommentarer |
---|---|---|
vektor | Den grunnleggende dataobjektet i R, bestående av en eller flere verdier av
en enkelt type (for eksempel tegn, tall eller heltall). |
Tenk på dette som en enkelt kolonne eller rad i et regneark, eller en
kolonne i en databasetabell. |
matrix eller array | Et flerdimensjonalt objekt av en enkelt type (kjent som
atom ). En matrise er en rekke med to dimensjoner. |
Når du må lagre tall i mange dimensjoner, bruker du
arrayer. |
liste | Lister kan inneholde objekter av noe slag. | Lister er svært nyttige for lagring av samlinger av data som
tilhører sammen. Fordi lister kan inneholde lister, er denne typen objekt veldig nyttig. |
data. ramme | Datarammer er en spesiell type navngitt liste hvor alle elementene
har samme lengde. |
Datarammer ligner et enkelt regneark eller til en tabell
i en database. |