Innholdsfortegnelse:
Video: From C to Python by Ross Rheingans-Yoo 2025
I R programmering for prediktiv analyse blir data typer noen ganger forvekslet med data strukturer . Hver variabel i programminnet har en datatype. Sikker på at du kan komme unna med flere variabler i programmet, og fortsatt være overkommelig. Men det vil nok ikke fungere så godt hvis du har hundrevis (eller tusenvis) av variabler; du må gi hver variabel et navn slik at du får tilgang til det.
Det er mer effektivt å lagre alle disse variablene i en logisk samling.
Datatyper
Som andre fullverdige programmeringsspråk tilbyr R mange datatyper og datastrukturer. Det er ikke nødvendig å spesifisere typen du tilordner til en variabel; tolken vil gjøre det for deg. Du kan imidlertid angi eller konvertere typen hvis behovet oppstår. dette kalles avstøpning . Tre datatyper er som følger:
-
Numerisk: Dette er dine typiske desimaltall. Disse kalles flyter (kort for flytende tall ) eller dobler på andre språk.
-
Tegn: Dette er dine strenger dannet med kombinasjoner av bokstaver, tegn og tall. De er ikke ment å ha noen numerisk betydning. Disse kalles strenger på andre språk.
-
Logisk: TRUE eller FALSE. Alltid kapitalisere disse verdiene i R. Disse verdiene kalles Booleans på andre språk.
Sammenligning av en streng med tall til et numerisk tall resulterer i at tolken konverterer strenget til tall i en numerisk og deretter foretar en numerisk sammenligning.
Eksempler på datatyper er som følger: >> ijkm <- i == j # logisk> n <- i == k # logisk
Etter at du har utført disse kodelinjene, kan du finne ut deres verdier og typer ved å bruke str () -funksjonen. Denne operasjonen ser slik ut: >> str (i) num 10> str (j) num 10> str (k) chr "10"> str (m) logi SANT> str (n) logi SANT
uttrykk i n-oppdraget er et eksempel på tolken som midlertidig konverterer datatypen til k til en numerisk for å gjøre evalueringen mellom numerisk i og tegn k.
Datastrukturer
R trenger et sted for å lagre grupper av datatyper for å kunne arbeide effektivt med det. Disse kalles
datastrukturer
. Et virkelig eksempel på dette konseptet er et parkeringshus: Det er en struktur som lagrer biler effektivt. Den er designet for å parkere så mange biler som mulig, og gjør det mulig for biler å effektivt gå inn og ut av strukturen.Dessuten bør ingen andre objekter i tillegg til biler parkeres i en parkeringsstruktur. Datastrukturer inkluderer:
Vektorer:
Vektorer lagrer et sett med verdier av en enkelt datatype. Tenk på det som en ukentlig pillbox. Hvert rom i pillboxen kan kun lagre en bestemt type gjenstand. Etter at du har tatt noen piller i ett av rommene, må alle de andre rommene også fylles med enten nullpiller eller flere piller.
-
Du kan ikke sette mynter i samme boks; du må bruke en annen "pille boks" (vektor) for det. På samme måte, når du lagrer et tall i en vektor, bør alle fremtidige verdier også være tall. Ellers konverterer tolken alle tallene dine til tegn. Matriser:
A
-
matrise ser ut som et Excel-regneark: Det er i hovedsak et bord bestående av rader og kolonner. Dataene fyller de tomme cellene etter rad eller kolonnordre, der du angir når du lager matrisen. Alle kolonnene må ha samme datatype. Datarammer:
En dataramme ligner en matrise, bortsett fra at en datarammens kolonner kan inneholde forskjellige datatyper. Datasettene som brukes i prediktiv modellering, lastes inn i datarammer og lagres der for bruk i modellen.
-
Faktorer: A
-
faktor er som en vektor med et begrenset antall forskjellige verdier. Antall forskjellige verdier er referert til som dets nivå . Du kan bruke faktorer til å behandle en kolonne som har et begrenset og kjent antall verdier som kategoriske verdier. Som standard er karakterdata lastet inn i datarammer som faktorer. Du får tilgang til vektorer, matriser og datarammer ved å bruke array notation
. For eksempel ville du skrive v [5] for å få tilgang til det femte elementet av vektor v. For en todimensjonal matrise og dataramme, legger du inn radnummeret og kolonnnummeret, adskilt av et komma, inne i firkantede parenteser. For eksempel skriver du m [2, 3] for å få tilgang til den andre raden, tredje kolonneverdien for matrisen m . Datastrukturer er et avansert fag innen datavitenskap. For nå stikker vi til det praktiske. Bare husk at datastrukturer ble bygd for å lagre bestemte typer data, og de har funksjoner for datainnsetting, sletting og gjenfinning.
