Video: John Hunter: Teaching with the World Peace Game 2025
For å kunne utføre en prediktiv analyse må du få dataene til et skjema som algoritmen kan bruke til å bygge en modell. For å gjøre det må du ta litt tid å forstå dataene og å vite strukturen. Skriv inn funksjonen for å finne ut av strukturen på dataene. Slik ser det ut: >> str (frø) 'data. ramme ': 210 obs. av 8 variabler: $ V1: num 15. 3 14. 9 14. 3 13. 8 16. 1 … $ V2: num 14. 8 14. 6 14. 1 13. 9 15 … $ V3: num 0. 871 0 881 0. 905 0. 895 0. 903 … $ V4: num 5. 76 5. 55 5. 29 5. 32 5. 66 … $ V5: num 3. 31 3. 33 3. 34 3. 38 3. 56 … $ V6: num 2. 22 1. 02 2. 7 2. 26 1. 35 … $ V7: num 5. 22 4. 96 4. 83 4. 8 5. 17 … $ V8: int 1 1 1 1 1 1 1 1 1 1 …
Når du ser på strukturen, kan du fortelle at dataene trenger ett forbehandlingstrinn og ett bekvemmelighetsstrinn:
-
Dette er ikke strengt nødvendig, men i dette eksemplet er det mer praktisk å bruke kolonneavn du kan forstå og huske. Endre attributtet med kategoriske verdier til en faktor.
-
Etiketten har tre mulige kategorier. For å gi nytt navn til kolonnene, skriv inn følgende kode: >> kolnamer (frø) <-
c ("område", "perimeter", "kompaktitet", "lengde" asymmetri "," lengde2 "," seedType ")
Endre deretter attributten som har kategoriske verdier til en faktor. Følgende kode endrer datatypen til en faktor:
>> frø $ seedType <- faktor (frø $ seedType)
Denne kommandoen fullfører forberedelsen av dataene for modelleringsprosessen. Det følgende er en oversikt over strukturen etter datapreparasjonsprosessen: >> str (ugress) 'data. ramme ': 210 obs. av 8 variabler: $ område: num 15. 3 14. 9 14. 3 13. 8 16. 1 … $ omkrets: num 14. 8 14. 6 14. 1 13. 9 15 … $ kompaktitet: num 0. 871 0 881 0. 905 0. 895 0. 903 … $ lengde: num 5. 76 5. 55 5. 29 5. 32 5. 66 … $ bredde: num 3. 31 3. 33 3. 34 3. 38 3. 56 … $ asymmetri: num 2. 22 1. 02 2. 7 2. 26 1.35 … $ lengde2: num 5. 22 4. 96 4. 83 4. 8 5. 17 … $ seedType: Faktor m / 3 nivåer "1", "2", "3": 1 1 1 1 1 1 1 1 1 1 …
