Innholdsfortegnelse:
Video: JMP (2019) Klargjøre data før analyser 2025
Når du lærer et nytt programmeringsspråk, er det vanlig å skrive "hallo verden" -programmet. For maskinlæring og forutsigbar analyse, er det å lage en modell for å klassifisere Iris datasettet sitt "hello world" tilsvarende program. Dette er et ganske enkelt eksempel, men det er veldig effektivt å lære grunnleggende om maskinlæring og prediktiv analyse.
Slik får du prøvedatasettet
For å lage vår prediktive modell, må du laste ned prøven Iris datasett. Dette datasettet er fritt tilgjengelig fra mange kilder, særlig på akademiske institusjoner som har maskinlæringsavdelinger. Heldigvis var folkene hyggelig nok til å inkludere noen eksempler på datasett og data-lastefunksjoner sammen med deres pakke. I forbindelse med disse eksemplene trenger du bare å kjøre et par enkle linjer med kode for å laste inn dataene.
Slik merker du dataene dine
Her er en observasjon og dens funksjoner fra hver klasse av Iris Flower datasettet.
Sepal Lengde | Sepal Bredde | Kronbladets lengde | Kronbredde | Målgruppe / Etikett |
---|---|---|---|---|
5. 1 | 3. 5 | en. 4 | 0. 2 | Setosa (0) |
7. 0 | 3. 2 | 4. 7 | en. 4 | Versicolor (1) |
6. 3 | 3. 3 | 6. 0 | 2. 5 | Virginica (2) |
attributter ), som er lengde og bredde målinger av blomstene og kronbladene.
Setosa kan skilles fra de to andre klassene ved å tegne en rett linje på grafen mellom dem. Klassene Virginica og Versicolor kan ikke skilles helt med en rett linje - selv om den er nær. Dette gjør det til et perfekt kandidatdatasett for å gjøre klassifikasjonsanalyse, men ikke så bra for clustering analyse. Prøvedataene ble allerede merket. Den høyre kolonnen (Etikett) over viser navnene på hver klasse av Iris-blomsten.Klassenavnet kalles et
etikett eller et mål; den er vanligvis tilordnet en variabel som heter y . Det er i utgangspunktet utfallet eller resultatet av det som blir spådd. I statistikk og modellering blir det ofte referert til som
avhengig variabel . Det avhenger av innganger som tilsvarer sepal lengde og bredde og til petal lengde og bredde. Det kan også være lurt å vite hva som er annerledes med det skikkede preprocessed Iris datasettet, sammenlignet med det opprinnelige datasettet. For å finne ut, må du oppnå den opprinnelige datafilen. Du kan gjøre et Google-søk for
iris datasett og laste det ned eller se det fra en av de akademiske institusjonene. Resultatet som vanligvis kommer opp først er Universitetet i California Irvines (UCI) maskinlæreregister for datasett. Iris datasettet i sin opprinnelige tilstand fra UCI-maskinlæreregisteret finner du på UCIs nettsted.
Hvis du laster ned den, bør du kunne se den med alle tekstredigeringsprogrammer. Når du ser dataene i filen, vil du legge merke til at det er fem kolonner i hver rad. De fire første kolonnene er målingene (referert til som
funksjoner ) og den siste kolonnen er etiketten. Etiketten skiller mellom originale og scikit-versjoner av Iris datasettet. En annen forskjell er den første raden i datafilen. Den inneholder en headerrad som brukes av scikit data-loading funksjonen. Det har ingen effekt på algoritmen selv.
Normalisering av funksjoner til tall i stedet for å holde dem som tekst gjør det lettere for algoritmer å behandle - og det er mye mer minneeffektivt. Dette er spesielt tydelig hvis du kjører veldig store datasett med mange funksjoner - som ofte er tilfelle i ekte scenarier.
Her er eksempler på data fra begge filene. Alle datakolonnene er de samme unntatt Col5. Merk at scikit har klassenavn med numeriske etiketter; Den opprinnelige filen har tekstetiketter.
kilde
COL1 | COL2 | kol3 | Col4 | Col5 | scikit |
---|---|---|---|---|---|
5. 1 | 3. 5 | en. 4 | 0. 2 | 0 | opprinnelige |
5. 1 | 3. 5 | en. 4 | 0. 2 | Iris-setosa | scikit |
7. 0 | 3. 2 | 4. 7 | en. 4 | 1 | opprinnelige |
7. 0 | 3. 2 | 4. 7 | en. 4 | Iris-versicolor | scikit |
6. 3 | 3. 3 | 6. 0 | 2. 5 | 2 | opprinnelige |
6. 3 | 3. 3 | 6. 0 | 2. 5 | Iris-virginica |