Hvordan du klargjør data for forutsigbar analyse - dummies

Når du lærer et nytt programmeringsspråk, er det vanlig å skrive "hallo verden" -programmet. For maskinlæring og forutsigbar analyse, er det å lage en modell for å klassifisere Iris datasettet sitt "hello world" tilsvarende program. Dette er et ganske enkelt eksempel, men det er veldig effektivt å lære grunnleggende om maskinlæring og prediktiv analyse.

Slik får du prøvedatasettet

For å lage vår prediktive modell, må du laste ned prøven Iris datasett. Dette datasettet er fritt tilgjengelig fra mange kilder, særlig på akademiske institusjoner som har maskinlæringsavdelinger. Heldigvis var folkene hyggelig nok til å inkludere noen eksempler på datasett og data-lastefunksjoner sammen med deres pakke. I forbindelse med disse eksemplene trenger du bare å kjøre et par enkle linjer med kode for å laste inn dataene.

Slik merker du dataene dine

Her er en observasjon og dens funksjoner fra hver klasse av Iris Flower datasettet.

Sepal Lengde	Sepal Bredde	Kronbladets lengde	Kronbredde	Målgruppe / Etikett
5. 1	3. 5	en. 4	0. 2	Setosa (0)
7. 0	3. 2	4. 7	en. 4	Versicolor (1)
6. 3	3. 3	6. 0	2. 5	Virginica (2)

Iris Setosa, Iris Virginica, og Iris Versicolor ) introdusert av Ronald Fisher i sin 1936 artikkel, "Bruken av flere målinger i taksonomiske problemer. "Dette datasettet er best kjent for sin omfattende bruk i akademia for maskinlæring og statistikk. Datasettet består av 150 totalt forekomster, med 50 forekomster fra hver av de tre klassene i Iris-blomsten. Prøven har 4 funksjoner (også vanligvis kalt

attributter ), som er lengde og bredde målinger av blomstene og kronbladene.

Den interessante delen av dette datasettet er at de tre klassene er noe lineært separerbare. Klassen

Setosa kan skilles fra de to andre klassene ved å tegne en rett linje på grafen mellom dem. Klassene Virginica og Versicolor kan ikke skilles helt med en rett linje - selv om den er nær. Dette gjør det til et perfekt kandidatdatasett for å gjøre klassifikasjonsanalyse, men ikke så bra for clustering analyse. Prøvedataene ble allerede merket. Den høyre kolonnen (Etikett) over viser navnene på hver klasse av Iris-blomsten.Klassenavnet kalles et

etikett eller et mål; den er vanligvis tilordnet en variabel som heter y . Det er i utgangspunktet utfallet eller resultatet av det som blir spådd. I statistikk og modellering blir det ofte referert til som

avhengig variabel . Det avhenger av innganger som tilsvarer sepal lengde og bredde og til petal lengde og bredde. Det kan også være lurt å vite hva som er annerledes med det skikkede preprocessed Iris datasettet, sammenlignet med det opprinnelige datasettet. For å finne ut, må du oppnå den opprinnelige datafilen. Du kan gjøre et Google-søk for

iris datasett og laste det ned eller se det fra en av de akademiske institusjonene. Resultatet som vanligvis kommer opp først er Universitetet i California Irvines (UCI) maskinlæreregister for datasett. Iris datasettet i sin opprinnelige tilstand fra UCI-maskinlæreregisteret finner du på UCIs nettsted.

Hvis du laster ned den, bør du kunne se den med alle tekstredigeringsprogrammer. Når du ser dataene i filen, vil du legge merke til at det er fem kolonner i hver rad. De fire første kolonnene er målingene (referert til som

funksjoner ) og den siste kolonnen er etiketten. Etiketten skiller mellom originale og scikit-versjoner av Iris datasettet. En annen forskjell er den første raden i datafilen. Den inneholder en headerrad som brukes av scikit data-loading funksjonen. Det har ingen effekt på algoritmen selv.

Normalisering av funksjoner til tall i stedet for å holde dem som tekst gjør det lettere for algoritmer å behandle - og det er mye mer minneeffektivt. Dette er spesielt tydelig hvis du kjører veldig store datasett med mange funksjoner - som ofte er tilfelle i ekte scenarier.

Her er eksempler på data fra begge filene. Alle datakolonnene er de samme unntatt Col5. Merk at scikit har klassenavn med numeriske etiketter; Den opprinnelige filen har tekstetiketter.

kilde

Hvordan du klargjør data for forutsigbar analyse - dummies

Redaktørens valg

COL1	COL2	kol3	Col4	Col5	scikit
5. 1	3. 5	en. 4	0. 2	0	opprinnelige
5. 1	3. 5	en. 4	0. 2	Iris-setosa	scikit
7. 0	3. 2	4. 7	en. 4	1	opprinnelige
7. 0	3. 2	4. 7	en. 4	Iris-versicolor	scikit
6. 3	3. 3	6. 0	2. 5	2	opprinnelige
6. 3	3. 3	6. 0	2. 5	Iris-virginica

Hvordan du klargjør data for forutsigbar analyse - dummies

Innholdsfortegnelse:

Video: JMP (2019) Klargjøre data før analyser 2025

Slik får du prøvedatasettet

Slik merker du dataene dine

Redaktørens valg

10 Tips for visuelt analysere og presentere data i Excel - dummies

10 Måter å forbedre Power Pivot Performance - dummies

Legger ekstra analyselagre til Excel-diagrammer - dummies

Redaktørens valg

Reise fotografering kamera sammenligning diagram - dummies

Ta et makrofoto-dummies

Forestille et Moving Object - dummies

Redaktørens valg

ACT-strategi for å multiplisere en horisontal matrise med en vertikal matrise - dummies

ACT-strategi for å løse en matrise ved hjelp av en determinant-dummies

ACT Trick for Quadratics: Slik finner du raskt en Parabola-dummies retning

Redaktørens valg

Objektorientert programmering for Android Apps - dummies

Primitive datatyper - dummies

Mulig Feil i Java-koden din - dummies

Programmering Java: Ser etter filer - dummies

Redaktørens valg

Hvordan å videresende en notat i Outlook 2013 - dummies

Hvordan du samler grupper i Microsoft Outlook-innboksen - dummies

Hvordan få hjelp i Outlook 2016 - dummies

Slik legger du inn nye oppgaver i Outlook 2013-modulen - dummies

Populære kategorier