Hjem Personlig finansiering Hvordan du klargjør data for forutsigbar analyse - dummies

Hvordan du klargjør data for forutsigbar analyse - dummies

Innholdsfortegnelse:

Video: JMP (2019) Klargjøre data før analyser 2024

Video: JMP (2019) Klargjøre data før analyser 2024
Anonim

Når du lærer et nytt programmeringsspråk, er det vanlig å skrive "hallo verden" -programmet. For maskinlæring og forutsigbar analyse, er det å lage en modell for å klassifisere Iris datasettet sitt "hello world" tilsvarende program. Dette er et ganske enkelt eksempel, men det er veldig effektivt å lære grunnleggende om maskinlæring og prediktiv analyse.

Slik får du prøvedatasettet

For å lage vår prediktive modell, må du laste ned prøven Iris datasett. Dette datasettet er fritt tilgjengelig fra mange kilder, særlig på akademiske institusjoner som har maskinlæringsavdelinger. Heldigvis var folkene hyggelig nok til å inkludere noen eksempler på datasett og data-lastefunksjoner sammen med deres pakke. I forbindelse med disse eksemplene trenger du bare å kjøre et par enkle linjer med kode for å laste inn dataene.

Slik merker du dataene dine

Her er en observasjon og dens funksjoner fra hver klasse av Iris Flower datasettet.

Sepal Lengde Sepal Bredde Kronbladets lengde Kronbredde Målgruppe / Etikett
5. 1 3. 5 en. 4 0. 2 Setosa (0)
7. 0 3. 2 4. 7 en. 4 Versicolor (1)
6. 3 3. 3 6. 0 2. 5 Virginica (2)
Iris Setosa, Iris Virginica, og Iris Versicolor ) introdusert av Ronald Fisher i sin 1936 artikkel, "Bruken av flere målinger i taksonomiske problemer. "Dette datasettet er best kjent for sin omfattende bruk i akademia for maskinlæring og statistikk. Datasettet består av 150 totalt forekomster, med 50 forekomster fra hver av de tre klassene i Iris-blomsten. Prøven har 4 funksjoner (også vanligvis kalt

attributter ), som er lengde og bredde målinger av blomstene og kronbladene.

Den interessante delen av dette datasettet er at de tre klassene er noe lineært separerbare. Klassen

Setosa kan skilles fra de to andre klassene ved å tegne en rett linje på grafen mellom dem. Klassene Virginica og Versicolor kan ikke skilles helt med en rett linje - selv om den er nær. Dette gjør det til et perfekt kandidatdatasett for å gjøre klassifikasjonsanalyse, men ikke så bra for clustering analyse. Prøvedataene ble allerede merket. Den høyre kolonnen (Etikett) over viser navnene på hver klasse av Iris-blomsten.Klassenavnet kalles et

etikett eller et mål; den er vanligvis tilordnet en variabel som heter y . Det er i utgangspunktet utfallet eller resultatet av det som blir spådd. I statistikk og modellering blir det ofte referert til som

avhengig variabel . Det avhenger av innganger som tilsvarer sepal lengde og bredde og til petal lengde og bredde. Det kan også være lurt å vite hva som er annerledes med det skikkede preprocessed Iris datasettet, sammenlignet med det opprinnelige datasettet. For å finne ut, må du oppnå den opprinnelige datafilen. Du kan gjøre et Google-søk for

iris datasett og laste det ned eller se det fra en av de akademiske institusjonene. Resultatet som vanligvis kommer opp først er Universitetet i California Irvines (UCI) maskinlæreregister for datasett. Iris datasettet i sin opprinnelige tilstand fra UCI-maskinlæreregisteret finner du på UCIs nettsted.

Hvis du laster ned den, bør du kunne se den med alle tekstredigeringsprogrammer. Når du ser dataene i filen, vil du legge merke til at det er fem kolonner i hver rad. De fire første kolonnene er målingene (referert til som

funksjoner ) og den siste kolonnen er etiketten. Etiketten skiller mellom originale og scikit-versjoner av Iris datasettet. En annen forskjell er den første raden i datafilen. Den inneholder en headerrad som brukes av scikit data-loading funksjonen. Det har ingen effekt på algoritmen selv.

Normalisering av funksjoner til tall i stedet for å holde dem som tekst gjør det lettere for algoritmer å behandle - og det er mye mer minneeffektivt. Dette er spesielt tydelig hvis du kjører veldig store datasett med mange funksjoner - som ofte er tilfelle i ekte scenarier.

Her er eksempler på data fra begge filene. Alle datakolonnene er de samme unntatt Col5. Merk at scikit har klassenavn med numeriske etiketter; Den opprinnelige filen har tekstetiketter.

kilde

Hvordan du klargjør data for forutsigbar analyse - dummies

Redaktørens valg

Hvordan å stable og gruppereformer i Word 2013 - dummies

Hvordan å stable og gruppereformer i Word 2013 - dummies

Enkeltformer kan noen ganger være nyttige i en dokument, men den virkelige kraften til Word 2013's Shapes-funksjonen kan bli funnet ved å kombinere figurer for å lage mer komplekse tegninger og logoer. Du kan stable formene oppå hverandre og kontrollere rekkefølgen de vises i stakken. Når du har ...

Hvordan du angir punktavstand i Word 2013 - dummies

Hvordan du angir punktavstand i Word 2013 - dummies

Word 2013 lar deg legge til "luft" til plass før eller etter eller i midten av avsnittene dine. I midten av avsnittet har du linjeavstand. Før og etter avsnittet kommer punktavstand. Hvordan sette linjeavstanden Endre linjeavstanden legger til ekstra mellomrom mellom alle tekstlinjer ...

Slik starter du et nytt dokument i Word 2007 - dummies

Slik starter du et nytt dokument i Word 2007 - dummies

Starter et nytt dokument i Word 2007 er lett. Hvis du nettopp har startet Word 2007 og vil åpne et tomt dokument, kan du følge tre enkle trinn.

Redaktørens valg

Slik oppretter du en AWS Administrator User - Dummies

Slik oppretter du en AWS Administrator User - Dummies

Opprett Administrator-gruppen er det første trinnet for å sikre at din AWS (Amazon Web Services) -kontoen er fortsatt trygg. Det neste trinnet er å opprette en konto for deg selv og tilordne den til administratorgruppen, slik at du har full tilgang til de administrative funksjonene i din AWS-konto. Følgende trinn beskriver hvordan ...

Vurderer AWS-støttede plattformer - dummies

Vurderer AWS-støttede plattformer - dummies

Hvis du ikke har behandlet AWS eller skyen ennå, du kan være fristet til å tenke på plattformer som en bestemt kombinasjon av gjenstander. For eksempel, når du ser ditt eget lokale oppsett, har du en server som kjører et bestemt operativsystem og har et bestemt sett med maskinvareressurser. Systemet har en bestemt ...

Lage skuffer på Amazon Web Services - dummies

Lage skuffer på Amazon Web Services - dummies

Når du er den stolte eieren av Amazon Web Services (AWS ) konto, det er på tide å gjøre noe nyttig, som å lage en bøtte. Start med å sjekke ut dine S3-ressurser. For å gjøre det, klikk S3-lenken på startsiden for AWS Management Console, som vist her: Du er tatt til en side som lar deg administrere ...

Redaktørens valg

Slik bruker du Eye-Fi med Evernote-dummies

Slik bruker du Eye-Fi med Evernote-dummies

Et selskap kalt Eye-Fi gjør det mulig å Koble kameraet ditt med Evernote, selv uten å koble kameraet til datamaskinen. Følg disse trinnene for å bruke Eye-Fi: Følg instruksjonene som følger med Eye-Fi-kortet for å konfigurere en Eye-Fi-konto. Sett inn Eye-Fi-kortet i kameraet. Slå på kameraet ditt. ...

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hele poenget med å lagre nyttig informasjon er for å kunne finne den senere. Tagging i Evernote er fundamentalt lik for alle plattformer og er ekstremt nyttig når du dash om å prøve å skrive inn notater på hvilken enhet du bruker på den tiden. For å lage en tagg for et notat på en datamaskin eller ...

COL1 COL2 kol3 Col4 Col5 scikit
5. 1 3. 5 en. 4 0. 2 0 opprinnelige
5. 1 3. 5 en. 4 0. 2 Iris-setosa scikit
7. 0 3. 2 4. 7 en. 4 1 opprinnelige
7. 0 3. 2 4. 7 en. 4 Iris-versicolor scikit
6. 3 3. 3 6. 0 2. 5 2 opprinnelige
6. 3 3. 3 6. 0 2. 5 Iris-virginica