Hjem Personlig finansiering Hvordan du klargjør data for forutsigbar analyse - dummies

Hvordan du klargjør data for forutsigbar analyse - dummies

Innholdsfortegnelse:

Video: JMP (2019) Klargjøre data før analyser 2025

Video: JMP (2019) Klargjøre data før analyser 2025
Anonim

Når du lærer et nytt programmeringsspråk, er det vanlig å skrive "hallo verden" -programmet. For maskinlæring og forutsigbar analyse, er det å lage en modell for å klassifisere Iris datasettet sitt "hello world" tilsvarende program. Dette er et ganske enkelt eksempel, men det er veldig effektivt å lære grunnleggende om maskinlæring og prediktiv analyse.

Slik får du prøvedatasettet

For å lage vår prediktive modell, må du laste ned prøven Iris datasett. Dette datasettet er fritt tilgjengelig fra mange kilder, særlig på akademiske institusjoner som har maskinlæringsavdelinger. Heldigvis var folkene hyggelig nok til å inkludere noen eksempler på datasett og data-lastefunksjoner sammen med deres pakke. I forbindelse med disse eksemplene trenger du bare å kjøre et par enkle linjer med kode for å laste inn dataene.

Slik merker du dataene dine

Her er en observasjon og dens funksjoner fra hver klasse av Iris Flower datasettet.

Sepal Lengde Sepal Bredde Kronbladets lengde Kronbredde Målgruppe / Etikett
5. 1 3. 5 en. 4 0. 2 Setosa (0)
7. 0 3. 2 4. 7 en. 4 Versicolor (1)
6. 3 3. 3 6. 0 2. 5 Virginica (2)
Iris Setosa, Iris Virginica, og Iris Versicolor ) introdusert av Ronald Fisher i sin 1936 artikkel, "Bruken av flere målinger i taksonomiske problemer. "Dette datasettet er best kjent for sin omfattende bruk i akademia for maskinlæring og statistikk. Datasettet består av 150 totalt forekomster, med 50 forekomster fra hver av de tre klassene i Iris-blomsten. Prøven har 4 funksjoner (også vanligvis kalt

attributter ), som er lengde og bredde målinger av blomstene og kronbladene.

Den interessante delen av dette datasettet er at de tre klassene er noe lineært separerbare. Klassen

Setosa kan skilles fra de to andre klassene ved å tegne en rett linje på grafen mellom dem. Klassene Virginica og Versicolor kan ikke skilles helt med en rett linje - selv om den er nær. Dette gjør det til et perfekt kandidatdatasett for å gjøre klassifikasjonsanalyse, men ikke så bra for clustering analyse. Prøvedataene ble allerede merket. Den høyre kolonnen (Etikett) over viser navnene på hver klasse av Iris-blomsten.Klassenavnet kalles et

etikett eller et mål; den er vanligvis tilordnet en variabel som heter y . Det er i utgangspunktet utfallet eller resultatet av det som blir spådd. I statistikk og modellering blir det ofte referert til som

avhengig variabel . Det avhenger av innganger som tilsvarer sepal lengde og bredde og til petal lengde og bredde. Det kan også være lurt å vite hva som er annerledes med det skikkede preprocessed Iris datasettet, sammenlignet med det opprinnelige datasettet. For å finne ut, må du oppnå den opprinnelige datafilen. Du kan gjøre et Google-søk for

iris datasett og laste det ned eller se det fra en av de akademiske institusjonene. Resultatet som vanligvis kommer opp først er Universitetet i California Irvines (UCI) maskinlæreregister for datasett. Iris datasettet i sin opprinnelige tilstand fra UCI-maskinlæreregisteret finner du på UCIs nettsted.

Hvis du laster ned den, bør du kunne se den med alle tekstredigeringsprogrammer. Når du ser dataene i filen, vil du legge merke til at det er fem kolonner i hver rad. De fire første kolonnene er målingene (referert til som

funksjoner ) og den siste kolonnen er etiketten. Etiketten skiller mellom originale og scikit-versjoner av Iris datasettet. En annen forskjell er den første raden i datafilen. Den inneholder en headerrad som brukes av scikit data-loading funksjonen. Det har ingen effekt på algoritmen selv.

Normalisering av funksjoner til tall i stedet for å holde dem som tekst gjør det lettere for algoritmer å behandle - og det er mye mer minneeffektivt. Dette er spesielt tydelig hvis du kjører veldig store datasett med mange funksjoner - som ofte er tilfelle i ekte scenarier.

Her er eksempler på data fra begge filene. Alle datakolonnene er de samme unntatt Col5. Merk at scikit har klassenavn med numeriske etiketter; Den opprinnelige filen har tekstetiketter.

kilde

Hvordan du klargjør data for forutsigbar analyse - dummies

Redaktørens valg

10 Tips for visuelt analysere og presentere data i Excel - dummies

10 Tips for visuelt analysere og presentere data i Excel - dummies

Her er noen konkrete forslag om hvordan du med hell kan bruke diagrammer som dataanalyseværktøy i Excel, og hvordan du kan bruke diagrammer for å mer effektivt kommunisere resultatene av dataanalysen du gjør. Bruk riktig diagramtype Hva mange mennesker ikke skjønner er at du bare kan lage fem ...

10 Måter å forbedre Power Pivot Performance - dummies

10 Måter å forbedre Power Pivot Performance - dummies

Når du publiserer Power Pivot-rapporter på nettet, har du tenkt for å gi publikum den beste opplevelsen som er mulig. En stor del av denne erfaringen er å sikre at ytelsen er god. Ordet ytelse (som det gjelder applikasjoner og rapportering) er vanligvis synonymt med hastighet - eller hvor raskt et program utfører bestemte handlinger ...

Legger ekstra analyselagre til Excel-diagrammer - dummies

Legger ekstra analyselagre til Excel-diagrammer - dummies

Det er ikke uvanlig å bli bedt om å legge til Ekstra analyse til din visualisering som vanligvis ikke er plottet på et Excel-diagram. For eksempel viser dette diagramet salg for hvert kvartal, men klienten vil kanskje også se prosentveksten i samme kvartal. De fleste Excel-analytikere oppfyller dette behovet med faktiske tekstbokser. ...

Redaktørens valg

Reise fotografering kamera sammenligning diagram - dummies

Reise fotografering kamera sammenligning diagram - dummies

Fra smarte telefoner til punkt-og-skyte og digitale speilreflekskameraer, du har en mange fotograferingsvalg der ute. Bruk følgende diagram for å se hvilken type kamera som passer best for deg. Smartphone Point-and-shoot dSLR Bildesensor Kvalitet Lav til middels Medium Høy Vannbestandig (egnet for basseng) Sjeldne Få modeller Sjeldne Optiske Zoom Lav ...

Ta et makrofoto-dummies

Ta et makrofoto-dummies

Fotografi (makrofotografi) gir deg den som ser bildene dine, utsikt over verden ikke normalt sett av det blotte øye. De fleste kameraer, selv smarttelefoner, kan skyte ting med en rimelig nærhet med en viss grad av klarhet og fokus. Mens du reiser, finner du ting som skyter nærbilde, for eksempel hva du spiser til middag, en merkelig feil, ...

Forestille et Moving Object - dummies

Forestille et Moving Object - dummies

Når du ser et bilde, skjønner du selv hva som skjedde da det ble tatt. Noen bilder kan innebære bevegelse eller aktivitet. For eksempel kan du fokusere på en sykkel som beveger seg nedover gaten med bygningene bak den sløret. Dette er annerledes enn grunne dybdeskarphet, men fordi blenderåpningen ikke er det som skaper ...

Redaktørens valg

ACT-strategi for å multiplisere en horisontal matrise med en vertikal matrise - dummies

ACT-strategi for å multiplisere en horisontal matrise med en vertikal matrise - dummies

På ACT Matematisk test, du må sannsynligvis multiplisere par matriser som har enten en rad eller en kolonne. En enkel måte å formere en horisontal matrise med en vertikal matris er å sette opp et lite rutenett. Denne metoden lar deg fylle ut tallene for å få det riktige svaret. Matrix ...

ACT-strategi for å løse en matrise ved hjelp av en determinant-dummies

ACT-strategi for å løse en matrise ved hjelp av en determinant-dummies

Er en determinant en vanlig operasjon utført på en firkantet matrise. På ACT Math-testen er den eneste determinantformelen du trenger å være kjent med, for en 2 x 2-matrise. Her er formelen for determinanten av Merk at determinanten av en matrise bare er et tall, ikke en matrise. Å ...

ACT Trick for Quadratics: Slik finner du raskt en Parabola-dummies retning

ACT Trick for Quadratics: Slik finner du raskt en Parabola-dummies retning

For å spare tid når du graver en kvadratisk funksjon på ACT Math-testen, kan du raskt bestemme retningen for parabolen ved hjelp av et enkelt triks basert på koeffisienten a. Dette trikset vedrører tegnet på variabelen a (i uttrykket ax2): Når a er positivt, er grafen konkav opp. I ...

COL1 COL2 kol3 Col4 Col5 scikit
5. 1 3. 5 en. 4 0. 2 0 opprinnelige
5. 1 3. 5 en. 4 0. 2 Iris-setosa scikit
7. 0 3. 2 4. 7 en. 4 1 opprinnelige
7. 0 3. 2 4. 7 en. 4 Iris-versicolor scikit
6. 3 3. 3 6. 0 2. 5 2 opprinnelige
6. 3 3. 3 6. 0 2. 5 Iris-virginica