Hjem Personlig finansiering Identifisere manglende data for maskinlæring - dummies

Identifisere manglende data for maskinlæring - dummies

Video: Data Analysis in R by Dustin Tran 2025

Video: Data Analysis in R by Dustin Tran 2025
Anonim

Selv om du har nok eksempler til stede for å trene både enkle og komplekse maskinlæringsalgoritmer, må de presentere komplette verdier i funksjonene uten eventuelle manglende data. Å ha et ufullstendig eksempel gjør at alle signalene i og mellom funksjoner er umulige. Manglende verdier gjør det også vanskelig for algoritmen å lære under trening. Du må gjøre noe med de manglende dataene.

Ofte kan du ignorere manglende verdier eller reparere dem ved å gjette en sannsynlig erstatningsverdi. For mange manglende verdier gir imidlertid flere usikre spådommer fordi manglende informasjon kan skjule enhver mulig figur; Følgelig er de mer manglende verdiene i funksjonene, jo mer variabel og presiserer spådommene.

Som et første trinn, telle antall manglende tilfeller i hver variabel. Når en variabel har for mange manglende tilfeller, kan det hende du må slippe det fra trenings- og testdatasettet. En god tommelfingerregel er å slippe en variabel hvis mer enn 90 prosent av sine forekomster mangler.

Noen læringsalgoritmer vet ikke hvordan man skal håndtere manglende verdier og rapportere feil i både trening og testfaser, mens andre modeller behandler dem som nullverdier, noe som fører til en undervurdering av forutsatt verdi eller sannsynlighet (det er som om en del av formelen ikke fungerer som den skal). Du må derfor erstatte alle de manglende verdiene i datamatrisen din med en passende verdi for maskinlæring å skje riktig.

Det finnes mange grunner for manglende data, men det viktigste punktet er om dataene mangler tilfeldig eller i en bestemt rekkefølge. Tilfeldig manglende data er ideell fordi du kan gjette sin verdi ved hjelp av et enkelt gjennomsnitt, en median eller en annen maskinlæringsalgoritme, uten for mange bekymringer. Noen tilfeller inneholder en sterk forspenning mot visse typer eksempler.

For eksempel tenk på saken om å studere inntektene til en befolkning. Velstående mennesker (av skattemessige årsaker, antageligvis) har en tendens til å skjule sin sanne inntekt ved å rapportere til deg at de ikke vet det. Dårlig folk, derimot, kan si at de ikke vil rapportere sin inntekt av frykt for negativ vurdering. Hvis du savner informasjon fra bestemte lag av befolkningen, kan det være vanskelig og villedende å reparere de manglende dataene fordi du kanskje tror at slike tilfeller er akkurat som de andre.

I stedet er de ganske forskjellige. Derfor kan du ikke bare bruke gjennomsnittsverdier for å erstatte de manglende verdiene - du må bruke komplekse tilnærminger og stille dem nøye.Videre er det vanskelig å identifisere tilfeller som ikke mangler data tilfeldig, fordi det krever en nærmere inspeksjon av hvordan manglende verdier er knyttet til andre variabler i datasettet.

Når data mangler tilfeldig, kan du enkelt reparere de tomme verdiene fordi du henter tips til sin sanne verdi fra andre variabler. Når data ikke mangler tilfeldig, kan du ikke få gode hint fra annen tilgjengelig informasjon, med mindre du forstår dataforeningen med det manglende saken.

Derfor, hvis du må finne ut av manglende inntekt i dataene dine, og det mangler fordi personen er rik, kan du ikke erstatte den manglende verdien med et enkelt gjennomsnitt fordi du erstatter det med en middels inntekt. I stedet bør du bruke et gjennomsnitt av inntektene til velstående mennesker som en erstatning.

Når data ikke mangler tilfeldig, er det faktum at verdien mangler informativ fordi den hjelper å spore opp den manglende gruppen. Du kan forlate arbeidet med å lete etter grunnen til at den mangler i maskinens læringsalgoritme ved å bygge en ny binær funksjon som rapporterer når verdien av en variabel mangler. Derfor vil maskinlæringsalgoritmen finne ut den beste verdien å bruke som en erstatning av seg selv.

Identifisere manglende data for maskinlæring - dummies

Redaktørens valg

10 Tips for visuelt analysere og presentere data i Excel - dummies

10 Tips for visuelt analysere og presentere data i Excel - dummies

Her er noen konkrete forslag om hvordan du med hell kan bruke diagrammer som dataanalyseværktøy i Excel, og hvordan du kan bruke diagrammer for å mer effektivt kommunisere resultatene av dataanalysen du gjør. Bruk riktig diagramtype Hva mange mennesker ikke skjønner er at du bare kan lage fem ...

10 Måter å forbedre Power Pivot Performance - dummies

10 Måter å forbedre Power Pivot Performance - dummies

Når du publiserer Power Pivot-rapporter på nettet, har du tenkt for å gi publikum den beste opplevelsen som er mulig. En stor del av denne erfaringen er å sikre at ytelsen er god. Ordet ytelse (som det gjelder applikasjoner og rapportering) er vanligvis synonymt med hastighet - eller hvor raskt et program utfører bestemte handlinger ...

Legger ekstra analyselagre til Excel-diagrammer - dummies

Legger ekstra analyselagre til Excel-diagrammer - dummies

Det er ikke uvanlig å bli bedt om å legge til Ekstra analyse til din visualisering som vanligvis ikke er plottet på et Excel-diagram. For eksempel viser dette diagramet salg for hvert kvartal, men klienten vil kanskje også se prosentveksten i samme kvartal. De fleste Excel-analytikere oppfyller dette behovet med faktiske tekstbokser. ...

Redaktørens valg

Reise fotografering kamera sammenligning diagram - dummies

Reise fotografering kamera sammenligning diagram - dummies

Fra smarte telefoner til punkt-og-skyte og digitale speilreflekskameraer, du har en mange fotograferingsvalg der ute. Bruk følgende diagram for å se hvilken type kamera som passer best for deg. Smartphone Point-and-shoot dSLR Bildesensor Kvalitet Lav til middels Medium Høy Vannbestandig (egnet for basseng) Sjeldne Få modeller Sjeldne Optiske Zoom Lav ...

Ta et makrofoto-dummies

Ta et makrofoto-dummies

Fotografi (makrofotografi) gir deg den som ser bildene dine, utsikt over verden ikke normalt sett av det blotte øye. De fleste kameraer, selv smarttelefoner, kan skyte ting med en rimelig nærhet med en viss grad av klarhet og fokus. Mens du reiser, finner du ting som skyter nærbilde, for eksempel hva du spiser til middag, en merkelig feil, ...

Forestille et Moving Object - dummies

Forestille et Moving Object - dummies

Når du ser et bilde, skjønner du selv hva som skjedde da det ble tatt. Noen bilder kan innebære bevegelse eller aktivitet. For eksempel kan du fokusere på en sykkel som beveger seg nedover gaten med bygningene bak den sløret. Dette er annerledes enn grunne dybdeskarphet, men fordi blenderåpningen ikke er det som skaper ...

Redaktørens valg

ACT-strategi for å multiplisere en horisontal matrise med en vertikal matrise - dummies

ACT-strategi for å multiplisere en horisontal matrise med en vertikal matrise - dummies

På ACT Matematisk test, du må sannsynligvis multiplisere par matriser som har enten en rad eller en kolonne. En enkel måte å formere en horisontal matrise med en vertikal matris er å sette opp et lite rutenett. Denne metoden lar deg fylle ut tallene for å få det riktige svaret. Matrix ...

ACT-strategi for å løse en matrise ved hjelp av en determinant-dummies

ACT-strategi for å løse en matrise ved hjelp av en determinant-dummies

Er en determinant en vanlig operasjon utført på en firkantet matrise. På ACT Math-testen er den eneste determinantformelen du trenger å være kjent med, for en 2 x 2-matrise. Her er formelen for determinanten av Merk at determinanten av en matrise bare er et tall, ikke en matrise. Å ...

ACT Trick for Quadratics: Slik finner du raskt en Parabola-dummies retning

ACT Trick for Quadratics: Slik finner du raskt en Parabola-dummies retning

For å spare tid når du graver en kvadratisk funksjon på ACT Math-testen, kan du raskt bestemme retningen for parabolen ved hjelp av et enkelt triks basert på koeffisienten a. Dette trikset vedrører tegnet på variabelen a (i uttrykket ax2): Når a er positivt, er grafen konkav opp. I ...