Identifisere manglende data for maskinlæring - dummies

Video: Data Analysis in R by Dustin Tran 2025

Selv om du har nok eksempler til stede for å trene både enkle og komplekse maskinlæringsalgoritmer, må de presentere komplette verdier i funksjonene uten eventuelle manglende data. Å ha et ufullstendig eksempel gjør at alle signalene i og mellom funksjoner er umulige. Manglende verdier gjør det også vanskelig for algoritmen å lære under trening. Du må gjøre noe med de manglende dataene.

Ofte kan du ignorere manglende verdier eller reparere dem ved å gjette en sannsynlig erstatningsverdi. For mange manglende verdier gir imidlertid flere usikre spådommer fordi manglende informasjon kan skjule enhver mulig figur; Følgelig er de mer manglende verdiene i funksjonene, jo mer variabel og presiserer spådommene.

Som et første trinn, telle antall manglende tilfeller i hver variabel. Når en variabel har for mange manglende tilfeller, kan det hende du må slippe det fra trenings- og testdatasettet. En god tommelfingerregel er å slippe en variabel hvis mer enn 90 prosent av sine forekomster mangler.

Noen læringsalgoritmer vet ikke hvordan man skal håndtere manglende verdier og rapportere feil i både trening og testfaser, mens andre modeller behandler dem som nullverdier, noe som fører til en undervurdering av forutsatt verdi eller sannsynlighet (det er som om en del av formelen ikke fungerer som den skal). Du må derfor erstatte alle de manglende verdiene i datamatrisen din med en passende verdi for maskinlæring å skje riktig.

Det finnes mange grunner for manglende data, men det viktigste punktet er om dataene mangler tilfeldig eller i en bestemt rekkefølge. Tilfeldig manglende data er ideell fordi du kan gjette sin verdi ved hjelp av et enkelt gjennomsnitt, en median eller en annen maskinlæringsalgoritme, uten for mange bekymringer. Noen tilfeller inneholder en sterk forspenning mot visse typer eksempler.

For eksempel tenk på saken om å studere inntektene til en befolkning. Velstående mennesker (av skattemessige årsaker, antageligvis) har en tendens til å skjule sin sanne inntekt ved å rapportere til deg at de ikke vet det. Dårlig folk, derimot, kan si at de ikke vil rapportere sin inntekt av frykt for negativ vurdering. Hvis du savner informasjon fra bestemte lag av befolkningen, kan det være vanskelig og villedende å reparere de manglende dataene fordi du kanskje tror at slike tilfeller er akkurat som de andre.

I stedet er de ganske forskjellige. Derfor kan du ikke bare bruke gjennomsnittsverdier for å erstatte de manglende verdiene - du må bruke komplekse tilnærminger og stille dem nøye.Videre er det vanskelig å identifisere tilfeller som ikke mangler data tilfeldig, fordi det krever en nærmere inspeksjon av hvordan manglende verdier er knyttet til andre variabler i datasettet.

Når data mangler tilfeldig, kan du enkelt reparere de tomme verdiene fordi du henter tips til sin sanne verdi fra andre variabler. Når data ikke mangler tilfeldig, kan du ikke få gode hint fra annen tilgjengelig informasjon, med mindre du forstår dataforeningen med det manglende saken.

Derfor, hvis du må finne ut av manglende inntekt i dataene dine, og det mangler fordi personen er rik, kan du ikke erstatte den manglende verdien med et enkelt gjennomsnitt fordi du erstatter det med en middels inntekt. I stedet bør du bruke et gjennomsnitt av inntektene til velstående mennesker som en erstatning.

Når data ikke mangler tilfeldig, er det faktum at verdien mangler informativ fordi den hjelper å spore opp den manglende gruppen. Du kan forlate arbeidet med å lete etter grunnen til at den mangler i maskinens læringsalgoritme ved å bygge en ny binær funksjon som rapporterer når verdien av en variabel mangler. Derfor vil maskinlæringsalgoritmen finne ut den beste verdien å bruke som en erstatning av seg selv.