Hjem Personlig finansiering Identifisere manglende data for maskinlæring - dummies

Identifisere manglende data for maskinlæring - dummies

Video: Data Analysis in R by Dustin Tran 2024

Video: Data Analysis in R by Dustin Tran 2024
Anonim

Selv om du har nok eksempler til stede for å trene både enkle og komplekse maskinlæringsalgoritmer, må de presentere komplette verdier i funksjonene uten eventuelle manglende data. Å ha et ufullstendig eksempel gjør at alle signalene i og mellom funksjoner er umulige. Manglende verdier gjør det også vanskelig for algoritmen å lære under trening. Du må gjøre noe med de manglende dataene.

Ofte kan du ignorere manglende verdier eller reparere dem ved å gjette en sannsynlig erstatningsverdi. For mange manglende verdier gir imidlertid flere usikre spådommer fordi manglende informasjon kan skjule enhver mulig figur; Følgelig er de mer manglende verdiene i funksjonene, jo mer variabel og presiserer spådommene.

Som et første trinn, telle antall manglende tilfeller i hver variabel. Når en variabel har for mange manglende tilfeller, kan det hende du må slippe det fra trenings- og testdatasettet. En god tommelfingerregel er å slippe en variabel hvis mer enn 90 prosent av sine forekomster mangler.

Noen læringsalgoritmer vet ikke hvordan man skal håndtere manglende verdier og rapportere feil i både trening og testfaser, mens andre modeller behandler dem som nullverdier, noe som fører til en undervurdering av forutsatt verdi eller sannsynlighet (det er som om en del av formelen ikke fungerer som den skal). Du må derfor erstatte alle de manglende verdiene i datamatrisen din med en passende verdi for maskinlæring å skje riktig.

Det finnes mange grunner for manglende data, men det viktigste punktet er om dataene mangler tilfeldig eller i en bestemt rekkefølge. Tilfeldig manglende data er ideell fordi du kan gjette sin verdi ved hjelp av et enkelt gjennomsnitt, en median eller en annen maskinlæringsalgoritme, uten for mange bekymringer. Noen tilfeller inneholder en sterk forspenning mot visse typer eksempler.

For eksempel tenk på saken om å studere inntektene til en befolkning. Velstående mennesker (av skattemessige årsaker, antageligvis) har en tendens til å skjule sin sanne inntekt ved å rapportere til deg at de ikke vet det. Dårlig folk, derimot, kan si at de ikke vil rapportere sin inntekt av frykt for negativ vurdering. Hvis du savner informasjon fra bestemte lag av befolkningen, kan det være vanskelig og villedende å reparere de manglende dataene fordi du kanskje tror at slike tilfeller er akkurat som de andre.

I stedet er de ganske forskjellige. Derfor kan du ikke bare bruke gjennomsnittsverdier for å erstatte de manglende verdiene - du må bruke komplekse tilnærminger og stille dem nøye.Videre er det vanskelig å identifisere tilfeller som ikke mangler data tilfeldig, fordi det krever en nærmere inspeksjon av hvordan manglende verdier er knyttet til andre variabler i datasettet.

Når data mangler tilfeldig, kan du enkelt reparere de tomme verdiene fordi du henter tips til sin sanne verdi fra andre variabler. Når data ikke mangler tilfeldig, kan du ikke få gode hint fra annen tilgjengelig informasjon, med mindre du forstår dataforeningen med det manglende saken.

Derfor, hvis du må finne ut av manglende inntekt i dataene dine, og det mangler fordi personen er rik, kan du ikke erstatte den manglende verdien med et enkelt gjennomsnitt fordi du erstatter det med en middels inntekt. I stedet bør du bruke et gjennomsnitt av inntektene til velstående mennesker som en erstatning.

Når data ikke mangler tilfeldig, er det faktum at verdien mangler informativ fordi den hjelper å spore opp den manglende gruppen. Du kan forlate arbeidet med å lete etter grunnen til at den mangler i maskinens læringsalgoritme ved å bygge en ny binær funksjon som rapporterer når verdien av en variabel mangler. Derfor vil maskinlæringsalgoritmen finne ut den beste verdien å bruke som en erstatning av seg selv.

Identifisere manglende data for maskinlæring - dummies

Redaktørens valg

Hvordan å stable og gruppereformer i Word 2013 - dummies

Hvordan å stable og gruppereformer i Word 2013 - dummies

Enkeltformer kan noen ganger være nyttige i en dokument, men den virkelige kraften til Word 2013's Shapes-funksjonen kan bli funnet ved å kombinere figurer for å lage mer komplekse tegninger og logoer. Du kan stable formene oppå hverandre og kontrollere rekkefølgen de vises i stakken. Når du har ...

Hvordan du angir punktavstand i Word 2013 - dummies

Hvordan du angir punktavstand i Word 2013 - dummies

Word 2013 lar deg legge til "luft" til plass før eller etter eller i midten av avsnittene dine. I midten av avsnittet har du linjeavstand. Før og etter avsnittet kommer punktavstand. Hvordan sette linjeavstanden Endre linjeavstanden legger til ekstra mellomrom mellom alle tekstlinjer ...

Slik starter du et nytt dokument i Word 2007 - dummies

Slik starter du et nytt dokument i Word 2007 - dummies

Starter et nytt dokument i Word 2007 er lett. Hvis du nettopp har startet Word 2007 og vil åpne et tomt dokument, kan du følge tre enkle trinn.

Redaktørens valg

Slik oppretter du en AWS Administrator User - Dummies

Slik oppretter du en AWS Administrator User - Dummies

Opprett Administrator-gruppen er det første trinnet for å sikre at din AWS (Amazon Web Services) -kontoen er fortsatt trygg. Det neste trinnet er å opprette en konto for deg selv og tilordne den til administratorgruppen, slik at du har full tilgang til de administrative funksjonene i din AWS-konto. Følgende trinn beskriver hvordan ...

Vurderer AWS-støttede plattformer - dummies

Vurderer AWS-støttede plattformer - dummies

Hvis du ikke har behandlet AWS eller skyen ennå, du kan være fristet til å tenke på plattformer som en bestemt kombinasjon av gjenstander. For eksempel, når du ser ditt eget lokale oppsett, har du en server som kjører et bestemt operativsystem og har et bestemt sett med maskinvareressurser. Systemet har en bestemt ...

Lage skuffer på Amazon Web Services - dummies

Lage skuffer på Amazon Web Services - dummies

Når du er den stolte eieren av Amazon Web Services (AWS ) konto, det er på tide å gjøre noe nyttig, som å lage en bøtte. Start med å sjekke ut dine S3-ressurser. For å gjøre det, klikk S3-lenken på startsiden for AWS Management Console, som vist her: Du er tatt til en side som lar deg administrere ...

Redaktørens valg

Slik bruker du Eye-Fi med Evernote-dummies

Slik bruker du Eye-Fi med Evernote-dummies

Et selskap kalt Eye-Fi gjør det mulig å Koble kameraet ditt med Evernote, selv uten å koble kameraet til datamaskinen. Følg disse trinnene for å bruke Eye-Fi: Følg instruksjonene som følger med Eye-Fi-kortet for å konfigurere en Eye-Fi-konto. Sett inn Eye-Fi-kortet i kameraet. Slå på kameraet ditt. ...

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hele poenget med å lagre nyttig informasjon er for å kunne finne den senere. Tagging i Evernote er fundamentalt lik for alle plattformer og er ekstremt nyttig når du dash om å prøve å skrive inn notater på hvilken enhet du bruker på den tiden. For å lage en tagg for et notat på en datamaskin eller ...