10 Måter å forbedre maskinens læringsmodeller - dummies

Når du er maskinlæringsalgoritme, er ferdig med å lære av dataene som er oppnådd ved hjelp av Python eller R, tenker du på Resultater fra testsettet ditt og lurer på om du kan forbedre dem eller virkelig har nådd det beste resultatet. Det finnes en rekke kontroller og handlinger som hint på metoder du kan bruke til å forbedre maskinlæringsytelsen og oppnå en mer generell prediktor som kan fungere like bra med testsettet eller nye data. Denne listen med ti teknikker gir deg muligheter til å forbedre utfallet som er oppnådd ved hjelp av maskinlæringsalgoritmer.

Studier av læringskurver

Som et første skritt for å forbedre resultatene dine må du avgjøre problemene med modellen. Læringskurver krever at du verifiserer mot et testsett som varierer antall treningsinstanser. Du vil øyeblikkelig legge merke til om du finner stor forskjell mellom feilene dine i prøven og feilen. En bred begynnelsesforskjell er et tegn på estimatavvik; Omvendt har feil som er både høye og liknende et tegn på at du jobber med en forutinntatt modell.

Python hjelper deg med å tegne læringskurver ved hjelp av funksjonen Scikit-learn (). Du kan også enkelt oppnå det samme resultatet ved å bruke R med tilpassede funksjoner, som beskrevet av Revolution analytics bloggen.

Bruk kryssvalidering riktig

Å se en stor forskjell mellom estimatene for kryssvalidering (CV) og resultatet er et vanlig problem som vises med et testsett eller nye data. Å ha dette problemet betyr at noe gikk galt med kryssvalideringen. Utover det faktum at CV ikke er en god ytelsesspådommer, betyr dette problemet også at en misvisende indikator har ført til at du modellerer problemet feil og oppnår utilfredsstillende resultater.

Kryssvalidering gir deg hint når trinnene du tar er riktige. Det er viktig, men ikke kritisk, at CV-estimater nettopp repliserer feilmålinger utenom prøven. Det er imidlertid avgjørende at CV-anslagene korrekt reflekterer forbedring eller forverring i testfasen på grunn av dine modelleringsbeslutninger. Vanligvis er det to grunner til at kryssvalideringsestimatene kan variere fra de ekte feilresultatene:

Snooping
Feil prøvetaking

Python tilbyr en stratifisert k-folds CV-sampler. R kan stratifisere prøver ved hjelp av createFolds-metoden i caret-biblioteket når du gir y-parameteren som en faktor.

Velge den riktige feilen eller måleverdien

Å prøve å optimalisere en feilmåling basert på medianfeilen ved å bruke en læringsalgoritme basert på gjennomsnittlig feil, gir deg ikke de beste resultatene, med mindre du administrerer optimaliseringsprosessen i en mote som fungerer til fordel for din valgte metriske.Når du løser et problem ved å bruke data og maskinlæring, må du analysere problemet og bestemme det ideelle metriske for å optimalisere.

Eksempler kan hjelpe mye. Du kan få mange av dem fra akademiske artikler og fra offentlige maskininlærings konkurranser som nøye definerer bestemte problemer med hensyn til data og feil / score metrisk. Se etter en konkurranse hvis mål og data er lik din, og kontroller deretter den forespurte metriske.

Søker etter de beste hyperparametrene

De fleste algoritmer utfører ganske godt ut av boksen ved hjelp av standardparameterinnstillingene. Du kan imidlertid alltid oppnå bedre resultater ved å teste forskjellige hyperparametere. Alt du trenger å gjøre er å lage et rutenett søk blant mulige verdier som parametrene dine kan ta og evaluere resultatene ved hjelp av den riktige feilen eller poengsummen. Søket tar tid, men det kan forbedre resultatene dine.

Når et søk tar for lang tid å fullføre, kan du ofte oppnå de samme resultatene ved å arbeide med et utvalg av dine opprinnelige data. Færre eksempler som er valgt tilfeldig, krever færre beregninger, men de antyder vanligvis på samme løsning. Et annet triks som kan spare tid og krefter er å gjøre et randomisert søk, og dermed begrense antall hyperparameterkombinasjoner for å teste.

Testing av flere modeller

Som en god praksis, test flere modeller, med utgangspunkt i de grunnleggende - modellene som har mer bias enn varians. Du bør alltid favorisere enkle løsninger over komplekse. Du kan oppdage at en enkel løsning fungerer bedre.

Representerer ytelsen til ulike modeller ved hjelp av det samme diagrammet, er nyttig før du velger det beste for å løse problemet. Du kan plassere modeller som brukes til å forutsi forbrukeradferd, for eksempel et svar på et kommersielt tilbud, i spesielle gevinstdiagrammer og løftediagrammer. Disse diagrammene viser hvordan modellen din utfører ved å partisjonere resultatene i deciler eller mindre deler.

Fordi du kanskje bare er interessert i forbrukerne som mest sannsynlig vil svare på tilbudet ditt, vil bestilling av spådommer fra mest til minst sannsynlig understreke hvor godt modellene dine er, når du forutsier de mest lovende kundene. Disse Quora-svarene hjelper deg å se hvordan gevinst og løftediagrammer fungerer: Hva er ROC-kurven? og hva er løftekurven?.

Testing av flere modeller og introspecting dem kan også gi forslag til hvilke funksjoner som skal transformeres for funksjonskapasitet, eller hvilken funksjon som skal utelukkes når du velger funksjonsvalg.

Gjennomsnittlig modell

Maskinlæring innebærer å bygge mange modeller og skape mange forskjellige spådommer, alle med forskjellige forventede feilopptredener. Det kan overraske deg å vite at du kan få enda bedre resultater ved å samle modellene sammen. Prinsippet er ganske enkelt: Estimatvariasjonen er tilfeldig, slik at ved å beregne mange forskjellige modeller, kan du forbedre signalet og utelukke støyen som ofte vil avbryte seg.

Noen ganger kan resultatene fra en algoritme som fungerer bra, blandes med resultatene fra en enklere algoritme som ikke fungerer også, skape bedre spådommer enn å bruke en enkelt algoritme.Undervurder ikke bidrag levert fra enklere modeller, for eksempel lineære modeller, når du gjennomsnittlig resultater med utdata fra mer sofistikerte algoritmer, for eksempel gradientforsterking.

Stacking modeller

Av samme grunner som gjennomsnittlig arbeid, kan stabling også gi deg bedre ytelse. I stabling bygger du maskinmodellmodeller i to trinn. I utgangspunktet forutsetter denne teknikken flere resultater ved hjelp av forskjellige algoritmer, med alle dem som lærer av funksjonene som er tilstede i dataene dine. I andre fase, i stedet for å gi funksjoner som en ny modell vil lære, gir du den modellen med spådommene til de andre, tidligere utdannede modellene.

Bruk av to-trinns tilnærming er berettiget når du gjetter komplekse målfunksjoner. Du kan omtrentliggjøre dem bare ved å bruke flere modeller sammen og deretter ved å kombinere resultatet av multiplikasjonen på en smart måte. Du kan bruke en enkel logistisk regresjon eller et komplisert tre ensemble som en andre fase modell.

Netflix-konkurransen gir bevis og en detaljert illustrasjon om hvordan heterogene modeller kan stables sammen for å danne kraftigere modeller. Imidlertid kan implementering av denne løsningen som en fungerende applikasjon være ganske tungvint.

Bruk av funksjonsteknikk

Hvis du mener at bias fortsatt påvirker modellen, har du lite valg, men å skape nye funksjoner som forbedrer modellens ytelse. Hver ny funksjon kan gjette målresponsen lettere.

Automatisk funksjonalisering er mulig ved bruk av polynomial ekspansjon eller støttevektormaskiner-klassen av maskinlæringsalgoritmer. Støttevektormaskiner kan automatisk se etter bedre funksjoner i mellomdimensjonale funksjoner på en måte som er både beregnende rask og minneoptimal.

Men ingenting kan egentlig erstatte din kompetanse og forståelse av metoden som trengs for å løse dataproblemet som algoritmen prøver å lære. Du kan lage funksjoner basert på din kunnskap og ideer om hvordan ting fungerer i verden. Mennesker er fortsatt uslåelige på det, og maskiner kan ikke enkelt erstatte dem.

Valg av funksjoner og eksempler

Hvis estimatvariasjonen er høy og algoritmen din er avhengig av mange funksjoner, må du beskjære noen funksjoner for bedre resultater. I denne sammenhengen er det anbefalt å redusere antallet funksjoner i datamatrisen ved å velge de som har den høyeste prediktive verdien.

Når du arbeider med lineære modeller, er lineær støttevektormaskiner eller nevrale nettverk, regularisering alltid et alternativ. Både L1 og L2 kan redusere påvirkning av redundante variabler eller til og med fjerne dem fra modellen. Stabilitetsvalg utnytter L1-evnen til å utelukke mindre nyttige variabler. Teknikken gjenoppretter treningsdataene for å bekrefte ekskluderingen.

Du kan lære mer om stabilitetsvalg ved å se eksemplet på nettstedet Scikit-lær. I tillegg kan du øve med å bruke RandomizedLogisticRegression og RandomizedLasso Scikit-learn-funksjonene i linear_model-modulen.

Leter du etter flere data

Etter å ha prøvd alle de forrige forslagene, kan du fortsatt ha en høy variasjon av spådommer som skal håndteres. I dette tilfellet er ditt eneste alternativ å øke størrelsen på treningssettet. Prøv å øke prøven ved å gi nye data, som kan oversette til nye tilfeller eller nye funksjoner.

Hvis du vil legge til flere tilfeller, bare se for å se om du har lignende data tilgjengelig. Hvis du vil legge til nye funksjoner, kan du finne en åpen kildekode datakilde, hvis det er mulig, for å matche dataene dine med oppføringene. En annen fin måte å skaffe seg både nye saker og nye funksjoner på er å skrape data fra nettet. Ofte er data tilgjengelig mellom ulike kilder eller gjennom et programmeringsgrensesnitt (API). Google APIs tilbyr for eksempel mange geografiske og forretningskilder.