Hjem Personlig finansiering 10 Måter å forbedre maskinens læringsmodeller - dummies

10 Måter å forbedre maskinens læringsmodeller - dummies

Innholdsfortegnelse:

Video: CS:GO Topp 10 #1 - Måter å forbedre aim 2025

Video: CS:GO Topp 10 #1 - Måter å forbedre aim 2025
Anonim

Når du er maskinlæringsalgoritme, er ferdig med å lære av dataene som er oppnådd ved hjelp av Python eller R, tenker du på Resultater fra testsettet ditt og lurer på om du kan forbedre dem eller virkelig har nådd det beste resultatet. Det finnes en rekke kontroller og handlinger som hint på metoder du kan bruke til å forbedre maskinlæringsytelsen og oppnå en mer generell prediktor som kan fungere like bra med testsettet eller nye data. Denne listen med ti teknikker gir deg muligheter til å forbedre utfallet som er oppnådd ved hjelp av maskinlæringsalgoritmer.

Studier av læringskurver

Som et første skritt for å forbedre resultatene dine må du avgjøre problemene med modellen. Læringskurver krever at du verifiserer mot et testsett som varierer antall treningsinstanser. Du vil øyeblikkelig legge merke til om du finner stor forskjell mellom feilene dine i prøven og feilen. En bred begynnelsesforskjell er et tegn på estimatavvik; Omvendt har feil som er både høye og liknende et tegn på at du jobber med en forutinntatt modell.

Python hjelper deg med å tegne læringskurver ved hjelp av funksjonen Scikit-learn (). Du kan også enkelt oppnå det samme resultatet ved å bruke R med tilpassede funksjoner, som beskrevet av Revolution analytics bloggen.

Bruk kryssvalidering riktig

Å se en stor forskjell mellom estimatene for kryssvalidering (CV) og resultatet er et vanlig problem som vises med et testsett eller nye data. Å ha dette problemet betyr at noe gikk galt med kryssvalideringen. Utover det faktum at CV ikke er en god ytelsesspådommer, betyr dette problemet også at en misvisende indikator har ført til at du modellerer problemet feil og oppnår utilfredsstillende resultater.

Kryssvalidering gir deg hint når trinnene du tar er riktige. Det er viktig, men ikke kritisk, at CV-estimater nettopp repliserer feilmålinger utenom prøven. Det er imidlertid avgjørende at CV-anslagene korrekt reflekterer forbedring eller forverring i testfasen på grunn av dine modelleringsbeslutninger. Vanligvis er det to grunner til at kryssvalideringsestimatene kan variere fra de ekte feilresultatene:

  • Snooping
  • Feil prøvetaking

Python tilbyr en stratifisert k-folds CV-sampler. R kan stratifisere prøver ved hjelp av createFolds-metoden i caret-biblioteket når du gir y-parameteren som en faktor.

Velge den riktige feilen eller måleverdien

Å prøve å optimalisere en feilmåling basert på medianfeilen ved å bruke en læringsalgoritme basert på gjennomsnittlig feil, gir deg ikke de beste resultatene, med mindre du administrerer optimaliseringsprosessen i en mote som fungerer til fordel for din valgte metriske.Når du løser et problem ved å bruke data og maskinlæring, må du analysere problemet og bestemme det ideelle metriske for å optimalisere.

Eksempler kan hjelpe mye. Du kan få mange av dem fra akademiske artikler og fra offentlige maskininlærings konkurranser som nøye definerer bestemte problemer med hensyn til data og feil / score metrisk. Se etter en konkurranse hvis mål og data er lik din, og kontroller deretter den forespurte metriske.

Søker etter de beste hyperparametrene

De fleste algoritmer utfører ganske godt ut av boksen ved hjelp av standardparameterinnstillingene. Du kan imidlertid alltid oppnå bedre resultater ved å teste forskjellige hyperparametere. Alt du trenger å gjøre er å lage et rutenett søk blant mulige verdier som parametrene dine kan ta og evaluere resultatene ved hjelp av den riktige feilen eller poengsummen. Søket tar tid, men det kan forbedre resultatene dine.

Når et søk tar for lang tid å fullføre, kan du ofte oppnå de samme resultatene ved å arbeide med et utvalg av dine opprinnelige data. Færre eksempler som er valgt tilfeldig, krever færre beregninger, men de antyder vanligvis på samme løsning. Et annet triks som kan spare tid og krefter er å gjøre et randomisert søk, og dermed begrense antall hyperparameterkombinasjoner for å teste.

Testing av flere modeller

Som en god praksis, test flere modeller, med utgangspunkt i de grunnleggende - modellene som har mer bias enn varians. Du bør alltid favorisere enkle løsninger over komplekse. Du kan oppdage at en enkel løsning fungerer bedre.

Representerer ytelsen til ulike modeller ved hjelp av det samme diagrammet, er nyttig før du velger det beste for å løse problemet. Du kan plassere modeller som brukes til å forutsi forbrukeradferd, for eksempel et svar på et kommersielt tilbud, i spesielle gevinstdiagrammer og løftediagrammer. Disse diagrammene viser hvordan modellen din utfører ved å partisjonere resultatene i deciler eller mindre deler.

Fordi du kanskje bare er interessert i forbrukerne som mest sannsynlig vil svare på tilbudet ditt, vil bestilling av spådommer fra mest til minst sannsynlig understreke hvor godt modellene dine er, når du forutsier de mest lovende kundene. Disse Quora-svarene hjelper deg å se hvordan gevinst og løftediagrammer fungerer: Hva er ROC-kurven? og hva er løftekurven?.

Testing av flere modeller og introspecting dem kan også gi forslag til hvilke funksjoner som skal transformeres for funksjonskapasitet, eller hvilken funksjon som skal utelukkes når du velger funksjonsvalg.

Gjennomsnittlig modell

Maskinlæring innebærer å bygge mange modeller og skape mange forskjellige spådommer, alle med forskjellige forventede feilopptredener. Det kan overraske deg å vite at du kan få enda bedre resultater ved å samle modellene sammen. Prinsippet er ganske enkelt: Estimatvariasjonen er tilfeldig, slik at ved å beregne mange forskjellige modeller, kan du forbedre signalet og utelukke støyen som ofte vil avbryte seg.

Noen ganger kan resultatene fra en algoritme som fungerer bra, blandes med resultatene fra en enklere algoritme som ikke fungerer også, skape bedre spådommer enn å bruke en enkelt algoritme.Undervurder ikke bidrag levert fra enklere modeller, for eksempel lineære modeller, når du gjennomsnittlig resultater med utdata fra mer sofistikerte algoritmer, for eksempel gradientforsterking.

Stacking modeller

Av samme grunner som gjennomsnittlig arbeid, kan stabling også gi deg bedre ytelse. I stabling bygger du maskinmodellmodeller i to trinn. I utgangspunktet forutsetter denne teknikken flere resultater ved hjelp av forskjellige algoritmer, med alle dem som lærer av funksjonene som er tilstede i dataene dine. I andre fase, i stedet for å gi funksjoner som en ny modell vil lære, gir du den modellen med spådommene til de andre, tidligere utdannede modellene.

Bruk av to-trinns tilnærming er berettiget når du gjetter komplekse målfunksjoner. Du kan omtrentliggjøre dem bare ved å bruke flere modeller sammen og deretter ved å kombinere resultatet av multiplikasjonen på en smart måte. Du kan bruke en enkel logistisk regresjon eller et komplisert tre ensemble som en andre fase modell.

Netflix-konkurransen gir bevis og en detaljert illustrasjon om hvordan heterogene modeller kan stables sammen for å danne kraftigere modeller. Imidlertid kan implementering av denne løsningen som en fungerende applikasjon være ganske tungvint.

Bruk av funksjonsteknikk

Hvis du mener at bias fortsatt påvirker modellen, har du lite valg, men å skape nye funksjoner som forbedrer modellens ytelse. Hver ny funksjon kan gjette målresponsen lettere.

Automatisk funksjonalisering er mulig ved bruk av polynomial ekspansjon eller støttevektormaskiner-klassen av maskinlæringsalgoritmer. Støttevektormaskiner kan automatisk se etter bedre funksjoner i mellomdimensjonale funksjoner på en måte som er både beregnende rask og minneoptimal.

Men ingenting kan egentlig erstatte din kompetanse og forståelse av metoden som trengs for å løse dataproblemet som algoritmen prøver å lære. Du kan lage funksjoner basert på din kunnskap og ideer om hvordan ting fungerer i verden. Mennesker er fortsatt uslåelige på det, og maskiner kan ikke enkelt erstatte dem.

Valg av funksjoner og eksempler

Hvis estimatvariasjonen er høy og algoritmen din er avhengig av mange funksjoner, må du beskjære noen funksjoner for bedre resultater. I denne sammenhengen er det anbefalt å redusere antallet funksjoner i datamatrisen ved å velge de som har den høyeste prediktive verdien.

Når du arbeider med lineære modeller, er lineær støttevektormaskiner eller nevrale nettverk, regularisering alltid et alternativ. Både L1 og L2 kan redusere påvirkning av redundante variabler eller til og med fjerne dem fra modellen. Stabilitetsvalg utnytter L1-evnen til å utelukke mindre nyttige variabler. Teknikken gjenoppretter treningsdataene for å bekrefte ekskluderingen.

Du kan lære mer om stabilitetsvalg ved å se eksemplet på nettstedet Scikit-lær. I tillegg kan du øve med å bruke RandomizedLogisticRegression og RandomizedLasso Scikit-learn-funksjonene i linear_model-modulen.

Leter du etter flere data

Etter å ha prøvd alle de forrige forslagene, kan du fortsatt ha en høy variasjon av spådommer som skal håndteres. I dette tilfellet er ditt eneste alternativ å øke størrelsen på treningssettet. Prøv å øke prøven ved å gi nye data, som kan oversette til nye tilfeller eller nye funksjoner.

Hvis du vil legge til flere tilfeller, bare se for å se om du har lignende data tilgjengelig. Hvis du vil legge til nye funksjoner, kan du finne en åpen kildekode datakilde, hvis det er mulig, for å matche dataene dine med oppføringene. En annen fin måte å skaffe seg både nye saker og nye funksjoner på er å skrape data fra nettet. Ofte er data tilgjengelig mellom ulike kilder eller gjennom et programmeringsgrensesnitt (API). Google APIs tilbyr for eksempel mange geografiske og forretningskilder.

10 Måter å forbedre maskinens læringsmodeller - dummies

Redaktørens valg

10 Tips for visuelt analysere og presentere data i Excel - dummies

10 Tips for visuelt analysere og presentere data i Excel - dummies

Her er noen konkrete forslag om hvordan du med hell kan bruke diagrammer som dataanalyseværktøy i Excel, og hvordan du kan bruke diagrammer for å mer effektivt kommunisere resultatene av dataanalysen du gjør. Bruk riktig diagramtype Hva mange mennesker ikke skjønner er at du bare kan lage fem ...

10 Måter å forbedre Power Pivot Performance - dummies

10 Måter å forbedre Power Pivot Performance - dummies

Når du publiserer Power Pivot-rapporter på nettet, har du tenkt for å gi publikum den beste opplevelsen som er mulig. En stor del av denne erfaringen er å sikre at ytelsen er god. Ordet ytelse (som det gjelder applikasjoner og rapportering) er vanligvis synonymt med hastighet - eller hvor raskt et program utfører bestemte handlinger ...

Legger ekstra analyselagre til Excel-diagrammer - dummies

Legger ekstra analyselagre til Excel-diagrammer - dummies

Det er ikke uvanlig å bli bedt om å legge til Ekstra analyse til din visualisering som vanligvis ikke er plottet på et Excel-diagram. For eksempel viser dette diagramet salg for hvert kvartal, men klienten vil kanskje også se prosentveksten i samme kvartal. De fleste Excel-analytikere oppfyller dette behovet med faktiske tekstbokser. ...

Redaktørens valg

Data Visualisering Storyboard: Dokumentasjon Key Performance Indicators (KPIs) - dummies

Data Visualisering Storyboard: Dokumentasjon Key Performance Indicators (KPIs) - dummies

Forstå nøkkelmålinger som publikum må vise, overvåke eller spore er det siste skrittet i utviklingen av historien din. Enkelt sagt er en nøkkelindikator (KPI) en kjerne-måling som knytter seg direkte til selskapets mål. Gjennomføre scoping-workshops Den beste måten å jobbe med publikum på for å dokumentere KPI-er er ...

Data Visualisering Storyboard: Dokumentasjonsmål - dummies

Data Visualisering Storyboard: Dokumentasjonsmål - dummies

Å Få en klar forståelse av målgruppens mål og eksisterende smertepunkter vil hjelpe du bestemmer hva du skal inkludere og - enda viktigere - hva som ikke skal inkluderes i storyboardet. Den enkleste måten å gjøre dette på, kan være å holde en liten planleggingsøkt som inkluderer executive sponsor (hvis det er en) og ...

Data Visualisering Storyboard: Identifisere målgruppen din - dummies

Data Visualisering Storyboard: Identifisere målgruppen din - dummies

Det første trinnet i å utvikle et klart storyboard for deg datavisualisering identifiserer publikum. Hvem du bygger data visualisering for å bestemme hvilken type storyboard du utvikler og hvilket nivå av data du viser. Den enkleste måten å klassifisere målgruppen din er å se på to enkle komponenter: forretningsområde ...

Redaktørens valg

ACT-strategi for å multiplisere en horisontal matrise med en vertikal matrise - dummies

ACT-strategi for å multiplisere en horisontal matrise med en vertikal matrise - dummies

På ACT Matematisk test, du må sannsynligvis multiplisere par matriser som har enten en rad eller en kolonne. En enkel måte å formere en horisontal matrise med en vertikal matris er å sette opp et lite rutenett. Denne metoden lar deg fylle ut tallene for å få det riktige svaret. Matrix ...

ACT-strategi for å løse en matrise ved hjelp av en determinant-dummies

ACT-strategi for å løse en matrise ved hjelp av en determinant-dummies

Er en determinant en vanlig operasjon utført på en firkantet matrise. På ACT Math-testen er den eneste determinantformelen du trenger å være kjent med, for en 2 x 2-matrise. Her er formelen for determinanten av Merk at determinanten av en matrise bare er et tall, ikke en matrise. Å ...

ACT Trick for Quadratics: Slik finner du raskt en Parabola-dummies retning

ACT Trick for Quadratics: Slik finner du raskt en Parabola-dummies retning

For å spare tid når du graver en kvadratisk funksjon på ACT Math-testen, kan du raskt bestemme retningen for parabolen ved hjelp av et enkelt triks basert på koeffisienten a. Dette trikset vedrører tegnet på variabelen a (i uttrykket ax2): Når a er positivt, er grafen konkav opp. I ...