Trening, validering og testing i maskinlæring - dummies

Video: The Connected Vehicle: How Analytics Drives Telematics Value 2025

I en perfekt verden kan du utføre en test på data som maskinalæringsalgoritmen din aldri har lært fra før. Det er imidlertid ikke alltid mulig å vente på friske data når det gjelder tid og kostnader.

Som et første enkelt middel kan du tilfeldig dele dataene dine i trenings- og testsett. Den felles delingen er fra 25 til 30 prosent for testing og de resterende 75 til 70 prosent for trening. Du deler dataene dine med svar og funksjoner samtidig, og holder korrespondanse mellom hvert svar og dets funksjoner.

Den andre løsningen oppstår når du må stille din læring algoritme. I dette tilfellet er testdelt data ikke en god praksis fordi det forårsaker en annen form for overfitting som kalles snooping. For å overvinne snooping trenger du en tredje splitt, kalt et valideringssett. En antydet deling er å få eksemplene dine delt i tredjedeler: 70 prosent for trening, 20 prosent for validering og 10 prosent for testing.

Du bør utføre splittet tilfeldig, det vil si uansett den første bestillingen av dataene. Ellers vil testen din ikke være pålitelig, fordi bestilling kan føre til overvurdering (når det er noen meningsfylt bestilling) eller underestimering (når fordelen er for stor). Som en løsning må du sørge for at prøvesettfordelingen ikke er veldig forskjellig fra treningsfordelingen, og at sekvensiell bestilling skjer i delt data.

For eksempel, kontroller om identifikasjonsnumre, når de er tilgjengelige, er kontinuerlige i settene dine. Noen ganger, selv om du strengt følger med tilfeldig prøvetaking, kan du ikke alltid få lignende fordelinger blant sett, spesielt når antall eksempler er små.

Når antallet eksempler n er høyt, for eksempel n> 10, 000, kan du ganske trygt lage et tilfeldig delt datasett. Når datasettet er mindre, vil sammenligning av grunnleggende statistikk som gjennomsnitt, modus, median og varians over svaret og funksjonene i opplærings- og testsettene hjelpe deg å forstå om testsettet er uegnet. Når du ikke er sikker på at splitten er riktig, bare beregne en ny.