Bli kjent med grensene for bias i maskinlæring - dummies

Video: Premiss 2018: Grenser for debatt 2025

Maskininnlæring avhenger mye av dataene i prøven. Denne delen av dataene dine er viktig fordi du vil oppdage et syn på verden, og som med alle synspunkter, kan det være feil, forvrengt eller bare bare delvis. Du vet også at du trenger et eksempel utenfor prøven for å sjekke om læringsprosessen fungerer. Imidlertid er disse aspektene bare en del av bildet.

Når du lager en maskininlæringsalgoritme på data for å gjette et bestemt svar, tar du effektivt en gamble, og det er ikke bare på grunn av prøven du bruker til å lære. Det er mer. For øyeblikket, forestill deg at du har fri tilgang til egnede, objektive, in-sample data, så data er ikke problemet. I stedet må du konsentrere seg om metoden for læring og forutsigelse.

Først må du vurdere at du satser på at algoritmen rimelig kan gjette svaret. Du kan ikke alltid gjøre denne antagelsen fordi det ikke er mulig å finne ut visse svar uansett hva du vet på forhånd.

For eksempel kan du ikke helt bestemme menneskers oppførsel ved å kjenne sin tidligere historie og oppførsel. Kanskje en tilfeldig effekt er involvert i den generative prosessen med vår oppførsel (for eksempel den irrasjonelle delen av oss), eller kanskje problemet kommer ned til fri vilje (problemet er også en filosofisk / religiøs, og det er mange uoverensstemmende meninger). Du kan derfor bare gjette noen typer svar, og for mange andre, for eksempel når du prøver å forutsi folks adferd, må du akseptere en vis grad av usikkerhet som med hell er akseptabelt for dine formål.

For det andre må du vurdere at du satser på at forholdet mellom informasjonen du har og svaret du vil forutsi, kan uttrykkes som en matematisk formel av noe slag, og at maskinens læring algoritmen er faktisk i stand til å gjette den formelen. Kapasiteten til algoritmen til å gjette matematisk formel bak et svar er innebygd i algoritmens muttere og bolter.

Noen algoritmer kan gjette nesten alt; andre har faktisk et begrenset sett med muligheter. Utvalget av mulige matematiske formuleringer som en algoritme kan gjette er settet med sine mulige hypoteser. Følgelig er en hypotese en enkelt algoritme, spesifisert i alle dens parametere og dermed i stand til en enkelt, spesifikk formulering.

Matematikk er fantastisk. Det kan beskrive mye av den virkelige verden ved å bruke noen enkle notater, og det er kjernen i maskinlæring fordi en hvilken som helst læringalgoritme har en viss evne til å representere en matematisk formulering.Noen algoritmer, som lineær regresjon, bruker eksplisitt en bestemt matematisk formulering for å representere hvordan et svar (for eksempel prisen på et hus) vedrører et sett med prediktiv informasjon (for eksempel markedsinformasjon, husplassering, eiendomens overflate, og så videre).

Noen formuleringer er så komplekse og intrikate at selv om de representerer dem på papir, er det mulig å gjøre det for praktisk. Noen andre sofistikerte algoritmer, som beslutningstrender, har ingen eksplisitt matematisk formulering, men er så tilpasningsdyktige at de kan settes til å omtrentlig tilpasse et stort utvalg av formuleringer. For eksempel, vurder en enkel og lettforklarlig formulering. Den lineære regresjonen er bare en linje i et område med koordinater gitt av responsen og alle prediktorene. I det enkleste eksempelet kan du få et svar, y og en enkelt prediktor, x, med en formulering av

y = β ₁ x ₁ + β ₀

I en enkel situasjon for et svar spådd av en enkelt funksjon, er en slik modell perfekt når dataene ordner seg som en linje. Men hva skjer hvis det ikke gjør det og i stedet former seg som en kurve? For å representere situasjonen, bare observere følgende bidimensjonale representasjoner.

Eksempel på en lineær modell som sliter med å kartlegge en kurvefunksjon.

Når poeng ligner en linje eller en sky, oppstår en feil når du finner ut at resultatet er en rett linje; Derfor er kartleggingen som tilbys av den foregående formulering, på en eller annen måte upresisibel. Feilen vises imidlertid ikke systematisk, men heller tilfeldig, fordi noen punkter er over den mappede linjen, og andre er under den. Situasjonen med den buede, formede skyen av poeng er forskjellig, for denne gangen er linjen noen ganger eksakt, men andre ganger er det systematisk feil. Noen ganger er poeng alltid over linjen; noen ganger er de under den.

Med tanke på enkelheten i kartleggingen av svaret, har algoritmen en tendens til systematisk å overvurdere eller undervurdere de reelle reglene bak dataene, som representerer dens bias. Forspenningen er karakteristisk for enklere algoritmer som ikke kan uttrykke komplekse matematiske formuleringer.