Hjem Personlig finansiering Bli kjent med grensene for bias i maskinlæring - dummies

Bli kjent med grensene for bias i maskinlæring - dummies

Video: Premiss 2018: Grenser for debatt 2025

Video: Premiss 2018: Grenser for debatt 2025
Anonim

Maskininnlæring avhenger mye av dataene i prøven. Denne delen av dataene dine er viktig fordi du vil oppdage et syn på verden, og som med alle synspunkter, kan det være feil, forvrengt eller bare bare delvis. Du vet også at du trenger et eksempel utenfor prøven for å sjekke om læringsprosessen fungerer. Imidlertid er disse aspektene bare en del av bildet.

Når du lager en maskininlæringsalgoritme på data for å gjette et bestemt svar, tar du effektivt en gamble, og det er ikke bare på grunn av prøven du bruker til å lære. Det er mer. For øyeblikket, forestill deg at du har fri tilgang til egnede, objektive, in-sample data, så data er ikke problemet. I stedet må du konsentrere seg om metoden for læring og forutsigelse.

Først må du vurdere at du satser på at algoritmen rimelig kan gjette svaret. Du kan ikke alltid gjøre denne antagelsen fordi det ikke er mulig å finne ut visse svar uansett hva du vet på forhånd.

For eksempel kan du ikke helt bestemme menneskers oppførsel ved å kjenne sin tidligere historie og oppførsel. Kanskje en tilfeldig effekt er involvert i den generative prosessen med vår oppførsel (for eksempel den irrasjonelle delen av oss), eller kanskje problemet kommer ned til fri vilje (problemet er også en filosofisk / religiøs, og det er mange uoverensstemmende meninger). Du kan derfor bare gjette noen typer svar, og for mange andre, for eksempel når du prøver å forutsi folks adferd, må du akseptere en vis grad av usikkerhet som med hell er akseptabelt for dine formål.

For det andre må du vurdere at du satser på at forholdet mellom informasjonen du har og svaret du vil forutsi, kan uttrykkes som en matematisk formel av noe slag, og at maskinens læring algoritmen er faktisk i stand til å gjette den formelen. Kapasiteten til algoritmen til å gjette matematisk formel bak et svar er innebygd i algoritmens muttere og bolter.

Noen algoritmer kan gjette nesten alt; andre har faktisk et begrenset sett med muligheter. Utvalget av mulige matematiske formuleringer som en algoritme kan gjette er settet med sine mulige hypoteser. Følgelig er en hypotese en enkelt algoritme, spesifisert i alle dens parametere og dermed i stand til en enkelt, spesifikk formulering.

Matematikk er fantastisk. Det kan beskrive mye av den virkelige verden ved å bruke noen enkle notater, og det er kjernen i maskinlæring fordi en hvilken som helst læringalgoritme har en viss evne til å representere en matematisk formulering.Noen algoritmer, som lineær regresjon, bruker eksplisitt en bestemt matematisk formulering for å representere hvordan et svar (for eksempel prisen på et hus) vedrører et sett med prediktiv informasjon (for eksempel markedsinformasjon, husplassering, eiendomens overflate, og så videre).

Noen formuleringer er så komplekse og intrikate at selv om de representerer dem på papir, er det mulig å gjøre det for praktisk. Noen andre sofistikerte algoritmer, som beslutningstrender, har ingen eksplisitt matematisk formulering, men er så tilpasningsdyktige at de kan settes til å omtrentlig tilpasse et stort utvalg av formuleringer. For eksempel, vurder en enkel og lettforklarlig formulering. Den lineære regresjonen er bare en linje i et område med koordinater gitt av responsen og alle prediktorene. I det enkleste eksempelet kan du få et svar, y og en enkelt prediktor, x, med en formulering av

y = β 1 x 1 + β 0

I en enkel situasjon for et svar spådd av en enkelt funksjon, er en slik modell perfekt når dataene ordner seg som en linje. Men hva skjer hvis det ikke gjør det og i stedet former seg som en kurve? For å representere situasjonen, bare observere følgende bidimensjonale representasjoner.

Eksempel på en lineær modell som sliter med å kartlegge en kurvefunksjon.

Når poeng ligner en linje eller en sky, oppstår en feil når du finner ut at resultatet er en rett linje; Derfor er kartleggingen som tilbys av den foregående formulering, på en eller annen måte upresisibel. Feilen vises imidlertid ikke systematisk, men heller tilfeldig, fordi noen punkter er over den mappede linjen, og andre er under den. Situasjonen med den buede, formede skyen av poeng er forskjellig, for denne gangen er linjen noen ganger eksakt, men andre ganger er det systematisk feil. Noen ganger er poeng alltid over linjen; noen ganger er de under den.

Med tanke på enkelheten i kartleggingen av svaret, har algoritmen en tendens til systematisk å overvurdere eller undervurdere de reelle reglene bak dataene, som representerer dens bias. Forspenningen er karakteristisk for enklere algoritmer som ikke kan uttrykke komplekse matematiske formuleringer.

Bli kjent med grensene for bias i maskinlæring - dummies

Redaktørens valg

Hvordan finne sponsorer for bloggen din - dummies

Hvordan finne sponsorer for bloggen din - dummies

Du kan få sponsor til bloggen din på to måter: ved å motta forespørsler fra bedrifter og ved å søke dem ut selv. Slik sponsing kan bety en av to ting: Sponsorer kan betale deg for å sette sine annonser på nettstedet ditt. Sponsorer kan bare gi deg gratis varer eller tjenester i motsetning til reklame på ...

Hvordan du genererer salg eller handling med en forretningsblogg - dummies

Hvordan du genererer salg eller handling med en forretningsblogg - dummies

Spør potensielle kunder å sjekke ut dine tjenester etter at de har lest noe på bloggen din, kan gjøre disse leserne til faktiske kunder. Hvis du ser en logisk lenke til et produkt eller en tjeneste du tilbyr, er det bare fornuftig å la folk få vite det. Men du trenger å gjøre mer enn bare å presse salg. Du ...

Slik genererer du online fellesskapstrafikk med en innholdsstrategi - dummies

Slik genererer du online fellesskapstrafikk med en innholdsstrategi - dummies

Som en nettbasert fellesskapsjef , uansett formålet med fellesskapet ditt, forventes det å øke trafikken med jevne mellomrom. Dette målet er viktig fordi medlemmene i samfunnet er ufattelige. De kommer for en stund, men til slutt blir de fanget opp i noe annet. Svært få mennesker holder seg i årevis. Uten et nytt ...

Redaktørens valg

Lage og bruke flashkort for GED Science Test - dummies

Lage og bruke flashkort for GED Science Test - dummies

Ved hjelp av flashcards er en enkel måte å prøv deg selv på GED-vitenskapen. For å gjøre det bra på vitenskapsdelen av GED må du ha mer enn en forbipasserende forståelse av vitenskapens ordforråd og konsepter. Faktisk er spesifikk forkunnskap viktig. Flashcards er et pålitelig middel for å hjelpe deg med å øke vitenskapsordforrådet ditt og videre ...

ØKe GEDs vitenskapsscore på testdag - dummies

ØKe GEDs vitenskapsscore på testdag - dummies

Du kan øke din GED Science-testpoengsum med mestrer noen få smarte teststrategier. Her er noen tips for å øke poengsummen din under testen og når du skriver korte svarresponser. Forbedre din tilnærming til å svare på spørsmål Når du starter GED Science-testen, motstå ethvert ønske om å skynde seg gjennom spørsmålene. Tempo ...

Fastsette vanlige grammatikkfeil på GED-begrunnelsen gjennom språkkunsttest - dummier

Fastsette vanlige grammatikkfeil på GED-begrunnelsen gjennom språkkunsttest - dummier

Flere Spørsmål om GED Reasoning Through Language Arts (RLA) test presenterer setninger som inneholder grammatikkfeil og instruerer deg til å velge korreksjonen. Her er noen av de vanligste grammatikkfeilene å passe på: Feileksempel Korrigering Setningsfragment Venstre kontor før du fullfører det han hadde bestemt seg for. Gouverneur ...

Redaktørens valg

Nettverksplanlegging: Slik starter du - dummies

Nettverksplanlegging: Slik starter du - dummies

Før du starter et nettverksprosjekt, enten det er en ny nettverksinstallasjon eller en oppgradering, bør du først lage en detaljert plan. Hvis du tar tekniske beslutninger for fort, før du studerer alle problemene som påvirker prosjektet, vil du angre på det. Du vil oppdage for sent at en nøkkelapplikasjon ikke vil kjøre over nettverket, det ...

Nettverksplanlegging: Inventarinformasjonsprogrammer - dummies

Nettverksplanlegging: Inventarinformasjonsprogrammer - dummies

Det er mye arbeid å samle informasjon om datamaskinens beholdning hvis du har mer enn noen få datamaskiner til nettverk. Heldigvis finnes det flere programmer som automatisk kan samle informasjonen for deg. Disse programmene inspiserer ulike aspekter av en datamaskin, for eksempel CPU-typen og hastigheten, mengden RAM, og ...

Nettverksplanlegging: Servertyper - dummies

Nettverksplanlegging: Servertyper - dummies

Forutsatt at nettverket ditt vil kreve en eller flere dedikerte servere, bør du vurdere hvilke typer servere nettverket trenger. I enkelte tilfeller kan en enkelt server datamaskin fylle en eller flere av disse rollene. Når det er mulig, er det best å begrense hver server-datamaskin til en enkelt serverfunksjon. Filservere Fil ...