Hjem Personlig finansiering Maskinlæring: Lag dine egne egenskaper i data - dummier

Maskinlæring: Lag dine egne egenskaper i data - dummier

Innholdsfortegnelse:

Video: Computational Linguistics, by Lucas Freitas 2025

Video: Computational Linguistics, by Lucas Freitas 2025
Anonim

Noen ganger vil de rå dataene du får fra ulike kilder, ikke ha de funksjonene som trengs for å utføre maskinopplæringsoppgaver. Når dette skjer, må du opprette dine egne funksjoner for å oppnå ønsket resultat. Å skape en funksjon betyr ikke at du lager data fra tynn luft. Du oppretter nye funksjoner fra eksisterende data.

Forstå behovet for å lage funksjoner

En stor begrensning av maskinlæringsalgoritmer er at det kan være umulig å gjette en formel som kan knytte ditt svar til funksjonene du bruker. Noen ganger kan denne manglende gjetning skje fordi du ikke kan kartlegge svaret ved å bruke informasjonen du har tilgjengelig (noe som betyr at du ikke har riktig informasjon). I andre tilfeller hjelper informasjonen du oppgav ikke algoritmen til å lære riktig.

For eksempel, hvis du modellerer prisen på eiendomsmegling, er overflaten av landet ganske forutsigbar fordi større eiendommer pleier å koste mer. Men hvis du gir i stedet for overflaten din maskininlæringsalgoritme med lengden på sidene av landet (breddegrad og lengdegradskoordinater av sine hjørner), kan algoritmen din ikke finne ut hva du skal gjøre med informasjonen du oppgav. Noen algoritmer klarer å finne forholdet mellom funksjonene, men de fleste algoritmer vil ikke.

Svaret på dette problemet er funksjonskompetanse. Funksjonsskaping er den delen av maskinlæring som regnes som mer en kunst enn en vitenskap, fordi det innebærer menneskelig inngrep ved kreativ blanding av eksisterende funksjoner. Du utfører denne oppgaven ved hjelp av tillegg, subtraksjon, multiplikasjon og forhold for å generere nye avledede funksjoner med mer prediktiv kraft enn originalene.

Å vite problemet godt og finne ut hvordan et menneske vil løse det, er en del av funksjonskapasiteten. Så, ved å koble til det forrige eksempelet, er det faktum at jordoverflaten knytter seg til eiendomsprisen felles kjennskap. Hvis overflaten mangler fra funksjonene dine når du prøver å gjette verdien av en eiendom, kan du gjenopprette slik informasjon fra eksisterende data - og dermed øker ytelsen til spådommene.

Uansett om du stole på sunn fornuft, felles kunnskap eller spesialisert kompetanse, kan du gjøre mye for maskinalgoritmen din hvis du først finner ut hvilken informasjon som skal fungere best for problemet og deretter prøv å få den tilgjengelig eller utlede den blant dine funksjoner.

Opprette funksjoner automatisk

Du kan opprette nye funksjoner automatisk.En måte å oppnå automatisk funksjonalisering på er å bruke polynomial ekspansjon. Spesifikke måter er tilgjengelige for å oppnå polynomial ekspansjon, slik at du oppretter funksjoner automatisk i både R og Python. For tiden må du forstå konseptene bak polynomial ekspansjon.

I polynomial ekspansjon oppretter du automatisk interaksjoner mellom funksjoner og krever krefter (for eksempel beregning av firkanten av en funksjon). Interaksjoner er avhengig av multiplisering av funksjonene. Å skape en ny funksjon ved hjelp av multiplikasjon bidrar til å holde oversikt over hvordan funksjoner har en tendens til å oppføre seg som en helhet. Derfor hjelper det å kartlegge komplekse forhold mellom funksjonene dine som kan hint i spesielle situasjoner.

Et godt eksempel på en interaksjon er lyden fra en bil og prisen på bilen. Forbrukerne setter ikke pris på støyende biler med mindre de kjøper en sportsbil, i hvilket tilfelle motorstøyen er et pluss som minner eieren av bilens kraft. Det gjør også tilhengerne oppmerksom på den kule bilen, så lyd spiller en stor rolle i å vise seg fordi støy vil sikkert tiltrekke seg andre oppmerksomhet. På den annen side, er støy når du kjører en familiebil, ikke så kul.

I en maskinlæringsapplikasjon, når du prøver å forutsi preferansepreferansen for en bestemt bil, er egenskaper som støy og prisen på bilen forutsigbare av seg selv. Men å multiplisere de to verdiene og legge dem til settet av funksjoner, kan utvilsomt hint på en læringsalgoritme at målet er en sportsbil (når du multipliserer høye støynivåer med høy pris).

Gir hjelp ved å skape ikke-lineære relasjoner mellom responsen og funksjonene, hinting i bestemte situasjoner.

Som et annet eksempel, tenk at du må forutsi en persons årlige utgifter. Alder er en god forutsigelse fordi etter hvert som folk blir gamle og modne, endres deres livs- og familiesituasjon også. Studentene starter ut fattige, men så finner du jobb og kan bygge en familie. Fra et generelt synspunkt har utgifter en tendens til å vokse som alder til et visst punkt. Pensjonering markerer vanligvis et punkt hvor utgifter har en tendens til å redusere. Alder inneholder slik informasjon, men det er en funksjon som har en tendens til å vokse, og relaterte utgifter til veksten bidrar ikke til å beskrive inversjonen som oppstår i en viss alder.

Når du legger til kvadratfunksjonen, kan du opprette en motvirkning for å alder selv, noe som er liten i begynnelsen, men vokser raskt med alderen. Den endelige effekten er en parabol, med en innledende vekst preget av en topp i utgifter i en viss alder, og deretter en nedgang.

Som nevnt i begynnelsen, kan du vite på forhånd at slik dynamikk (støy og sportsbil, forbruk og eldre alder) kan hjelpe deg med å skape de riktige funksjonene. Men hvis du ikke kjenner disse dynamikkene i forveien, vil polynomial ekspansjon automatisk lage dem for deg fordi, gitt en bestemt rekkefølge, vil det skape interaksjoner og krefter i den rekkefølgen. Ordren vil påpeke antall multiplikasjoner og maksimal effekt som skal gjelde for eksisterende funksjoner.

Så en polynomisk utvidelse av rekkefølge 2 hever alle funksjonene til den andre kraften og multipliserer hver enkelt funksjon av alle de andre. (Du får multiplikasjonen av alle kombinasjonene av to funksjoner.) Jo høyere tallet, desto flere nye funksjoner vil bli opprettet, men mange av dem vil være overflødige og bare bidra til å gjøre maskinens læringalgoritme overfit dataene.

Når du bruker polynomial ekspansjon, må du være oppmerksom på eksplosjonen av funksjoner du oppretter. Styrken øker lineært, så hvis du har fem funksjoner og du trenger en utvidelse av rekkefølge 2, økes hver funksjon opp til den andre strømmen. Øke rekkefølgen på en legger bare til en ny strømfunksjon for hver opprinnelig funksjon. I stedet øker samspillet basert på kombinasjoner av funksjonene opp til den rekkefølgen.

Faktisk, med fem funksjoner og en polynomial utvidelse av rekkefølge 2, opprettes alle ti unike kombinasjoner av koblingen av funksjonene. Øke rekkefølgen til 3 vil kreve opprettelsen av alle de unike kombinasjonene av to variabler, pluss de unike kombinasjonene av tre variabler, det vil si 20 funksjoner.

Maskinlæring: Lag dine egne egenskaper i data - dummier

Redaktørens valg

10 Tips for visuelt analysere og presentere data i Excel - dummies

10 Tips for visuelt analysere og presentere data i Excel - dummies

Her er noen konkrete forslag om hvordan du med hell kan bruke diagrammer som dataanalyseværktøy i Excel, og hvordan du kan bruke diagrammer for å mer effektivt kommunisere resultatene av dataanalysen du gjør. Bruk riktig diagramtype Hva mange mennesker ikke skjønner er at du bare kan lage fem ...

10 Måter å forbedre Power Pivot Performance - dummies

10 Måter å forbedre Power Pivot Performance - dummies

Når du publiserer Power Pivot-rapporter på nettet, har du tenkt for å gi publikum den beste opplevelsen som er mulig. En stor del av denne erfaringen er å sikre at ytelsen er god. Ordet ytelse (som det gjelder applikasjoner og rapportering) er vanligvis synonymt med hastighet - eller hvor raskt et program utfører bestemte handlinger ...

Legger ekstra analyselagre til Excel-diagrammer - dummies

Legger ekstra analyselagre til Excel-diagrammer - dummies

Det er ikke uvanlig å bli bedt om å legge til Ekstra analyse til din visualisering som vanligvis ikke er plottet på et Excel-diagram. For eksempel viser dette diagramet salg for hvert kvartal, men klienten vil kanskje også se prosentveksten i samme kvartal. De fleste Excel-analytikere oppfyller dette behovet med faktiske tekstbokser. ...

Redaktørens valg

Reise fotografering kamera sammenligning diagram - dummies

Reise fotografering kamera sammenligning diagram - dummies

Fra smarte telefoner til punkt-og-skyte og digitale speilreflekskameraer, du har en mange fotograferingsvalg der ute. Bruk følgende diagram for å se hvilken type kamera som passer best for deg. Smartphone Point-and-shoot dSLR Bildesensor Kvalitet Lav til middels Medium Høy Vannbestandig (egnet for basseng) Sjeldne Få modeller Sjeldne Optiske Zoom Lav ...

Ta et makrofoto-dummies

Ta et makrofoto-dummies

Fotografi (makrofotografi) gir deg den som ser bildene dine, utsikt over verden ikke normalt sett av det blotte øye. De fleste kameraer, selv smarttelefoner, kan skyte ting med en rimelig nærhet med en viss grad av klarhet og fokus. Mens du reiser, finner du ting som skyter nærbilde, for eksempel hva du spiser til middag, en merkelig feil, ...

Forestille et Moving Object - dummies

Forestille et Moving Object - dummies

Når du ser et bilde, skjønner du selv hva som skjedde da det ble tatt. Noen bilder kan innebære bevegelse eller aktivitet. For eksempel kan du fokusere på en sykkel som beveger seg nedover gaten med bygningene bak den sløret. Dette er annerledes enn grunne dybdeskarphet, men fordi blenderåpningen ikke er det som skaper ...

Redaktørens valg

ACT-strategi for å multiplisere en horisontal matrise med en vertikal matrise - dummies

ACT-strategi for å multiplisere en horisontal matrise med en vertikal matrise - dummies

På ACT Matematisk test, du må sannsynligvis multiplisere par matriser som har enten en rad eller en kolonne. En enkel måte å formere en horisontal matrise med en vertikal matris er å sette opp et lite rutenett. Denne metoden lar deg fylle ut tallene for å få det riktige svaret. Matrix ...

ACT-strategi for å løse en matrise ved hjelp av en determinant-dummies

ACT-strategi for å løse en matrise ved hjelp av en determinant-dummies

Er en determinant en vanlig operasjon utført på en firkantet matrise. På ACT Math-testen er den eneste determinantformelen du trenger å være kjent med, for en 2 x 2-matrise. Her er formelen for determinanten av Merk at determinanten av en matrise bare er et tall, ikke en matrise. Å ...

ACT Trick for Quadratics: Slik finner du raskt en Parabola-dummies retning

ACT Trick for Quadratics: Slik finner du raskt en Parabola-dummies retning

For å spare tid når du graver en kvadratisk funksjon på ACT Math-testen, kan du raskt bestemme retningen for parabolen ved hjelp av et enkelt triks basert på koeffisienten a. Dette trikset vedrører tegnet på variabelen a (i uttrykket ax2): Når a er positivt, er grafen konkav opp. I ...