Hjem Personlig finansiering Bruker hovedkomponentanalyse til prediktiv analyse - dummies

Bruker hovedkomponentanalyse til prediktiv analyse - dummies

Video: Benchtop NMR: Interview President Bruker BioSpin 2025

Video: Benchtop NMR: Interview President Bruker BioSpin 2025
Anonim

Hovedkomponentanalyse (PCA) er en verdifull teknikk som brukes mye i prediktiv analyse og datavitenskap. Den studerer et datasett for å lære de mest relevante variablene som er ansvarlige for den høyeste varianten i datasettet. PCA brukes hovedsakelig som en datareduksjonsteknikk.

Mens du bygger prediktive modeller, må du kanskje redusere antall funksjoner som beskriver datasettet. Det er veldig nyttig å redusere denne høye dimensionaliteten av data gjennom tilnærmingsteknikker, hvor PCA utmerker seg. De tilnærmede dataene oppsummerer alle viktige variasjoner av de opprinnelige dataene.

For eksempel kan funksjonssettet med data om aksjer inneholde aksjekurser, daglige høyder og nedganger, handelsvolumer, 200-dagers glidende gjennomsnitt, pris-til-tjeningsforhold, relativ styrke til andre markeder, renter og styrken av valutaer.

Å finne de viktigste prediktive variablene er kjernen i å bygge en prediktiv modell. Måten mange har gjort det er ved å bruke en brute force-tilnærming. Tanken er å starte med så mange relevante variabler som mulig, og bruk deretter en tragt tilnærming for å eliminere funksjoner som ikke har noen innvirkning, eller ingen prediktiv verdi.

Intelligensen og innsiktet blir bragt til denne metoden ved å engasjere forretningspartnere, fordi de har noen anelse om hvilke variabler som vil ha størst effekt i analysen. Erfaringen fra datavitenskapene som er involvert i prosjektet, er også viktig for å vite hvilke variabler som skal brukes sammen med og hvilke algoritmer som skal brukes for en bestemt datatype eller et domenespesifikt problem.

For å hjelpe til med prosessen, bruker dataforskere mange prediktive analyseverktøy som gjør det enklere og raskere å kjøre flere permutasjoner og analyser på et datasett for å måle effekten av hver variabel på datasettet.

Å vite at det er mye data å jobbe med, kan du bruke PCA for å få hjelp.

Redusere antall variabler du ser på, er grunn nok til å benytte PCA. I tillegg beskytter du ved å bruke PCA automatisk beskyttelse mot overfitting av modellen.

Sikkert, du kan finne sammenheng mellom værdata i et gitt land og utførelsen av aksjemarkedet. Eller med fargen på en persons sko og ruten hun eller han tar til kontoret, og utførelsen av porteføljen for den dagen. Imidlertid, inkludert de variablene i en prediktiv modell er mer enn bare overfitting, er det misvisende og fører til falske spådommer.

PCA bruker en matematisk gyldig tilnærming til å bestemme delmengden av datasettet som inneholder de viktigste funksjonene; Når du bygger modellen på det mindre datasettet, vil du ha en modell som har forutsigbar verdi for det samlede større datasettet du jobber med. Kort sagt, PCA skal hjelpe deg med å fornemme variablene dine ved å identifisere delmengden av variabler som er ansvarlig for den mest variant med ditt opprinnelige datasett. Det hjelper deg med å oppdage redundans. Det hjelper deg å finne ut at to (eller flere variabler) forteller deg det samme.

Videre tar hovedkomponentanalysen ditt flerdimensjonale datasett og produserer et nytt datasett hvis variabler er representative for lineariteten av variablene i det opprinnelige datasettet. I tillegg har det utgitte datasettet individuelt ukorrelerte variabler, og deres varians er bestilt av deres hovedkomponenter hvor den første er den største og så videre. I denne forbindelse kan PCA også betraktes som en teknikk for konstruksjon av funksjoner.

Mens du bruker PCA eller andre lignende teknikker som bidrar til å redusere dimensjonen til datasettet du har å gjøre med, må du alltid være forsiktig så du ikke påvirker ytelsen til modellen negativt. Redusere størrelsen på dataene bør ikke komme på bekostning av å påvirke ytelsen negativt (nøyaktigheten av den prediktive modellen). Tread trygt og administrer datasettet med forsiktighet.

Den økte kompleksiteten til en modell oversetter ikke til høyere kvalitet i utfallet.

For å bevare modellens ytelse, må du kanskje nøye evaluere effektiviteten til hver variabel, og måle dens brukbarhet i utformingen av den endelige modellen.

Å vite at PCA kan være spesielt nyttig når variablene er høyt korrelerte i et gitt datasett, kan da å ha et datasett med ikke-korrelerte prediktive variabler komplisere kun oppgaven med å redusere dimensjonaliteten til multivariate data. Mange andre teknikker kan benyttes her i tillegg til PCA, for eksempel valg av fremoverfunksjon og eliminering av bakoverfunksjonen.

PCA er ikke en magisk kulde som løser alle problemer med flerdimensjonale data. Dens suksess er svært avhengig av dataene du jobber med. Den statistiske variansen stemmer kanskje ikke overens med variabler med de mest prediktive verdiene, selv om det er trygt å arbeide med slike tilnærminger.

Bruker hovedkomponentanalyse til prediktiv analyse - dummies

Redaktørens valg

10 Tips for visuelt analysere og presentere data i Excel - dummies

10 Tips for visuelt analysere og presentere data i Excel - dummies

Her er noen konkrete forslag om hvordan du med hell kan bruke diagrammer som dataanalyseværktøy i Excel, og hvordan du kan bruke diagrammer for å mer effektivt kommunisere resultatene av dataanalysen du gjør. Bruk riktig diagramtype Hva mange mennesker ikke skjønner er at du bare kan lage fem ...

10 Måter å forbedre Power Pivot Performance - dummies

10 Måter å forbedre Power Pivot Performance - dummies

Når du publiserer Power Pivot-rapporter på nettet, har du tenkt for å gi publikum den beste opplevelsen som er mulig. En stor del av denne erfaringen er å sikre at ytelsen er god. Ordet ytelse (som det gjelder applikasjoner og rapportering) er vanligvis synonymt med hastighet - eller hvor raskt et program utfører bestemte handlinger ...

Legger ekstra analyselagre til Excel-diagrammer - dummies

Legger ekstra analyselagre til Excel-diagrammer - dummies

Det er ikke uvanlig å bli bedt om å legge til Ekstra analyse til din visualisering som vanligvis ikke er plottet på et Excel-diagram. For eksempel viser dette diagramet salg for hvert kvartal, men klienten vil kanskje også se prosentveksten i samme kvartal. De fleste Excel-analytikere oppfyller dette behovet med faktiske tekstbokser. ...

Redaktørens valg

Data Visualisering Storyboard: Dokumentasjon Key Performance Indicators (KPIs) - dummies

Data Visualisering Storyboard: Dokumentasjon Key Performance Indicators (KPIs) - dummies

Forstå nøkkelmålinger som publikum må vise, overvåke eller spore er det siste skrittet i utviklingen av historien din. Enkelt sagt er en nøkkelindikator (KPI) en kjerne-måling som knytter seg direkte til selskapets mål. Gjennomføre scoping-workshops Den beste måten å jobbe med publikum på for å dokumentere KPI-er er ...

Data Visualisering Storyboard: Dokumentasjonsmål - dummies

Data Visualisering Storyboard: Dokumentasjonsmål - dummies

Å Få en klar forståelse av målgruppens mål og eksisterende smertepunkter vil hjelpe du bestemmer hva du skal inkludere og - enda viktigere - hva som ikke skal inkluderes i storyboardet. Den enkleste måten å gjøre dette på, kan være å holde en liten planleggingsøkt som inkluderer executive sponsor (hvis det er en) og ...

Data Visualisering Storyboard: Identifisere målgruppen din - dummies

Data Visualisering Storyboard: Identifisere målgruppen din - dummies

Det første trinnet i å utvikle et klart storyboard for deg datavisualisering identifiserer publikum. Hvem du bygger data visualisering for å bestemme hvilken type storyboard du utvikler og hvilket nivå av data du viser. Den enkleste måten å klassifisere målgruppen din er å se på to enkle komponenter: forretningsområde ...

Redaktørens valg

ACT-strategi for å multiplisere en horisontal matrise med en vertikal matrise - dummies

ACT-strategi for å multiplisere en horisontal matrise med en vertikal matrise - dummies

På ACT Matematisk test, du må sannsynligvis multiplisere par matriser som har enten en rad eller en kolonne. En enkel måte å formere en horisontal matrise med en vertikal matris er å sette opp et lite rutenett. Denne metoden lar deg fylle ut tallene for å få det riktige svaret. Matrix ...

ACT-strategi for å løse en matrise ved hjelp av en determinant-dummies

ACT-strategi for å løse en matrise ved hjelp av en determinant-dummies

Er en determinant en vanlig operasjon utført på en firkantet matrise. På ACT Math-testen er den eneste determinantformelen du trenger å være kjent med, for en 2 x 2-matrise. Her er formelen for determinanten av Merk at determinanten av en matrise bare er et tall, ikke en matrise. Å ...

ACT Trick for Quadratics: Slik finner du raskt en Parabola-dummies retning

ACT Trick for Quadratics: Slik finner du raskt en Parabola-dummies retning

For å spare tid når du graver en kvadratisk funksjon på ACT Math-testen, kan du raskt bestemme retningen for parabolen ved hjelp av et enkelt triks basert på koeffisienten a. Dette trikset vedrører tegnet på variabelen a (i uttrykket ax2): Når a er positivt, er grafen konkav opp. I ...