Hvordan du skisserer tester og testdata for predictive Analytics - dummies

Video: Hva er egentlig brystkreft? Hvordan oppdages det? 2025

Når dataene er klare og du skal begynne å bygge din prediktive modell for analyse, er det nyttig å skissere testmetoden din og utarbeide en testplan. Testing bør drives av de forretningsmålene du har samlet, dokumentert og samlet alle nødvendige data for å hjelpe deg med å oppnå.

Rett utenfor flaggermuset bør du utarbeide en metode for å teste om et forretningsmål er oppnådd. Siden prediktiv analyse måler sannsynligheten for et fremtidig utfall - og den eneste måten å være klar til å utføre en slik test, er å trene modellen på tidligere data, må du fortsatt se hva den kan gjøre når det gjelder fremtidige data.

Selvfølgelig kan du ikke risikere å kjøre en uberørt modell på ekte fremtidige data, så du må bruke eksisterende data for å simulere fremtidige data realistisk. For å gjøre det må du dele dataene du jobber med i opplæring og test datasett.

Pass på at du velger disse to datasettene tilfeldig, og at begge datasettene inneholder og dekker alle dataparametrene du måler.

Når du deler dataene dine i test- og treningsdatasett, kan du effektivt unngå eventuelle overfittingproblemer som kan oppstå ved overtraining av modellen på hele datasettet og å plukke opp alle støymønstre eller spesifikke funksjoner som bare tilhører prøvedatasettet og gjelder ikke for andre datasett.

Å skille dataene dine til trening og test datasett, henholdsvis 70 prosent og 30 prosent, sikrer en nøyaktig måling av ytelsen til den prediktive analysemodellen du bygger. Du vil evaluere modellen mot testdataene fordi det er en enkel måte å måle om modellens spådommer er nøyaktige.