Grunnleggende om klassifikasjonsmodeller for analytiske prediksjoner - dummies

Video: Det grunnleggende om intervaller i musikk 2025

Når du har alle verktøyene og dataene som er nødvendige for å begynne å lage en prediktiv modell begynner moroa. Generelt vil opprettelse av en læringsmodell for klassifikasjonsoppgaver innebære følgende trinn:

Last inn dataene.
Velg en klassifikator.
Tren modellen.
Visualiser modellen.
Test modellen.
Evaluer modellen.

Begge klassifikasjonsmodellene for logistisk regresjon og Support Vector Machine utfører ganske bra med Iris datasettet.

Sepal Lengde	Sepal Bredde	Kronbladets lengde	Kronbredde	Målgruppe / Etikett
5. 1	3. 5	en. 4	0. 2	Setosa (0)
7. 0	3. 2	4. 7	en. 4	Versicolor (1)
6. 3	3. 3	6. 0	2. 5	Virginica (2)

Den logistiske regresjonsmodellen med parameter C = 1 var perfekt i sine spådommer, mens SVM-modellen og den logistiske regresjonsmodellen med C = 150 savnet bare en prediksjon. Faktisk er den høye nøyaktigheten til begge modellene et resultat av å ha et lite datasett som har datapunkter som er ganske nær lineært separerbare.

Interessant, den logistiske regresjonsmodellen med C = 150 hadde et bedre utseende beslutningsflate enn den med C = 1, men det virket ikke bedre. Det er ikke så stor avtale, vurderer at testsettet er så lite. Hvis en annen tilfeldig spalt mellom treningssett og testsett ble valgt, kunne resultatene lett ha vært annerledes.

Dette avslører en annen kompleksitetskilde som avviker i modellevaluering: effekten av prøvetaking, og hvordan valg av trenings- og testsettene kan påvirke modellens utgang. Kryss-valideringsteknikker kan bidra til å minimere virkningen av tilfeldig prøvetaking på modellens ytelse.

For et større datasett med ikke-lineært separerbare data, forventer du at resultatene vil avvike enda mer. I tillegg blir det vanskeligere å velge riktig modell på grunn av kompleksiteten og størrelsen på dataene. Vær forberedt på å bruke mye tid på å justere parametrene for å få en perfekt passform.

Når du oppretter prediktive modeller, kan du prøve noen få algoritmer og utvide deres parametere til du finner det som passer best for dataene dine. Sammenlign deretter utgangene sine mot hverandre.