Hvordan støttevektormaskinprediktiv analyse forutsetter fremtiden - dummies

Video: How to Predict Stock Prices Easily - Intro to Deep Learning #7 2025

Den støttende vektormaskinen (SVM) er en prediktiv analyse dataklassifikasjonsalgoritme som tildeler ny dataelementer til en av merkede kategorier. SVM er i de fleste tilfeller en binær klassifikator; Det antas at de aktuelle dataene inneholder to mulige målverdier.

En annen versjon av SVM-algoritmen, multiclass SVM, forsterker SVM som klassifikator på et datasett som inneholder mer enn én klasse (gruppering eller kategori). SVM har blitt vellykket brukt i mange applikasjoner som bildegjenkjenning, medisinsk diagnose og tekstanalyse.

Anta at du utformer en prediktiv analysemodell som automatisk gjenkjenner og forutsier navnet på et objekt i et bilde. Dette er egentlig problemet med bildegjenkjenning - eller mer spesifikt ansiktsgjenkjenning: Du vil at klassifikatoren skal gjenkjenne navnet på en person i et bilde.

Vel, før du takler det kompleksitetsnivået, bør du vurdere en enklere versjon av det samme problemet: Anta at du har bilder av individuelle biter av frukt, og du vil at klassifikatoren din skal forutsi hvilken type frukt du ser på bildet. Anta at du bare har to typer frukt: epler og pærer, ett per bilde.

Gitt et nytt bilde, vil du forutsi om frukten er et eple eller en pære - uten å se på bildet. Du vil at SVM skal klassifisere hvert bilde som eple eller pære. Som med alle andre algoritmer, er det første trinnet å trene klassifikatoren.

Anta at du har 200 bilder av forskjellige epler, og 200 bilder av pærer. Læringstrinnet består i å mate bildene til klassifikatoren slik at det lærer hvordan et eple ser ut og hva en pære ser ut. Før du kommer inn i dette første trinnet, må du omdanne hvert bilde til en datamatrise, ved å bruke (si) R-statistikkpakken.

En enkel måte å representere et bilde på som tall i en matrise, er å lete etter geometriske former innenfor bildet (for eksempel sirkler, linjer, firkanter eller rektangler) og også posisjonene til hver forekomst av hver geometrisk form. Disse tallene kan også representere koordinater for disse objektene i bildet, som plottet i et koordinatsystem.

Som du kanskje kan forestille deg, representerer et bilde som en matrise av tall ikke akkurat en enkel oppgave. Et helt distinkt forskningsområde er viet til bilderepresentasjon.

Følgende viser hvordan en støttevektormaskin kan forutsi en fruktklasse (merker den matematisk som eple eller pære ), basert på hva algoritmen har lært i fortiden.

Anta at du har konvertert alle bildene til datamatriser. Deretter støtter vektormaskinen to hovedinnganger:

Tidligere (trening) data: Dette settet av matriser tilsvarer tidligere sett bilder av epler og pærer.
Den nye (usynlige) data består av et bilde som er konvertert til en matrise. Hensikten er å forutsi automatisk hva som er på bildet - et eple eller en pære.

Støttevektoren bruker en matematisk funksjon, ofte kalt en kjernefunksjon som er en mattefunksjon som matcher de nye dataene til det beste bildet fra treningsdataene for å forutsi det ukjente bildeets etikett (eple eller pære).

Sammenlignet med andre klassifiserer, gir støttevektormaskiner robuste, nøyaktige spådommer, er minst påvirket av støyende data, og er mindre utsatt for overfitting. Vær imidlertid oppmerksom på at støttevektormaskiner er mest egnet for binær klassifisering - når du bare har to kategorier (for eksempel eple eller pære).