Måling likhet mellom vektorer for maskinlæring - dummies

Video: Data Analysis in R by Dustin Tran 2025

Du kan enkelt sammenligne eksempler fra dataene dine ved å bruke beregninger hvis du tenker på hver av dem som en vektor. Følgende informasjon beskriver måling av likhet mellom vektorer for å utføre oppgaver som å beregne avstanden mellom vektorer for læringsformål.

Forstå likhet

I en vektorform kan du se hver variabel i eksemplene dine som en serie koordinater, hvor alle peker på en posisjon i en annen romdimensjon. Hvis en vektor har to elementer, det vil si, den har bare to variabler. Det å jobbe med det, er som å sjekke et elements posisjon på et kart ved å bruke det første nummeret for posisjonen på øst-vest-aksen og den andre på nord- Sørakselen.

Eksempler på verdier plottet som punkter på et diagram.

For eksempel er tallene mellom parenteser (1, 2) (3, 2) og (3, 3) alle eksempler på poeng. Hvert eksempel er en bestilt liste over verdier (kalt en tuple) som enkelt kan plasseres og skrives ut på et kart ved hjelp av den første verdien av listen for x (den horisontale aksen) og den andre for y (den vertikale aksen). Resultatet er en scatterplot.

Hvis datasettet ditt, i matrisedannelse, har mange numeriske funksjoner (kolonnene), representerer ideell tallet av dataene dimensjonene til datarommet, mens radene (eksemplene) representerer hver punkt, som matematisk er en vektor. Når vektoren din har mer enn to elementer, blir visualisering plagsom fordi det representerer dimensionaliteter over det tredje ikke er lett (tross alt lever vi i en tredimensjonal verden).

Du kan imidlertid forsøke å formidle flere dimensionaliteter med noe som helst, for eksempel ved å bruke størrelse, form eller farge for andre dimensjoner. Klart er det ikke en lett oppgave, og ofte er resultatet langt fra å være intuitivt. Du kan imidlertid forstå ideen om hvor poengene ville være i datarommet ved å systematisk skrive ut mange grafer mens du vurderer dimensjonene to av to. Slike tomter kalles matriser av scatterplots.

Ikke bekymre deg for flerdimensjonalitet. Du utvider reglene du lærte i to eller tre dimensjoner til flere dimensjoner, så hvis en regel fungerer i et tosidig mellomrom, fungerer det også i flere. Derfor refererer alle eksemplene først til bidimensjonale eksempler.

Computeravstander for læring

En algoritme kan lære ved å bruke vektorer av tall som bruker avstandsmålinger. Ofte er plassen som følger med vektorer, en metrisk som er et mellomrom hvis avstander respekterer visse spesifikke forhold:

Ingen negative avstander eksisterer, og avstanden din er bare null når startpunktet og sluttpunktet sammenfaller (kalt nonnegativity).
Avstanden er den samme som går fra et punkt til et annet og vice versa (kalt symmetri).
Avstanden mellom et innledende punkt og en endelig er alltid større enn, eller verre det samme som, avstanden går fra det første til et tredje punkt og derfra til den endelige (kalt trekant ulikhet < - som betyr at det ikke er noen snarveier). Avstander som måler et metrisk rom er den euklidiske avstanden, Manhattan-avstanden og Chebyshev-avstanden. Dette er alle avstander som kan gjelde for numeriske vektorer.

Euklidisk avstand

Den vanligste er den euklidiske avstanden, også beskrevet som l2-normen av to vektorer (les denne diskusjonen om l1, l2 og linfinitetsnormer). I et tosidet plan reflekterer den euklidiske avstanden som den rette linjen som forbinder to punkter, og du beregner den som kvadratroten av summen av den kvadratiske forskjellen mellom elementene i to vektorer. I den forrige plottet kan den euklidiske avstanden mellom punkter (1, 2) og (3, 3) beregnes i R som sqrt ((1-3) ^ 2 + (2-3) ^ 2), noe som resulterer i en avstand på ca 2. 236.

Manhattan avstand

Et annet nyttig mål er Manhattan-avstanden (også beskrevet som l1-norm for to vektorer). Du beregner Manhattan-avstanden ved å oppsummere absoluttverdien av differansen mellom vektorene. Hvis den euklidiske avstanden markerer den korteste ruten, markerer Manhattan-avstanden den lengste ruten, som ligner retningen for en taxi som flytter i en by. (Avstanden er også kjent som taxicab eller city-block avstand.)

For eksempel er Manhattan avstanden mellom punkter (1, 2) og (3, 3) abs (1-3) og abs (2-3)), noe som resulterer i 3.

Chebyshev avstand

Chebyshev-avstanden eller maksimummetrisk tar maksimalt av den absolutte forskjellen mellom vektorene. Det er et avstandsmål som kan representere hvordan en konge beveger seg i sjakk eller i lagerlogistikk, operasjoner som kreves av en overheadkran for å flytte en kasse fra ett sted til et annet.

I maskinlæring kan Chebyshev-avstanden være nyttig når du har mange dimensjoner å vurdere, og de fleste er bare irrelevante eller overflødige (i Chebyshev velger du bare den som har den absolutte forskjellen som er størst). I eksemplet som brukes ovenfor, er avstanden simpelthen 2, maksimum mellom (1-3) og abs (2-3).