Hjem Personlig finansiering Måling likhet mellom vektorer for maskinlæring - dummies

Måling likhet mellom vektorer for maskinlæring - dummies

Innholdsfortegnelse:

Video: Data Analysis in R by Dustin Tran 2025

Video: Data Analysis in R by Dustin Tran 2025
Anonim

Du kan enkelt sammenligne eksempler fra dataene dine ved å bruke beregninger hvis du tenker på hver av dem som en vektor. Følgende informasjon beskriver måling av likhet mellom vektorer for å utføre oppgaver som å beregne avstanden mellom vektorer for læringsformål.

Forstå likhet

I en vektorform kan du se hver variabel i eksemplene dine som en serie koordinater, hvor alle peker på en posisjon i en annen romdimensjon. Hvis en vektor har to elementer, det vil si, den har bare to variabler. Det å jobbe med det, er som å sjekke et elements posisjon på et kart ved å bruke det første nummeret for posisjonen på øst-vest-aksen og den andre på nord- Sørakselen.

Eksempler på verdier plottet som punkter på et diagram.

For eksempel er tallene mellom parenteser (1, 2) (3, 2) og (3, 3) alle eksempler på poeng. Hvert eksempel er en bestilt liste over verdier (kalt en tuple) som enkelt kan plasseres og skrives ut på et kart ved hjelp av den første verdien av listen for x (den horisontale aksen) og den andre for y (den vertikale aksen). Resultatet er en scatterplot.

Hvis datasettet ditt, i matrisedannelse, har mange numeriske funksjoner (kolonnene), representerer ideell tallet av dataene dimensjonene til datarommet, mens radene (eksemplene) representerer hver punkt, som matematisk er en vektor. Når vektoren din har mer enn to elementer, blir visualisering plagsom fordi det representerer dimensionaliteter over det tredje ikke er lett (tross alt lever vi i en tredimensjonal verden).

Du kan imidlertid forsøke å formidle flere dimensionaliteter med noe som helst, for eksempel ved å bruke størrelse, form eller farge for andre dimensjoner. Klart er det ikke en lett oppgave, og ofte er resultatet langt fra å være intuitivt. Du kan imidlertid forstå ideen om hvor poengene ville være i datarommet ved å systematisk skrive ut mange grafer mens du vurderer dimensjonene to av to. Slike tomter kalles matriser av scatterplots.

Ikke bekymre deg for flerdimensjonalitet. Du utvider reglene du lærte i to eller tre dimensjoner til flere dimensjoner, så hvis en regel fungerer i et tosidig mellomrom, fungerer det også i flere. Derfor refererer alle eksemplene først til bidimensjonale eksempler.

Computeravstander for læring

En algoritme kan lære ved å bruke vektorer av tall som bruker avstandsmålinger. Ofte er plassen som følger med vektorer, en metrisk som er et mellomrom hvis avstander respekterer visse spesifikke forhold:

  • Ingen negative avstander eksisterer, og avstanden din er bare null når startpunktet og sluttpunktet sammenfaller (kalt nonnegativity).
  • Avstanden er den samme som går fra et punkt til et annet og vice versa (kalt symmetri).
  • Avstanden mellom et innledende punkt og en endelig er alltid større enn, eller verre det samme som, avstanden går fra det første til et tredje punkt og derfra til den endelige (kalt trekant ulikhet < - som betyr at det ikke er noen snarveier). Avstander som måler et metrisk rom er den euklidiske avstanden, Manhattan-avstanden og Chebyshev-avstanden. Dette er alle avstander som kan gjelde for numeriske vektorer.

Euklidisk avstand

Den vanligste er den euklidiske avstanden, også beskrevet som l2-normen av to vektorer (les denne diskusjonen om l1, l2 og linfinitetsnormer). I et tosidet plan reflekterer den euklidiske avstanden som den rette linjen som forbinder to punkter, og du beregner den som kvadratroten av summen av den kvadratiske forskjellen mellom elementene i to vektorer. I den forrige plottet kan den euklidiske avstanden mellom punkter (1, 2) og (3, 3) beregnes i R som sqrt ((1-3) ^ 2 + (2-3) ^ 2), noe som resulterer i en avstand på ca 2. 236.

Manhattan avstand

Et annet nyttig mål er Manhattan-avstanden (også beskrevet som l1-norm for to vektorer). Du beregner Manhattan-avstanden ved å oppsummere absoluttverdien av differansen mellom vektorene. Hvis den euklidiske avstanden markerer den korteste ruten, markerer Manhattan-avstanden den lengste ruten, som ligner retningen for en taxi som flytter i en by. (Avstanden er også kjent som taxicab eller city-block avstand.)

For eksempel er Manhattan avstanden mellom punkter (1, 2) og (3, 3) abs (1-3) og abs (2-3)), noe som resulterer i 3.

Chebyshev avstand

Chebyshev-avstanden eller maksimummetrisk tar maksimalt av den absolutte forskjellen mellom vektorene. Det er et avstandsmål som kan representere hvordan en konge beveger seg i sjakk eller i lagerlogistikk, operasjoner som kreves av en overheadkran for å flytte en kasse fra ett sted til et annet.

I maskinlæring kan Chebyshev-avstanden være nyttig når du har mange dimensjoner å vurdere, og de fleste er bare irrelevante eller overflødige (i Chebyshev velger du bare den som har den absolutte forskjellen som er størst). I eksemplet som brukes ovenfor, er avstanden simpelthen 2, maksimum mellom (1-3) og abs (2-3).

Måling likhet mellom vektorer for maskinlæring - dummies

Redaktørens valg

Vis resultatene i forhold til et målområde i Excel-oversiktspanelet - dummies

Vis resultatene i forhold til et målområde i Excel-oversiktspanelet - dummies

Noen ganger trenger du målserier i Excel-oversikten og rapportene dine. I enkelte bedrifter er et mål ikke en verdi - det er en rekke verdier. Det vil si at målet er å holde seg innenfor et definert målområde. Tenk deg at du klarer en liten bedrift som selger esker med kjøtt. En del av jobben din er å ...

Slicer Tilpasninger for Slicers på Excel Dashboard - dummies

Slicer Tilpasninger for Slicers på Excel Dashboard - dummies

Hvis du skal bruke slicers på en Excel-dashbordet, bør du gjøre litt formatering for å få dine skiver til å passe til temaet og oppsettet på instrumentpanelet. Følgende diskusjon dekker noen formateringsjusteringer du kan gjøre til dine skiver. Størrelse og plassering av skiver En skiver oppfører seg som en standard Excel ...

Enkel statistikk i Excel Data Analyse - dummies

Enkel statistikk i Excel Data Analyse - dummies

Excel gir flere praktiske, brukervennlige verktøy for å analysere informasjon som du lagrer i et bord, inkludert noen raske og skitne statistiske verktøy. Se på følgende enkle bord. En enkel dagligvareliste. Et av de smaleste og raskeste verktøyene som Excel gir, er muligheten til enkelt å beregne summen, gjennomsnittet, antall, minimum og maksimum av ...

Redaktørens valg

Bruk fanen Filtre til å modifisere QuickBooks 2014 Rapporter - dummies

Bruk fanen Filtre til å modifisere QuickBooks 2014 Rapporter - dummies

Filtrene kategorien er trolig den mest interessante og en nyttig kategori som er levert av dialogboksen QuickBooks Modify Report. Filtre-fanen lar deg sette opp filtre som du kan bruke til å angi hvilken informasjon som oppsummeres i rapporten. For å bruke Filtrer-fanen velger du først feltet du vil ha ...

Bruk skjermfeltet til å modifisere QuickBooks 2012-rapporter - dummies

Bruk skjermfeltet til å modifisere QuickBooks 2012-rapporter - dummies

Hvis du klikker Tilpass rapport- QuickBooks viser dialogboksen Endre rapport, som du kan bruke til å tilpasse en rapport. Når du tilpasser en rapport, endrer du rapportens utseende, layout og informasjonen som den oppsummerer. Dialogboksen Endre rapport ser annerledes ut for ulike rapporttyper. Likevel, hvis du ser forbi ...

Slik bruker du QuickBooks for din hvite papir forretningsplan - dummies

Slik bruker du QuickBooks for din hvite papir forretningsplan - dummies

QuickBooks kan hjelpe deg skriv en hvit-papir forretningsplan. Folk skriver ofte en forretningsplan for hvitt papir når de vet at de trenger en strategisk plan, men ikke ønsker å ta de harde beslutningene som er nødvendige for en strategisk plan. Personen i denne konfronten skriver en lang hvit-papir forretningsplan for å camouflere den fraværende strategiske planen. ...

Redaktørens valg

Canon 60D elektronisk nivåfunksjon - dummies

Canon 60D elektronisk nivåfunksjon - dummies

Ikke hvert fotografi må være nivå med horisonten. Imidlertid lider mange typer bilder (landskap, bybilder og arkitektonisk fotografi) sterkt når kameraet er vippet. Den gammeldags løsningen for å utjevne kameraet ditt er å bruke et boble- eller åndnivå (funnet i fotobutikker) for å kontrollere kameraets justering med ...

Kamerainnstillingsdisplayet på et Canon EOS Rebel T3-serie Kamera-dummies

Kamerainnstillingsdisplayet på et Canon EOS Rebel T3-serie Kamera-dummies

På din Canon Rebel T3 eller T3i, kan du se en samling av tilleggsinnstillingsdata via kamerainnstillingsdisplayet. Denne skjermen er bare et informasjonsverktøy, men; Du kan ikke justere noen av de rapporterte innstillingene fra denne skjermen. For å vise skjermbildet Kamerainnstillinger på T3i, vis først innstillingsinnstillingene ...

Canon EOS 70D Kameraoppsett - dummies

Canon EOS 70D Kameraoppsett - dummies

Her er en oversikt over knappene, ringer og andre eksterne kontroller på Canon EOS 70D-kameraet ditt. Objektivet vist i de følgende figurene er Canon EF-S 18-135mm IS (bildestabiliseringsmodell) som selges med kameraet; Andre linser kan variere.