Hjem Personlig finansiering Måling likhet mellom vektorer for maskinlæring - dummies

Måling likhet mellom vektorer for maskinlæring - dummies

Innholdsfortegnelse:

Video: Data Analysis in R by Dustin Tran 2024

Video: Data Analysis in R by Dustin Tran 2024
Anonim

Du kan enkelt sammenligne eksempler fra dataene dine ved å bruke beregninger hvis du tenker på hver av dem som en vektor. Følgende informasjon beskriver måling av likhet mellom vektorer for å utføre oppgaver som å beregne avstanden mellom vektorer for læringsformål.

Forstå likhet

I en vektorform kan du se hver variabel i eksemplene dine som en serie koordinater, hvor alle peker på en posisjon i en annen romdimensjon. Hvis en vektor har to elementer, det vil si, den har bare to variabler. Det å jobbe med det, er som å sjekke et elements posisjon på et kart ved å bruke det første nummeret for posisjonen på øst-vest-aksen og den andre på nord- Sørakselen.

Eksempler på verdier plottet som punkter på et diagram.

For eksempel er tallene mellom parenteser (1, 2) (3, 2) og (3, 3) alle eksempler på poeng. Hvert eksempel er en bestilt liste over verdier (kalt en tuple) som enkelt kan plasseres og skrives ut på et kart ved hjelp av den første verdien av listen for x (den horisontale aksen) og den andre for y (den vertikale aksen). Resultatet er en scatterplot.

Hvis datasettet ditt, i matrisedannelse, har mange numeriske funksjoner (kolonnene), representerer ideell tallet av dataene dimensjonene til datarommet, mens radene (eksemplene) representerer hver punkt, som matematisk er en vektor. Når vektoren din har mer enn to elementer, blir visualisering plagsom fordi det representerer dimensionaliteter over det tredje ikke er lett (tross alt lever vi i en tredimensjonal verden).

Du kan imidlertid forsøke å formidle flere dimensionaliteter med noe som helst, for eksempel ved å bruke størrelse, form eller farge for andre dimensjoner. Klart er det ikke en lett oppgave, og ofte er resultatet langt fra å være intuitivt. Du kan imidlertid forstå ideen om hvor poengene ville være i datarommet ved å systematisk skrive ut mange grafer mens du vurderer dimensjonene to av to. Slike tomter kalles matriser av scatterplots.

Ikke bekymre deg for flerdimensjonalitet. Du utvider reglene du lærte i to eller tre dimensjoner til flere dimensjoner, så hvis en regel fungerer i et tosidig mellomrom, fungerer det også i flere. Derfor refererer alle eksemplene først til bidimensjonale eksempler.

Computeravstander for læring

En algoritme kan lære ved å bruke vektorer av tall som bruker avstandsmålinger. Ofte er plassen som følger med vektorer, en metrisk som er et mellomrom hvis avstander respekterer visse spesifikke forhold:

  • Ingen negative avstander eksisterer, og avstanden din er bare null når startpunktet og sluttpunktet sammenfaller (kalt nonnegativity).
  • Avstanden er den samme som går fra et punkt til et annet og vice versa (kalt symmetri).
  • Avstanden mellom et innledende punkt og en endelig er alltid større enn, eller verre det samme som, avstanden går fra det første til et tredje punkt og derfra til den endelige (kalt trekant ulikhet < - som betyr at det ikke er noen snarveier). Avstander som måler et metrisk rom er den euklidiske avstanden, Manhattan-avstanden og Chebyshev-avstanden. Dette er alle avstander som kan gjelde for numeriske vektorer.

Euklidisk avstand

Den vanligste er den euklidiske avstanden, også beskrevet som l2-normen av to vektorer (les denne diskusjonen om l1, l2 og linfinitetsnormer). I et tosidet plan reflekterer den euklidiske avstanden som den rette linjen som forbinder to punkter, og du beregner den som kvadratroten av summen av den kvadratiske forskjellen mellom elementene i to vektorer. I den forrige plottet kan den euklidiske avstanden mellom punkter (1, 2) og (3, 3) beregnes i R som sqrt ((1-3) ^ 2 + (2-3) ^ 2), noe som resulterer i en avstand på ca 2. 236.

Manhattan avstand

Et annet nyttig mål er Manhattan-avstanden (også beskrevet som l1-norm for to vektorer). Du beregner Manhattan-avstanden ved å oppsummere absoluttverdien av differansen mellom vektorene. Hvis den euklidiske avstanden markerer den korteste ruten, markerer Manhattan-avstanden den lengste ruten, som ligner retningen for en taxi som flytter i en by. (Avstanden er også kjent som taxicab eller city-block avstand.)

For eksempel er Manhattan avstanden mellom punkter (1, 2) og (3, 3) abs (1-3) og abs (2-3)), noe som resulterer i 3.

Chebyshev avstand

Chebyshev-avstanden eller maksimummetrisk tar maksimalt av den absolutte forskjellen mellom vektorene. Det er et avstandsmål som kan representere hvordan en konge beveger seg i sjakk eller i lagerlogistikk, operasjoner som kreves av en overheadkran for å flytte en kasse fra ett sted til et annet.

I maskinlæring kan Chebyshev-avstanden være nyttig når du har mange dimensjoner å vurdere, og de fleste er bare irrelevante eller overflødige (i Chebyshev velger du bare den som har den absolutte forskjellen som er størst). I eksemplet som brukes ovenfor, er avstanden simpelthen 2, maksimum mellom (1-3) og abs (2-3).

Måling likhet mellom vektorer for maskinlæring - dummies

Redaktørens valg

Vanlige visuelle studio-tastaturgenveier - dummier

Vanlige visuelle studio-tastaturgenveier - dummier

Du kan få tilgang til mange av funksjonene du bruker i Visual Studio til Lag en Silverlight-applikasjon gjennom tastaturgenveier. Her er de vanlige snarveiene som hjelper deg med å utføre oppgaver raskt i Visual Studio. Tastatur snarvei Handling Ctrl + Alt + F1 Åpne Visual Studio Documentation Ctrl + Shift + B Bygg programmet Ctrl + F5 Kjør prosjektet Ctrl + Alt + X Åpne verktøykassen hvis ...

Velg riktig format for e-postmarkedsføringsmeldingen din - dummies

Velg riktig format for e-postmarkedsføringsmeldingen din - dummies

Som Du komponerer markedsførings-e-postene dine, husk at formatet på e-posten din visuelt kommuniserer hovedideen til innholdet før publikum selv begynner å lese det. Forbrukerne forventer at formatet på e-posten din samsvarer med informasjonen den inneholder, slik at bruk av riktig format bidrar til å bygge publikums tillit. Velg ...

Kombinere flere samtaler til handling i din markedsføring e-post - dummies

Kombinere flere samtaler til handling i din markedsføring e-post - dummies

Din e-postmarkedsføringslisten består sannsynligvis av prospekter og kunder i ulike stadier av kjøpesyklusen med litt forskjellige interesser, så en del av publikum vil aldri være klar til å reagere umiddelbart på hver handling. Selv om alle på din e-postliste er klare til handling, er dine anrop til handling ...

Redaktørens valg

Opprett en Pivot-tabell YTD-totalvisning for Excel-rapporten - dummies

Opprett en Pivot-tabell YTD-totalvisning for Excel-rapporten - dummies

En nyttig rapportvisning I et Excel-pivottabell er YTD-totalsvisningen. Noen ganger er det nyttig å fange et løp-total-visning for å analysere bevegelsen av tall på en årlig basis (YTD) basis. Denne figuren illustrerer et pivottabell som viser en løpende total omsetning per måned for hvert år. I denne visningen er du ...

Opprett en pivottabel ved hjelp av Excels interne datamodell - dummies

Opprett en pivottabel ved hjelp av Excels interne datamodell - dummies

I enkelte tilfeller vil du kanskje opprett et pivottabell fra grunnen ved hjelp av Excels eksisterende interne datamodell som kildedata. Her er trinnene for å gjøre det: Velg Sett inn → PivotTable fra båndet. Dialogboksen Create PivotTable åpnes. Velg alternativet Bruk en ekstern datakilde, som vist, og klikk deretter på ...

Hvordan lage en standard snikker i Power Pivot - dummies

Hvordan lage en standard snikker i Power Pivot - dummies

Slicers tilbyr et brukervennlig grensesnitt med som du kan filtrere en Power Pivot pivottabell. Det er på tide å lage din første slicer. Bare følg disse trinnene:

Redaktørens valg

Alarmhendelsen i GameMaker: Studio-dummies

Alarmhendelsen i GameMaker: Studio-dummies

Alarmer er utmerket for når du vil ha tid Handlinger i din spill i GameMaker: Studio. For eksempel, hvis du vil at spilleren bare skal skyte kuler en gang hvert annet sekund, kan du sette en alarm for det. Hvis du vil når nye fiendtlige fly vises, kan du sette en alarm for det ...

Flytt retningsaktive handlinger i GameMaker: Studio - dummies

Flytt retningsaktive handlinger i GameMaker: Studio - dummies

I GameMaker: Studio, Flytt-fanen er den første kategorien i vinduet Objektegenskaper. Her er en liste over hver av handlingene du kan tilordne objektene. I følgende definisjoner brukes begrepet Instance for å referere til hva handlingen påvirker. Men du konfigurerer handlingen i objektet ...

Andre hendelser i GameMaker: Studio - dummies

Andre hendelser i GameMaker: Studio - dummies

I GameMaker: Studio, Andre hendelser er de som ikke anses verdige av sitt eget sted på menyen Event. Disse andre hendelsene kan være ganske kjempebra. Menyelementene er ganske mye selvforklarende, så det er ikke nødvendig med detaljer her. For fullstendige beskrivelser av hver av disse elementene, kan du alltid trykke F1 i GameMaker og ...