Grensene for klassifiseringsdata i maskinlæring - dummier <[SET:descriptionno]Graderingsdata har begrensninger i maskinlæring.

Video: 17. Vurdering i Open edX: Grenser for godkjenning av arbeidskrav 2025

Klassifiseringsdata har begrensninger i maskinlæring. For anbefalingssystemer fungerer det bra, de trenger å vite om deg og andre, både som deg og forskjellig fra deg. Ved å oppnå karakterdata kan et anbefalingssystem lære av erfaringene fra flere kunder. Vurderingsdata kan hende fra en vurdering (for eksempel å rangere et produkt ved hjelp av stjerner eller tall) eller et faktum (en binær 1/0 som bare sier at du kjøpte produktet, så en film, eller sluttet å surfe på en bestemt nettside).

Uansett datakilde eller type, er vurderingsdata alltid om atferd. Hvis du vil vurdere en film, må du bestemme deg for å se den, se den, og rangere den ut fra din erfaring med å se filmen. Faktiske anbefalingssystemer lærer av vurderingsdata på forskjellige måter:

Samarbeidsfiltrering: Kamper Raters basert på film eller produkt likheter brukt tidligere. Du kan få anbefalinger basert på elementer likte folk som ligner på deg eller på ting som ligner på de du liker.
Innholdsbasert filtrering: Går utover det faktum at du så på en film. Den undersøker funksjonene i forhold til deg og filmen for å avgjøre om det eksisterer en kamp basert på de større kategoriene som funksjonene representerer. For eksempel, hvis du er en kvinne som liker actionfilmer, vil anbefaleren se etter forslag som inkluderer skjæringspunktet mellom disse to kategoriene.
Kunnskapsbaserte anbefalinger: Basert på metadata, for eksempel preferanser uttrykt av brukere og produktbeskrivelser. Den er avhengig av maskinlæring og er effektiv når du ikke har nok atferdsdata for å bestemme bruker- eller produktegenskaper. Dette kalles en kaldstart og representerer en av de vanskeligste anbefalingsoppgaver, fordi du ikke har tilgang til samarbeidsfiltrering eller innholdsbasert filtrering.

Når du bruker samarbeidsfiltrering, må du beregne likhet. Bortsett fra euklidiske, Manhattan og Chebyshev avstander, diskuterer resten av denne informasjonen cosinus likhet. Cosinell likhet måler vinkelkosinavstanden mellom to vektorer, som kan virke som et vanskelig konsept å forstå, men er bare en måte å måle vinkler i datavel på.

Forestill deg et mellomrom av funksjoner og ha to poeng. Du kan måle avstanden mellom punktene. For eksempel kan du bruke den euklidiske avstanden, som er et perfekt valg når du har få dimensjoner, men som mislykkes dårlig når du har flere dimensjoner på grunn av forbannelsen til dimensjonalitet.

Ideen bak cosinusavstanden er å bruke vinkelen som er opprettet av de to punktene som er knyttet til mellomromets opprinnelse (punktet der alle dimensjoner er null) i stedet. Hvis punktene er nær, er vinkelen smal, uansett hvor mange dimensjoner det er. Hvis de er langt borte, er vinkelen ganske stor.

Kosinisk likhet utfører cosinusavstanden i prosent og er ganske effektiv for å fortelle om en bruker ligner på en annen eller om en film kan knyttes til en annen fordi de samme brukerne favoriserer det. Følgende eksempel lokaliserer filmene som er de mest liknende filmene til film 50, Star Wars.

print (colnames (MovieLense [50]))

[1] "Star Wars (1977)"

similar_movies <- likhet (MovieLense [50],

MovieLense [-50]

metode = "cosine",

hvilke = "elementer")

colnames (similar_movies) [som (similar_movies> 0. 70)]

[1] "Toy Story (1995)" < "Empire Strikes Back, The (1980)"

[3] "Raiders of the Lost Ark (1981)"

"Retur av Jedi (1983)"