Grunnleggende om innholdsbaserte prediktive Analytics-filtre - dummier

Innholdsbasert Rekommendasjonssystemer for predictive analytics matcher for det meste funksjoner (merkede søkeord) blant lignende gjenstander og Brukerens profil for å gi anbefalinger. Når en bruker kjøper et element som har merket funksjoner, vil elementer med funksjoner som samsvarer med de originale elementene bli anbefalt. Jo flere funksjoner samsvarer, desto høyere er sannsynligheten for at brukeren vil like anbefalingen. Denne sannsynlighetsgraden kalles presisjon.

Grunnleggende om tagger for å beskrive elementer

Generelt merker selskapet som selger (eller produsenten) vanligvis elementene med søkeord. På Amazonas nettside er det imidlertid ganske typisk å aldri se etikettene for varer som er kjøpt eller vist - og ikke engang å bli bedt om å merke et element. Kunder kan se gjennom elementene de har kjøpt, men det er ikke det samme som merking.

Merking av varer kan utgjøre en skalautfordring for en butikk som Amazon som har så mange elementer. I tillegg kan noen attributter være subjektive og kan være feil merket, avhengig av hvem som merker det. En løsning som løser skaleringsproblemet er å la kunder eller allmennheten merke varene.

For å holde kodene håndterbare og nøyaktige, kan et akseptabelt sett med tagger bli gitt av nettstedet. Bare når et passende antall brukere er enige (det vil si, bruk samme tag for å beskrive et element), vil den avtalte tag bli brukt til å beskrive elementet.

Brukerbasert merking oppstår imidlertid andre problemer for et innholdsbasert filtreringssystem (og samarbeidsfiltrering):

Troverdighet: Ikke alle kunder forteller sannheten (spesielt online) og brukere som har Bare en liten vurderingshistorie kan skje dataene. I tillegg kan noen leverandører gi (eller oppfordre andre til å gi) positive vurderinger til sine egne produkter samtidig som de gir negative vurderinger til konkurrentens produkter.
Sparsity: Ikke alle elementer vil bli vurdert eller vil ha nok karakterer til å produsere nyttige data.
Inkonsekvens: Ikke alle brukere bruker de samme søkeordene for å merke et element, selv om meningen kan være den samme. I tillegg kan noen attributter være subjektive. For eksempel kan en seer av en film vurdere det kort mens en annen sier at den er for lang.

Attributter trenger klare definisjoner. Et attributt med for få grenser er vanskelig å evaluere; å pålegge for mange regler på et attributt kan være å be brukerne å gjøre for mye arbeid, noe som vil frata dem fra å merke elementer.

Merking av de fleste elementer i en produktkatalog kan bidra til å løse det kaldstartproblemet som plager samarbeidsfiltrering.For en stund vil imidlertid presisjonen i systemets anbefalinger være lav til den oppretter eller oppnår en brukerprofil.

Her er en utvalgsmatrise av kunder og deres kjøpte varer, viser et eksempel på innholdsbasert filtrering.

Element 2	Element 2	Element 3	Element 4
X	X	Element 2
X	X	X
X	X	Element 4	X
X	X	Element 5	X > X
X	Her, hvis en bruker liker Feature 2 - og det er registrert i profilen hennes - vil systemet anbefale alle elementer som har Feature 2 i dem: Artikkel 1, Artikkel 2 og Artikkel 4. > Denne tilnærmingen fungerer selv om brukeren aldri har kjøpt eller vurdert et element. Systemet vil bare se i produktdatabasen for et element som har blitt merket med Feature 2. Hvis (for eksempel) en bruker som leter etter filmer med Audrey Hepburn - og at preferansen dukker opp i brukerens profil - vil systemet anbefale alle Filmer som har Audrey Hepburn til denne brukeren.	Dette eksempelet eksponerer imidlertid raskt en begrensning av innholdsbasert filtreringsteknikk: Brukeren vet sannsynligvis allerede om alle filmene som Audrey Hepburn har vært i, eller kan lett finne ut - så fra brukerens synspunkt, har systemet ikke anbefalt noe nytt eller av verdi.	Slik forbedrer du presisjonen med konstant tilbakemelding

En måte å forbedre presisjonen til systemets anbefalinger er å spørre kundene om tilbakemelding når det er mulig. Innsamling av tilbakemeldinger fra kunder kan gjøres på mange forskjellige måter, gjennom flere kanaler. Noen selskaper ber kunden om å vurdere et produkt eller en tjeneste etter kjøpet. Andre systemer gir sosiale medier-linker slik at kundene kan "like" eller "misliker" et produkt. Konstant samspill mellom

Slik måler du effektiviteten av systemanbefalinger

Suksessen til systemets anbefalinger er avhengig av hvor godt den oppfyller to kriterier:

presisjon

(tenk på det som et sett med perfekte kamper - vanligvis et lite sett) og

tilbakekall

(tenk på det som et sett med mulige kamper - vanligvis et større sett). Her ser du nærmere: Precision måler hvor nøyaktig systemets anbefaling var. Presisjon er vanskelig å måle fordi den kan være subjektiv og vanskelig å kvantifisere. Når en bruker først besøker Amazon-siden, kan Amazon for eksempel vite om anbefalingene er på målet? Noen anbefalinger kan knytte seg til kundens interesser, men kunden kan fortsatt ikke kjøpe. Den høyeste tilliten til at en anbefaling er presis kommer fra klare bevis: Kunden kjøper varen. Alternativt kan systemet eksplisitt be brukeren om å rangere sine anbefalinger. Recall

måler settet av mulige gode anbefalinger systemet ditt kommer opp med. Tenk på tilbakekalling som en oversikt over mulige anbefalinger, men ikke alle er perfekte anbefalinger. Det er generelt et omvendt forhold til presisjon og tilbakekalling. Det er, som tilbakekalling går opp, går presisjonen ned og omvendt. Det ideelle systemet ville ha både høy presisjon og høy tilbakekalling. Men realistisk er det beste resultatet å få en delikat balanse mellom de to. Å understreke presisjon eller tilbakekalling avhenger virkelig av det problemet du prøver å løse.