Video: KRAFT - Father of the Insulin Assay 2025
Både clustering og klassifisering er basert på å beregne likheten eller forskjellen mellom to datapunkter. Hvis datasettet ditt er numerisk - består av bare tallfelt og verdier - og kan vises på et n -dimensjonalt plott, er det forskjellige geometriske beregninger du kan bruke til å skalere din flerdimensjonale data.
Et n-dimensjonalt plot er et flerdimensjonalt spredningsdiagram som du kan bruke til å plotte n antall dimensjoner av data.
Noen populære geometriske beregninger som brukes til å beregne avstander mellom datapunkter, inkluderer Euclidean, Manhattan eller Minkowski avstandsmålinger. Disse beregningene er bare forskjellige geometriske funksjoner som er nyttige for modellering av avstander mellom punkter. Den euklidiske metriske er et mål på avstanden mellom punkter plottet på et euklidisk fly.
Manhattan metriske er et mål på avstanden mellom punkter hvor avstand beregnes som summen av absoluttverdien av forskjellene mellom to punkts kartesiske koordinater. Minkowski avstandsmålet er en generalisering av Euklidisk og Manhattan avstandsmålinger. Ofte kan disse beregningene brukes - utveksling.
Hvis dataene dine er numeriske, men ikke-plottbare (for eksempel kurver i stedet for poeng), kan du generere likhetsscorer basert på forskjeller mellom data, i stedet for de faktiske verdiene av selve dataene.
Til slutt, for ikke-numeriske data, kan du bruke beregninger som Jaccard-avstandsmålet, som er en indeks som sammenligner antall funksjoner som to datapunkter har til felles. For eksempel, for å illustrere en Jaccard-avstand, tenk på de to følgende tekststrengene: Saint Louis de Ha-ha, Quebec og St-Louis de Ha! Ha!, QC.
Hvilke funksjoner har disse tekststrengene felles? Og hvilke funksjoner er forskjellige mellom dem? Jaccard-metritt genererer en numerisk indeksverdi som kvantifiserer likheten mellom tekststrenger.
