Du bruker klyngalgoritmer til å dele inn datasettene dine i klynger med datapunkter som er mest like for et forhåndsdefinert attributt. Hvis du har et datasett som beskriver flere attributter om en bestemt funksjon og ønsker å gruppere datapunkter i henhold til deres attributter likheter, bruk deretter klyngalgoritmer.
En enkel scatterplot av Country Income and Education datasett gir diagrammet du ser her.
I uovervåket klynger starter du med disse dataene og fortsetter deretter til å dele den i undergrupper. Disse undergruppene kalles klynger og består av datapunkter som er mest likte hverandre. Det ser ut til at det er minst to klynger, sannsynligvis tre - en på bunnen med lav inntekt og utdanning, og deretter ser høyopplæringslandene ut som de kan splittes mellom lav og høy inntekt.
Følgende figur viser resultatet av eyeballing - et visuelt estimat av - klynger i dette datasettet.
Selv om du kan generere visuelle estimater av clustering, kan du oppnå mye mer nøyaktige resultater når du håndterer mye større datasett ved å bruke algoritmer for å generere klynger for deg. Visuell estimering er en grov metode som bare er nyttig på mindre datasett med minimal kompleksitet. Algoritmer - produserer nøyaktige, repeterbare resultater, og du kan bruke algoritmer til å generere clustering for flere dimensjoner av data i datasettet.
Klyngalgoritmer er en type tilnærming i ikke-overvåket maskinlæring - andre tilnærminger inkluderer Markov-metoder og metoder for dimensjonsreduksjon. Klyngningsalgoritmer er hensiktsmessige i situasjoner der følgende egenskaper er sanne:
-
Du kjenner og forstår datasettet du analyserer.
-
Før du kjører clustering algoritmen, har du ikke en eksakt ide om typen av undergrupper (klynger). Ofte vil du ikke engang vite hvor mange delmengder det finnes i datasettet før du kjører algoritmen.
-
Delene (klaser) bestemmes av bare det ene datasettet du analyserer.
-
Målet ditt er å bestemme en modell som beskriver delsettene i et enkelt datasett og bare dette datasettet.
Hvis du legger til flere data, bør du gjenopprette analysen fra grunnen for å få komplette og nøyaktige modellresultater.
