Video: The Senseless Ambiguity of North American Turn Signals 2024
Formålet med klynger og klassifikasjonsalgoritmer er å fornemme og ekstrahere verdier fra store sett med strukturert og ustrukturert data. Hvis du jobber med store mengder ustrukturerte data, er det bare fornuftig å prøve å partisjonere dataene til en slags logiske grupperinger før du prøver å analysere det.
Klynging og klassifisering lar deg ta en oversikt over dataene dine masse, og danner deretter noen logiske strukturer basert på hva du finner der før du går dypere inn i mutter-og-boltsanalysen.
I sin enkleste form er klynger sett med datapunkter som deler lignende attributter, og klyngalgoritmer er metodene som grupperer disse datapunktene til forskjellige klynger basert på deres likheter. Du vil se klyngalgoritmer som brukes til sykdomsklassifisering i medisinsk vitenskap, men du vil også se dem brukt til kundeklassifisering i markedsundersøkelser og for miljøhelse-risikovurdering i miljøteknikk.
Det er forskjellige klyngemetoder, avhengig av hvordan du vil at datasettet ditt skal deles. De to hovedtyper av klyngalgoritmer er
-
Hierarkisk: Algoritmer oppretter separate sett med nestede klynger, hver i sitt eget hierarkiske nivå.
-
Partition: Algoritmer oppretter bare et enkelt sett med klynger.
Du kan bare bruke hierarkiske klyngalgoritmer hvis du allerede kjenner separasjonsavstanden mellom datapunkter i datasettet. Den nærmeste naboalgoritmen som er beskrevet i dette kapitlet tilhører den hierarkiske klassen av klyngalgoritmer.
Du har kanskje hørt om klassifisering og trodde at klassifisering er det samme som clustering. Mange mennesker gjør, men dette er ikke tilfelle. I klassifisering, før du begynner, vet du allerede antall klasser som dataene dine skal grupperes i, og du vet allerede hvilken klasse du vil at hver datapunkt skal tilordnes. I klassifiseringen er dataene i datasettet som læres fra, merket.
Når du bruker klyngalgoritmer, har du på den annen side ikke et forhåndsdefinert konsept for hvor mange klynger som passer for dataene dine, og du stole på klyngalgoritmer for å sortere og klyse dataene på den mest hensiktsmessige måten. Med clusteringsteknikker lærer du fra umerkede data.
For å bedre illustrere arten av klassifisering, ta en titt på Twitter og dets hash-tagging system.Si at du bare fikk tak i favorittdrinken din i hele verden: en iset karamell latte fra Starbucks. Du er så glad for å ha din drink som du bestemmer deg for å tweet om det med et bilde og uttrykket "Dette er den beste latten noensinne! #StarbucksRocks. "Vel, selvfølgelig, inkluderer du" #StarbucksRocks "i tweetet ditt slik at tweeten går inn i #StarbucksRocks-strømmen og er klassifisert sammen med alle de andre tweets som har blitt merket som #StarbucksRocks. Din bruk av hashtag-etiketten i tweetet ditt forteller Twitter hvordan du klassifiserer dataene dine i en gjenkjennelig og tilgjengelig gruppe, eller klynge .