Video: Statistical Programming with R by Connor Harris 2025
Data miners benytter ofte spesielle funksjoner for å pakke mer informasjon til enkle diagrammer. Etiketter, overlegg og interaktivt utvalg er kjennetegn ved data mining applikasjoner, spesialfunksjoner som gjør at du kan være mer produktiv.
Kjørelengde minker etter hvert som hestekrefter øker, som vist i figuren nedenfor.
Kjørelengde øker med tiden, som du ser, en scatterplot av kjørelengde mot modellår. Det ville være nyttig å få disse to ideene til en graf.
Vanlige data-mining tilnærminger for å integrere mer enn to variabler i en graf inkluderer
-
Etiketter: Etiketter er verdier av en streng eller kategorisk variabel som er lagt over på scatterplot. Følgende figur viser en scatterplot merket med modellår på bilen.
Datasett med mange poeng eller lange etiketter kan gjøre disse diagrammene ulæselige, skjønt! Løsningen er å bruke bare en prøve av dataene. Oppsett for denne typen prøvetaking er vist i følgende figur.
-
Overlays: Med overlays definerer verdier for en kategorisk variabel poengets form eller farge. Følgende figur viser oppsettet for en scatterplot til overleggsmodell år på kilometer-mot-hestekrefter scatterplot.
Det eksporterte overlegget spredningsplott vises i følgende bilde. Det kan være lettere å lese fargeoverlegg enn punktoverlag. Oppsettet er vanligvis mye det samme.
En annen ting å huske på med scatterplots: Du kan ha flere poeng som faller på samme sted! Hvis det er tilfelle, kan du kanskje ikke fortelle et poeng for en sak fra et punkt for 100 tilfeller. Løsningen er å se etter et alternativ for å gjøre flere forekomster synlige. Se etter punktstørrelse eller jitter (flytter poeng litt av deres sanne steder for å gjøre dem alle synlige).
Interaktive scatterplots er gode tidsbesparende for data miners.
Si at du ser en interessant gruppe saker i en graf, og du vil undersøke bare de tilfellene. Hvis du ser på bare ett eller to poeng, kan du få informasjonen du vil ha ved å svinge, men det er ikke tilfredsstillende når du er interessert i mer enn noen få poeng.
Datavalgsverktøy i interaktive scatterplots gir deg mer kraft til å velge data. Følgende figur viser samme diagramoppsett, men med en gruppe poeng valgt ved å klikke og dra musen rundt dem. Dette er ikke bare en visuell funksjon.
Du kan eksportere de valgte punktene som et nytt datasett. Dette er veldig praktisk og raskt!
Hvis poengene du trenger ikke passer fint inn i et rektangulært utvalg, har du andre alternativer. Se Zoom / Velg-området. Du kan se en knapp med et rektangel for rektangulært valg og en annen med en rundform for valgfri form.
Her er et eksempel på fritaksvalg med data om nikotininnholdet i sigaretter solgt i forskjellige deler av verden. Denne scatterplot viser nikotin per sigarett for prøver fra de seks FN-regionene. (Dette er en uradisjonell bruk av en scatterplot, fordi regionen ikke er en kontinuerlig variabel, det er kategorisk. Data miners bruker ofte tradisjonelle verktøy på uradisjonelle måter.)
Poengene i en region faller ikke i en perfekt vertikal linje. Små skift (jitter) til venstre og høyre er laget for lesbarhet og utseende bare. Noen sigaretter har eksepsjonelt høye nivåer av nikotin, og du vil velge de tilfellene.
En rullegardinmeny tilbyr valgmuligheter. Polygon-valg lar deg markere et fritt formområde på scatterplot.
For å markere, klikk på grafen for å lage et utgangspunkt, og klikk deretter igjen og igjen rundt gruppen av poeng du vil ha til du har gjort formen du trenger.
Et høyreklikk indikerer at du har fullført valget; dette er synlig fra høydepunktet på grafen.
