Innholdsfortegnelse:
Video: Statistical Programming with R by Connor Harris 2024
Selv om du har mange karttyper å velge mellom når du presenterer data, er det godt å starte med noen av de enkleste og mest brukte diagrammer for størst mulighet for suksess: bar- og kolonnediagrammer, linjediagrammer og kakediagrammer.
Bar- og kolonnediagrammer
Noen bruker uttrykket bardiagram når man snakker om et diagram som viser dataene horisontalt eller vertikalt; andre kaller et diagram som viser dataene vertikalt et kolonnediagram. Uansett hva du kaller dem, brukes disse diagrammene best til sammenligninger.
Figuren under viser et eksempel på et kolonnediagram. Legg merke til at diagrammet er enkelt, med en tittel, en merket akse og klare etiketter for å vise hva kolonnene representerer.
Når du bruker et kolonnediagram, må du kortere eller bruke mindre etiketter på x-aksen under hver linje for å sikre at de vises horisontalt. Ved å bruke lengre etiketter vil det bli nødvendig å vise tittelen vertikalt (som vist på figuren), noe som er vanskelig for brukeren å lese.
Linjediagrammer
A linjediagram kobler datapunkter over en tidsperiode, som vist i den følgende figuren. Linjediagrammer brukes best til noe som en trend for å vise bevegelse. Disse diagrammene er enkle å lese og ganske enkle å lage. Denne typen diagram bør være en av dine stifter.
Kakediagrammer
Bruken av kakediagrammer er kontroversiell, og debatten er mer enn et tiår gammel. Skriv bare ordene unngår kakediagram i en søkemotor, og du vil bokstavelig talt finne mer enn 1 million oppføringer. En av de mest kjente data design eksperter, Edward Tufte, refererer til kakediagrammer som "dumme" i sin bok Den visuelle visningen av kvantitative Informasjon (Graphics Press). Tufte hevder at kakediagrammer er dumme fordi de ikke viser sammenligninger og trender, så vel som linjediagrammer gjør. Mange eksperter hevder at øynene ikke er gode til å estimere områder, som du må gjøre når du ser på et kakediagram.
Du kan imidlertid bruke kakediagrammer som effektive datavisualiseringer hvis - og bare hvis - du holder deg til det formål de var ment å tjene og følger retningslinjene i denne delen.
Etter hvert er kakediagrammer sirkulære diagrammer delt inn i skiver, med størrelsen på hver skive som viser den relative verdien. Med andre ord, med et blikk, bør det være lett å se hvilke skiver av kaken som bidrar mest og minst til hele kaken. Vel, det er ikke så lett som du kanskje tror.
Ta en titt på de to vanligste måtene som kautsjiktene misbrukes:
-
For mange skiver vises. Du bør begrense antall kakeskiver til fem. Viser flere skiver som er for små til å bli sortert, vil bare distrahere brukeren fra hovedpunktet. Følgende figur viser et kardiagram som viser hvor mye (i prosent) hver inntektsstrøm har bidratt til selskapets samlede inntekter i kvartalet.
Det er klart at t-skjorter, capris og baseball caps sammen står for 90 prosent av selskapets salg. Det som ikke er så klart er produktene som utgjør de resterende 10 prosent av inntektene.
Figuren nedenfor viser en bedre måte å vise de samme dataene på. Legg merke til at de andre produktene er kombinert i et skive med tittelen Annet. Dette gjør kartet enklere å fordøye. Du fremhever de beste bidragsyterne og viser bidragene til de ekstra skivene som en enkelt sektor.
-
Skiver med lik verdi vises. Dette er en annen vanlig feil. Kakediagrammet i figuren ovenfor har færre enn fem skiver, men fordi verdien av noen av skivene er relativt de samme, er det vanskelig å sammenligne det faktiske bidraget fra de enkelte skiver i forhold til hverandre.
Følgende figur viser de samme dataene fra foregående figur i et kolonnediagram som er satt til sortering i stigende rekkefølge.
Legg merke til hvor mye enklere det er å se hvilke produkter som har bidratt mest inntekt, selv om forskjellene i noen av verdiene er svært slanke?
Med mindre du utvikler statiske datavisualiseringer som infographics eller en årlig rapport der dataene ikke oppdateres dynamisk, bør du unngå å bruke kakediagrammer. Virkeligheten er at de fleste Big Data-visualiseringer skal oppdateres dynamisk fra noen sanntidsdatabaser, noe som gjør det nesten umulig å kontrollere datautgangen. Risikoen for å bryte en, om ikke begge, av reglene i sektordiagrammer som er gitt i denne delen, er svært høy; Til slutt er risikoen ikke verdt å gjøre dataene vanskelig å lese.