Innholdsfortegnelse:
- Å vite sannsynligheten for at en hendelse vil oppstå
- Bruk varians for å vise størrelsen på endringen
- Fremtidsprognose
Video: Arthur Benjamin: Teach statistics before calculus! 2025
Ordet statistikk kan fremkalle frykt for noen nybegynnere i datavisualisering, men hvis du ignorerer dette emnet, overser du en av de mest kraftfulle måter å utlede sant innsikt og verdi fra Big Data.
Statistikk er praksis eller vitenskap for å samle talldata i store mengder. Du trenger ikke å gå ut og bli dataforsker (et begrep som brukes til statistikere som også er data-geeks i forklædning og som vanligvis holder en type avansert grad, for eksempel en doktorgrad), men du vil kanskje vurdere å plukke opp en statistikk 101 bok eller klasse hvis du har noen interesse.
Statistiske formler som sannsynlighet, varians og prognose er populære i dag. De er ganske enkle å søke på et datasett, og de fleste lesere vil tydelig forstå dem. Du kan innlemme noen av disse statistiske formlene i dine Big Data-visualiseringer for å gi sann verdi til brukere ved å bruke teknikkene som er omtalt i de følgende avsnittene.
Å vite sannsynligheten for at en hendelse vil oppstå
En statistisk formel som du kanskje er kjent med er p robability - sannsynligheten for at en hendelse kan oppstå. Følgende formel beregner grunnleggende sannsynlighet for et lineært scenario. (Ikke-lineære scenarier er litt komplekse og for mye av et engasjement for en nybegynner.)
Sannolikhet = Sannsynlighet for at en hendelse vil oppstå / Antall mulige utfall
Følgende figur viser en sannsynlighet med noen varselfarger lagt til for å gjøre melding lett å lese og viktigst, tydelig tyder på at umiddelbar handling er nødvendig.
Sannsynlighetene gir en rask virkelighetskontroll og angir den generelle tonen til historien som datavisualisering vil gi i en gitt periode (dag, uke, kvartal og så videre).
Bruk varians for å vise størrelsen på endringen
Et annet populært statistisk mål er v ariance , som er forskjellen mellom et sett med datapunkter.
Den vanligste formelen for å beregne variansen er
Varians = Endelig ønsket - Nåværende tilstand
Uansett om utgangen vises er et helt tall eller prosent, viser formelen størrelsen på endringen mellom start- og sluttstatus et datapunkt.
Varianten er alltid en rask seier og en flott erstatning for linjelinjen / linjediagramkombinasjonen, som er hvordan variansforholdet vises i de fleste visualiseringer.
Diagrammet i figuren nedenfor viser en linje / linjediagramkombinasjon som lar brukeren dechifere variansen for hver måned.
Det andre diagrammet, vist i den følgende figuren, tydelig viser variansen og tar alt gjetning ut av det visuelle.
Fremtidsprognose
En annen populær statistisk formel som du kanskje er kjent med, er f orecast , som er å forutsi eller estimere en hendelse eller trend.
Når du beregner en prognose, bruker du virkelig en viss mengde historiske data for å forutsi atferd, en bestemt hendelse eller en trend. For eksempel kan du regne ut salget for året basert på det historiske faktum at januar normalt utgjør 5% av salget. Hvis du har gjort $ 500 i salget i januar, vil du bruke følgende formel for å prognose hvor mye salg du kan forvente for året:
$ 500 /. 05 = $ 10 000
I denne ligningen er $ 500 salget i januar;. 05 er den historiske prosentdelen av salget som januar står for; og $ 10 000 er det forventede salget for året.
Figuren nedenfor viser hvordan prognoser vises i de fleste datavisualiseringer som en enkel linje i et diagram. Prognoser angir hvordan en bestemt aktivitet kan utføre i fremtiden.
