10 Ting du burde vite om statistikk for bruk av Excel - dummies

Excel er et flott verktøy når du trenger å bruke statistikk. Hvis du aldri har vært utsatt for statistikk i skolen eller det har vært et tiår eller to siden du var, la disse tipsene hjelpe deg med å bruke noen av de statistiske verktøyene som Excel gir.

Beskrivende statistikk er rettferdig

Det første du burde vite er at noen statistisk analyse og noen statistiske tiltak er ganske darn enkelt. Beskrivende statistikk, som inkluderer ting som pivottabelloverskrifter, samt noen av de statistiske funksjonene, gir mening selv til noen som ikke er så kvantitative.

Gjennomsnitt er ikke så enkelt noen ganger

Når noen bruker begrepet gjennomsnitt, er det vanligste gjennomsnittsmålet, som er mener. Forstå at begrepet gjennomsnittlig er upresent, gjør mye av Excels statistiske funksjonalitet mer forståelig.

For å gjøre denne diskusjonen mer konkret, antar du at du ser på et lite sett med verdier: 1, 2, 3, 4 og 5. Som du kanskje vet er gjennomsnittet i dette lille settet av verdier 3. Du kan beregne gjennomsnittet ved å legge sammen alle tallene i settet (1 + 2 + 3 + 4 + 5) og deretter dele denne summen (15) med det totale antall verdier i settet (5).

Den medianverdien er verdien som skiller de største verdiene fra de minste verdiene. I datasettet 1, 2, 3, 4 og 5 er medianen 3. Verdien 3 skiller de største verdiene (4 og 5) fra de minste verdiene (1 og 2).

Du trenger ikke å forstå forskjellige gjennomsnittlige målinger, men du bør huske på at uttrykket gjennomsnittlig er ganske upresent.

Standardavvik beskriver dispersjon

Formelen for standardavvik og logikken er ganske lett å forstå.

A standardavvik beskriver hvordan verdier i et datasett varierer rundt gjennomsnittet. Den ryddige tingen om statistiske tiltak som en standardavvik, du får ofte reell innsikt i egenskapene til dataene du ser på. En annen ting er at med disse to bitene av data, kan du ofte tegne avledninger om data ved å se på prøver.

En observasjon er en observasjon

Observasjon er et av vilkårene du vil støte på hvis du leser noe om statistikk. En observasjon er bare en observasjon. En måte å definere begrepet observasjon på er slik: Når du faktisk tilordner en verdi til en av dine tilfeldige variabler, oppretter du en observasjon.

En prøve er en delmengde av verdier

A prøve er en samling observasjoner fra en befolkning. Hvis du for eksempel lager et datasett som registrerer den daglige høye temperaturen i nabolaget ditt, er din lille samling observasjoner et eksempel.

Til sammenligning er en prøve ikke en populasjon. En befolkning inneholder alle mulige observasjoner.

Inferentiell statistikk er kult, men komplisert.

Hvis du ser på et utvalg av verdier fra en befolkning og prøven er representativ og stor nok, kan du trekke konklusjoner om befolkningen basert på prøvens egenskaper.

Inferensiell statistikk, selv om den er svært kraftig, har to egenskaper som du trenger å vite:

Nøyaktighetsproblemer
Bratt lærings kurve

Sannsynlighetsfordelingsfunksjoner er ikke alltid forvirrende

P robbarfordeling funksjonen høres ganske vanskelig ut; men du kan faktisk forstå intuitivt hva en sannsynlighetsfordelingsfunksjon er med et par nyttige eksempler.

En vanlig distribusjon som du hører om i statistikklasser, er for eksempel en T-distribusjon. En T-fordeling er i hovedsak en normal fordeling bortsett fra tyngre, tykkere haler.

En vanlig sannsynlighetsfordelingsfunksjon er en jevn fordeling. I en uniformfordeling, har hver begivenhet samme sannsynlighet for forekomst. Den unike tingen om denne distribusjonen er at alt er pent darn nivå.

En annen vanlig type sannsynlighetsfordelingsfunksjon er normalfordeling, , også kjent som en bellkurve eller en Gaussisk fordeling.

En normal fordeling skjer naturlig i mange situasjoner. For eksempel distribueres intelligens kvoter (IQ) normalt.

Parametrene er ikke så kompliserte

A parameter er en inngang til sannsynlighetsfordelingsfunksjonen. Med andre ord, formelen eller funksjonen eller ligningen som beskriver en sannsynlighetsfordelingskurve, trenger innganger. I statistikk kalles disse inngangene parametere.

Noen sannsynlighetsfordelingsfunksjoner trenger bare en enkelt enkel parameter. For eksempel, for å jobbe med en jevn fordeling, er alt du virkelig trenger, antall verdier i datasettet. En sekssidig dør har for eksempel bare seks muligheter.

Skewness og kurtosis beskriver en sannsynlighetsfordeling s form

Et par andre nyttige statistiske termer som kjenne er skævhet og kurtose. Skewness kvantifiserer mangelen på symmetri i en sannsynlighetsfordeling. I en perfekt symmetrisk fordeling, som normalfordelingen, er skjevheten lik null. Hvis en sannsynlighetsfordeling ligner til høyre eller venstre, er imidlertid skjevhet lik en annen verdi enn null, og verdien kvantifiserer mangelen på symmetri.

Kurtosis kvantifiserer tyngden av haler i en fordeling. I en normal fordeling er kurtosis lik null. halen er den tingen som når ut til venstre eller høyre. Men hvis en hale i en fordeling er tyngre enn en normal fordeling, er kurtosis et positivt tall.Hvis svingene i en fordeling er skinnier enn i en normal fordeling, er kurtosis et negativt tall.

Tillitsintervallene virker kompliserte først, men er nyttige.

Sannsynligheter forvirrer ofte mennesker. En viktig ting å forstå om konfidensnivåer er at de er knyttet til feilmarginen.

En annen viktig ting å forstå om konfidensnivåer er at jo større du lager din utvalgsstørrelse, desto mindre vil feilmarginen din bruke det samme konfidensnivået.

Som et eksempel, si at du hadde noen Google Analytics-data om to forskjellige webannonser du kjører for å markedsføre småbedrifter, og du vil vite hvilken annonse som er mer effektiv. Du kan bruke konfidensintervallformelen for å finne ut hvor lenge annonsene dine må løpe før Googles samlede nok data for å kunne vite hvilken annonse som er bedre.