(Omtrentlig) Simulere den sentrale grenseetningen i Excel - dummies

For å hjelpe deg med å forstå statistisk analyse med Excel, hjelper det å simulere den sentrale grenseetningen. Det høres nesten ikke riktig. Hvordan kan en befolkning som ikke normalt distribueres resultere i en normalt distribuert samplingsfordeling?

For å gi deg en ide om hvordan Central Limit Theorem fungerer, er det en simulering. Denne simuleringen skaper noe som en samplingsfordeling av gjennomsnittet for en svært liten prøve, basert på en befolkning som ikke er normalt distribuert. Som du vil se, selv om befolkningen ikke er en normal fordeling, og selv om prøven er liten, ser samplingsfordelingen av gjennomsnittet litt ut som en normal fordeling.

Tenk deg en stor befolkning som består av bare tre poeng - 1, 2 og 3 - og hver er like stor som i en prøve. Tenk deg også at du kan velge tilfeldig utvalg av tre poeng fra denne populasjonen.

Alle mulige eksempler på tre poeng (og deres midler) fra en populasjon bestående av resultatene 1, 2 og 3

Eksempel	Middel	Eksempel	Gjennomsnittlig	Eksempel	Mean
1, 1, 1	1. 00	2, 1, 1	1. 33	3, 1, 1	1. 67
1, 1, 2	1. 33	2, 1, 2	1. 67	3, 1, 2	2. 00
1, 1, 3	1. 67	2, 1, 3	2. 00	3, 1, 3	2. 33
1, 2, 1	1. 33	2, 2, 1	1. 67	3, 2, 1	2. 00
1, 2, 2	1. 67	2, 2, 2	2. 00	3, 2, 2	2. 33
1, 2, 3	2. 00	2, 2, 3	2. 33	3, 2, 3	2. 67
1, 3, 1	1. 67	2, 3, 1	2. 00	3, 3, 1	2. 33
1, 3, 2	2. 00	2, 3, 2	2. 33	3, 3, 2	2. 67
1, 3, 3	2. 33	2, 3, 3	2. 67	3, 3, 3	3. 00

Hvis du ser nøye på bordet, kan du nesten se hva som skjer i simuleringen. Eksempelmiddelet som vises oftest er 2. 00. Prøveinnretningene som vises minst ofte er 1. 00 og 3. 00. Hmmm …

I simuleringen ble en score tilfeldig valgt fra befolkningen og deretter tilfeldig valgt to mer. Den gruppen på tre poeng er et utvalg. Deretter beregner du gjennomsnittet av prøven. Denne prosessen ble gjentatt for totalt 60 prøver, hvilket resulterte i 60 prøveinnretninger. Til slutt graver du fordelingen av prøvemidlene.

Hva ser den simulerte samplingsfordelingen av det gjennomsnittlige ut? Bildet under viser et regneark som svarer på dette spørsmålet.

I regnearket er hver rad en prøve.Kolonnene merket x1, x2 og x3 viser de tre resultatene for hver prøve. Kolonne E viser gjennomsnittet for prøven i hver rad. Kolonne G viser alle mulige verdier for prøvens gjennomsnitt, og kolonne H viser hvor ofte hvert middel vises i de 60 prøvene. Kolonnene G og H, og grafen, viser at fordelingen har sin maksimale frekvens når prøven er gjennomsnittlig 2. 00. Frekvensene stanser av når prøveinnretningen kommer lenger og lenger unna 2. 00.

Poenget med alt dette er at befolkningen ser ingenting som en normal fordeling, og prøven er svært liten. Selv under disse begrensningene, begynner samplingsfordelingen av middelet basert på 60 prøver å se veldig ut som en normal fordeling.

Hva med parametrene spår de sentrale grense teoremene for prøvetakingsfordelingen? Start med befolkningen. Befolkningens gjennomsnitt er 2,00 og populasjonsstandardavviket er. 67. (Denne typen populasjon krever litt lite matematikk for å finne ut parametrene.)

På prøveutdelingen. Gjennomsnittet av de 60 middelene er 1. 98, og deres standardavvik (et estimat av standardfeilen til gjennomsnittet) er. 48. Disse tallene nærmer seg de sentrale grense teoremspådede parametrene for samplingsfordelingen av gjennomsnittet, 2. 00 (lik populasjonsmiddelet) og. 47 (standardavviket,.67, delt med kvadratroten på 3, prøvestørrelsen).

Hvis du er interessert i å gjøre denne simuleringen, her er trinnene:

Velg en celle for ditt første tilfeldig valgt nummer.

Velg celle B2.
Bruk regnearkfunksjonen RANDBETWEEN for å velge 1, 2 eller 3.

Dette simulerer tegning av et nummer fra en befolkning som består av tallene 1, 2 og 3 hvor du har like sjanse å velge hvert nummer. Du kan enten velge FORMULAS | Math & Trig | RANDBETWEEN og bruk dialogboksen Funksjonsargumenter, eller skriv bare = RANDBETWEEN (1, 3) i B2 og trykk Enter. Det første argumentet er det minste antallet RANDBETWEEN returnerer, og det andre argumentet er det største nummeret.
Velg cellen til høyre for den opprinnelige cellen og velg et annet tilfeldig tall mellom 1 og 3. Gjør dette igjen for et tredje tilfeldig tall i cellen til høyre for den andre.

Den enkleste måten å gjøre dette på er å autofyll de to cellene til høyre for den opprinnelige cellen. I dette regnearket er de to cellene C2 og D2.
Vurder disse tre cellene for å være et utvalg, og beregne deres gjennomsnitt i cellen til høyre for den tredje cellen.

Den enkleste måten å gjøre dette på er bare å skrive = AVERAGE (B2: D2) i celle E2 og trykk Enter.
Gjenta denne prosessen for så mange prøver som du vil inkludere i simuleringen. Har hver rad samsvarer med en prøve.

60 prøver ble brukt her. Den raske og enkle måten å gjøre dette på er å velge den første raden av tre tilfeldig valgte tall og deres gjennomsnitt og deretter autofyll de gjenværende radene. Settet av prøveanordninger i kolonne E er den simulerte samplingsfordelingen av gjennomsnittet.Bruk GJENNOMSNITT og STDEV. P for å finne sin gjennomsnittlige og standardavvik.

For å se hvordan denne simulerte samplingsdistribusjonen ser ut, bruk arrayfunksjonen FREQUENCY på prøveinnretningen i kolonne E. Følg disse trinnene:

Angi de mulige verdiene for utvalgsmiddelet i en matrise.

Du kan bruke kolonne G for dette. Du kan uttrykke de mulige verdiene for prøvenes gjennomsnitt i brøkform (3/3, 4/3, 5/3, 6/3, 7/3, 8/3 og 9/3) som de som gikk inn i cellene G2 gjennom G8. Excel konverterer dem til desimalform. Pass på at disse cellene er i Nummerformat.
Velg en rekkefølge for frekvensene av de mulige verdiene til sample mean.

Du kan bruke kolonne H for å holde frekvensene, og velge celler H2 til H8.
I menyen Statistiske funksjoner velger du FREKVENS for å åpne dialogboksen Funksjonsargumenter for FREKVENS
I dialogboksen Funksjonsargumenter oppgir du de riktige verdiene for argumentene.

I feltet Data_array skriver du inn cellene som holder prøveinnretningen. I dette eksemplet er det E2: E61.
Identifiser arrayet som inneholder de mulige verdiene til sample mean.

FREQUENCY holder denne gruppen i Bins_array-boksen. For dette regnearket går G2: G8 inn i Bins_array-boksen. Etter at du har identifisert begge arrays, viser dialogboksen Funksjonsargumenter frekvensene i et par krøllete parenteser.
Trykk Ctrl + Shift + Enter for å lukke dialogboksen Funksjonsargumenter og vis frekvensene.

Bruk denne tastetrykk kombinasjonen fordi FREQUENCY er en array-funksjon.
Til slutt, med H2: H8 uthevet, velg Sett inn | Anbefalte diagrammer og velg Clustered Column layout for å produsere grafen av frekvensene. Grafen din vil nok se litt annerledes ut enn meg, fordi du vil sannsynligvis komme opp med forskjellige tilfeldige tall.

Eksempelvis gjentar Excel gjentatte valgprosesser når du gjør noe som gjør at Excel kan beregne regnearket. Effekten er at tallene kan endres mens du arbeider gjennom dette. (Det betyr at du gjenoppretter simuleringen.) Hvis du for eksempel går tilbake og autofyller en av radene igjen, endres tallene og grafen endres.