Thuis
Contacten

    Hoofdpagina


Docent: drs. Rob Flohr

Dovnload 2 Mb.

Docent: drs. Rob Flohr



Pagina6/25
Datum05.12.2018
Grootte2 Mb.

Dovnload 2 Mb.
1   2   3   4   5   6   7   8   9   ...   25

de data: 100 aselecte trekkingen uit een normale verdeling met gemiddelde 68 en stand.dev. 4
> y=rnorm(100,68,4)

> y


[1] 64.83879 66.16645 60.67694 64.88290 72.58345 59.19454 62.73927 63.83108

[9] 61.33335 63.35571 70.74019 68.77297 68.61152 66.91378 73.66921 68.66040

[17] 71.56169 69.19402 70.87376 73.09778 66.88258 66.61080 65.62672 69.60929

[25] 68.20526 74.34811 67.35122 68.18935 76.85515 68.35669 63.73373 75.43895

[33] 72.82613 67.61114 67.88451 68.42181 61.54563 70.39926 66.35779 69.38889

[41] 65.38145 67.98095 71.31575 68.30405 62.81105 67.53468 68.76086 62.73422

[49] 71.63623 68.85927 73.60438 74.17832 72.01592 64.96381 66.81320 65.30533

[57] 72.02053 64.08032 65.81294 69.30740 68.50279 68.90392 61.03795 66.50657

[65] 73.63377 70.27410 70.84260 71.34178 64.82215 72.54553 67.47941 68.44337

[73] 71.07507 67.94108 79.27197 60.68308 71.16439 72.21225 59.49159 70.16476

[81] 68.61187 71.44802 65.49409 57.05447 67.20890 59.82582 75.07858 68.68953

[89] 69.55169 69.23632 75.33252 75.94313 79.16039 69.50792 64.27751 70.25110

[97] 60.45568 65.37893 63.51463 67.50071

> normnp(y,72,6,4,n.mu=200,plot=T)



y=data
72=prior mean (gemiddelde van de normaal verdeelde prior)
6=prior standaarddeviatie
4=bekende standaarddeviatie
n.mu= aantal mogelijke waarden van het prior gemiddelde

Known standard deviation :4

Posterior mean : 68.2230007

Posterior std. deviation : 0.3991141


Prob. Quantile

------ ---------

0.005 67.194951

0.01 67.2945225

0.025 67.4407515

0.05 67.5665165

0.5 68.2230007

0.95 68.8794849

0.975 69.0052499

0.99 69.1514788



0.995 69.2510504

>

---------------------------------------------------------------------

>

Om integratie van de noemer te omzeilen wordt gebruik gemaakt van het Bayesiaanse evenredigheidsprincipe: het product van prior en likelihood is evenredig aan de posteriorkansen


(zie o.a. mijn artikel over het driedeurenprobleem). Dit wordt aangegeven door:

Anders gezegd, het product van prior en likelihood levert geen posterior kansen op maar verschaft wel informatie over de relatieve posterior kansen, ofwel: informatie over de vorm van de posterior kansverdeling. Zo kan bijvoorbeeld nagegaan worden waar maxima en minima zich bevinden.

(Om de kansen zelf te kunnen berekenen moeten we het product van prior en likelihood nog delen door een constante in de noemer. Door die constante (normalizing constant) wordt de som van alle posterior kansen gelijk aan 1).
Zie verder onder punt 3).

ad 3) Monte Carlo simulaties en Markov Chain Monte Carlo simulaties




Monte Carlo simulaties: kansproblemen oplossen door het schatten van een kansverdeling op basis van vele random (aselecte) trekkingen.
(O.a. Bootstrap en permutatietoets; voor permutatietoets, zie ook De Bayesiaanse benadering, par. 2.4, p. 17-21, zie ook de lijst van correcties bij mijn boek)

Voorbeeld van een Monte Carlo simulatie: loting dienstplichtigen VS Vietnamoorlog 1970 (permutatietoets); elke dag van het jaar, incl. 29 februari, wordt in een capsule gestopt (dus 366 capsules), en daarna in een grote ton die grondig wordt geschud. De capsule die het eerst uit de ton wordt gehaald krijgt nr. 1 en de datum die in die capsule zat krijgt ook nr. 1 (bijv. 6 mei). En zo gaat het verder, dag nr. 2 is bijv. 22 november etc.


Vervolgens worden alle dienstplichtigen die op dag nr. 1 geboren zijn opgeroepen om naar Vietnam te gaan, dan de dienstplichtigen die op 22 november geboren zijn enz.
Omdat elke dag van het jaar een nummer heeft, heeft elke maand een som en een gemiddelde. na de loting kwamen de volgende cijfers naar voren:

Gemiddelde lotingsnummers per maand:


jan. 201.2
feb. 203.0
maart 225.8
april 203.7
mei 208.0
juni 195.7
juli 181.5
aug. 173.5
sept. 157.3
okt. 182.5
nov. 148.7
dec. 121.5


Direct na de loting ontstond twijfel omtrent de eerlijkheid van deze procedure.

We kunnen de volgende berekeningen maken:



Algemeen gemiddelde (en ook verwachtingswaarde van het maandgemiddelde):



Kijken we naar de rangorde van hoog naar laag op basis van de maandgemiddelden dan zien we (beginnend met jan. op de 5e plaats, februari op de vierde plaats, maart op de eerste plaats etc.):

5 4 1 3 2 6 8 9 10 7 11 12

De verwachtingswaarde van het verschil tussen het gemiddelde van de eerste en van de tweede zes rangnummers is nul omdat het algemeen gemiddelde

voor beide helften zou moeten gelden.

Hier volgt een eenvoudig model om m.b.v. Monte Carlo simulaties vast te stellen hoe (on)waarschijnlijk de lotingsuitkomst is:

> vietnam=c(5,4,1,3,2,6,8,9,10,7,11,12)

> loting=function(v)mean(v[1:6])-mean(v[7:12])

> loting(vietnam)

[1] -6


(=)

> mc1970=c(replicate(100000,loting(sample(vietnam,replace=F))))

> frequencies=table(mc1970)

> frequencies

mc1970

-6 -5.66666666666667 -5.33333333333333 -5



101 120 213 318

-4.66666666666667 -4.33333333333333 -4 -3.66666666666667

557 737 1191 1338

-3.33333333333333 -3 -2.66666666666667 -2.33333333333333

1876 2408 2953 3388

-2 -1.66666666666667 -1.33333333333333 -1

4282 4408 5121 5619

-0.666666666666666 -0.333333333333334 0 0.333333333333334

5979 6175 6370 5938

0.666666666666666 1 1.33333333333333 1.66666666666667

5942 5562 5195 4551

2 2.33333333333333 2.66666666666667 3

4339 3435 2880 2393

3.33333333333333 3.66666666666667 4 4.33333333333333

1965 1420 1176 807

4.66666666666667 5 5.33333333333333 5.66666666666667

529 333 204 94

6

83


rel. freq. : 101 / 100000 = ± 0.001


Monte Carlo simulaties worden in de statistiek gebruikt om niet gebonden te zijn aan de theoretische aannames die voor de standaard significantietoetsen gelden.


Resampling Methods


Doel permutatietoets: schatten van de waarschijnlijkheid van een specifieke permutatie
Doel Bootstrap (-> herkomst naam): schatten van de variatie (sampling error) ofwel de standaardfout (= standaarddeviatie van de steekproevenverdeling/sampling distribution)

Tweede voorbeeld van Resampling methods:


(uit artikel Rob Flohr 2014, binnenkort te verschijnen in Stenden publicatiebundel)
Bootstrap
Het volgende voorbeeld1 moge dit verduidelijken:
Het betreft een experiment naar het omstanderseffect. Er zijn twee experimentele condities. In de ene zitten proefpersonen alleen, in de andere met een tweede (nep)proefpersoon. Nadat de proefleider de kamer heeft verlaten hoort de proefpersoon een enorme klap en veel herrie en geschreeuw op de gang. De afhankelijke variabele is nu of de proefpersoon komt kijken, en hoe lang het duurt voordat de proefpersoon komt kijken. De hypothese is dat proefpersonen die alleen zitten vaker en sneller reageren.
We kijken naar de reactietijden van de proefpersonen die alleen zaten en de proefpersonen die gezelschap hadden, zie tabel 1

Tabel 1. Experiment omtrent het omstanderseffect. Tijd tot reactie (in seconden)




Alleen (= 1)

Gezelschap (= 2)

8,05

8,59

9,19

8,69

5,46

8,73

8,38

8,80

6,31

8,81

8,53

8,82

6,75

8,84

7,48

9,06

6,72

9,24

8,00

9,28

5,99




7,89




8,16




5,33




8,93




9,21




8,19




8,34




5,06



We zien dat het steekproefgemiddelde van groep 2 (8,886) inderdaad groter is dan dat van groep 1 (7,742) maar de statistisch relevante vraag luidt: is dat verschil (8,886 - 7,742 = 1,144) ook statistisch significant? Dat wil zeggen, stel dat er in werkelijkheid geen verschil in reactietijd tussen beide groepen bestaat (nulhypothese: populatiegemiddelde van groep 2 minus populatiegemiddelde van groep 1 is gelijk aan nul) en stel dat we dit experiment vele malen zouden herhalen, hoe uitzonderlijk is onze steekproefuitkomst van 1,144 dan? (preciezer: hoe groot is de kans op een uitkomst van 1,144 of meer?, dit is de zogeheten p-waarde of overschrijdingskans). Wanneer onze steekproefuitkomst uitzonderlijk genoemd mag worden (preciezer: wanneer de p-waarde kleiner of gelijk is aan het significantieniveau α, in veel gevallen 5% ), dan hebben we reden om de nulhypothese te verwerpen.2

Toepassing van de -toets voor het verschil tussen twee gemiddelden (in dit geval voor populaties met ongelijke varianties) geeft een zeer kleine p-waarde (ongeveer 0.0002) en op grond daarvan verwerpen we de nulhypothese. De standaardfout is gelijk aan 0,314 (Van Peet e.a. 2012: 134). Ik kom uit op een standaardfout van 0.313, nl. via:
4.5185 x SE = 8.886000 - 7.472105 -> SE = 0.3129 (aan gezien de nulhypothese waarde nul is: er is geen verschil tussen beide groepen)

Berekening m.b.v. R:


alleen=c(8.05,9.19,5.46,8.38,6.31,8.53,6.75,7.48,6.72,8,5.99,7.89,8.16,5.33,8.93,9.21,8.19,8.34,5.06)
1   2   3   4   5   6   7   8   9   ...   25

  • Monte Carlo simulaties

  • Dovnload 2 Mb.