Thuis
Contacten

    Hoofdpagina


Docent: drs. Rob Flohr

Dovnload 2 Mb.

Docent: drs. Rob Flohr



Pagina9/25
Datum05.12.2018
Grootte2 Mb.

Dovnload 2 Mb.
1   ...   5   6   7   8   9   10   11   12   ...   25

Huiswerk volgende week o.a. oratie prof.dr. J.-W. Romeijn; houdt zich bezig met filosofie van de statistiek

3) Werkstuk


4) opgaven

ad 2)
A) filosofisch

1) Begrippen:


rationalisme en empirisme; ontologie, epistemologie en methodologie; inductie (van bijzonder naar algemeen) en deductie

-empirist Karl Pearson: de werkelijkheid zit in de data, de data zijn de werkelijkheid -> kritiek op oorzaak-gevolg denken -> correlatiebegrip (correlatie is samenhang zonder oorzaak-gevolg relatie)

dit in tegenstelling tot de rationalist Ronald Fisher: data (de waarneembare wereld) zijn slechts een uitdrukking van een onderliggende (echte) realiteit die alleen langs theoretische (wiskundig-formele) wijze gekend kan worden

voorbeelden: kans, zwaartekracht, snaartheorie, intelligentie

vraag: hoe verhouden de data zich tot het statistisch model dat geacht wordt de data te genereren?
(vgl. uitkomsten muntexperiment en binomiale kansverdeling)

de filosofie van Karl Popper: rationalisme en empirisme: zijn kritisch rationalisme;


invloed van Popper op statistiek (hypothese, falsificatie, invloed Einstein)

2) aanleiding tot dit soort vragen kwam vooral door de enorme successen van Newton's klassieke mechanica. Toen Newton werd gevraagd hoe hij deze universeel toepasbare theorie bedacht had, antwoordde hij dat hij die niet had bedacht maar dat die het resultaat was van zijn waarnemingen van de fysieke werkelijkheid. De vraag rees hoe zo'n algemeen geldige theorie als de klassieke mechanica afgeleid kon worden uit een beperkt aantal waarnemingen (van één persoon in een zeer beperkt tijdsbestek). Wat voor logica ligt daaraan ten grondslag? (vergelijk het begrip 'rationele reconstructie' in de wetenschapsfilosofie).

Het inductieprobleem
Zo ontstond de zoektocht naar zogeheten inductieve logica's, met name in de eerste helft van de vorige eeuw. Dat project is niet gelukt, de vraag blijft onbeantwoord. De Bayesiaanse manier van redeneren wordt momenteel binnen de wetenschapsfilosofie door velen omarmd als een vruchtbare en veelbelovende manier om het inductieprobleem zo niet op te lossen, dan wel inzichtelijker te maken.

3) Verder: Hoe zit het met het kansbegrip? Hoe zit het met het begrip zwaartekracht? Het werkt blijkbaar maar we weten nog steeds niet waar het nou precies om gaat.


B) in de praktijk van alledag:

a)boeken Nate Silver :
- p. 253 beperkingen en bezwaren t.a.v. frequentism
- p. 258: het belang van priors
- p. 259: het belang van voorspellingen
- p. 260: pro-Bayesian

en


b) boek Sharon Bertsch McGrayne

- NRC-artikel uitdelen

- blz. 105 genetica en biologie: grote populaties van gelijksoortige elementen vs. per ongeluk afgaan van een kernwapen (p. 121)

- karakters van Fisher, Neyman, Savage

- hs. 11 Business decisions: Bayesiaanse statistiek en decision making (Statistical Decision Theory)

-
==================================================================


ad 4)

voorbeelden MCMCpack: binge drinking en uitgeverij

VOORBEELD
A survey of 13.819 students In U.S. four-year colleges collected information on drinking behavior and alcohol-related problems. According to some definition, 3140 students were classified as frequent binge drinkers.

Welke uitspraak over de onderliggende populatie kun je op grond van het bovenstaande formuleren?




VOORBEELD (belang van directe kansuitspraken: Statistical Decision Theory)
Uitgever:

Bij de productie van leerboeken statistiek komen relatief veel typografische fouten voor. Een uitgever wil weten hoeveel fouten per 100 bladzijden er gemiddeld in de betreffende leerboeken staat. Daartoe neemt ze een steekproef: ze kiest aselect een aantal leerboeken statistiek en telt het aantal typografische fouten per 100 blz.
Ze vindt de volgende aantallen:

15 11 10 14 13 9 4 9 6 7 9 7 13 9 11 16 12 15 13 14 16 11 10 9 8




De uitgever gaat ervan uit dat het aantal fouten per 100 blz. een Poissonverdeling volgt. Ze heeft geen informatie vooraf en kiest een prior die tamelijk non-informatief is: een gamma (0.02,0.01) verdeling die nauwelijks invloed heeft op de posterior verdeling.
Acceptabel wordt geacht dat er gemiddeld niet meer dan 10 fouten per 100 bladzijden mogen voorkomen.

Bepaal de kans dat voor deze uitgever het gemiddeld aantal fouten per 100 blz. in de populatie (dus voor alle leerboeken statistiek van deze uitgever) groter is dan 10.


ANTWOORD: de kans is 0.90

Uitwerking:
---------------------------------------------------------------------------------

> local({pkg <- select.list(sort(.packages(all.available = TRUE)),graphics=TRUE)

+ if(nchar(pkg)) library(pkg, character.only=TRUE)})

Loading required package: coda

Loading required package: lattice

Loading required package: MASS

##

## Markov Chain Monte Carlo Package (MCMCpack)



## Copyright (C) 2003-2014 Andrew D. Martin, Kevin M. Quinn, and Jong Hee Park

##

## Support provided by the U.S. National Science Foundation



## (Grants SES-0350646 and SES-0350613)

##

Warning messages:



1: package ‘MCMCpack’ was built under R version 2.15.3

2: package ‘coda’ was built under R version 2.15.3

3: package ‘lattice’ was built under R version 2.15.3

> library(MCMCpack)

> a=c(15,11,10,14,13,9,4,9,6,7,9,7,13,9,11,16,12,15,13,14,16,11,10,9,8)

> posterioruitgever=MCpoissongamma(a,0.02,0.01,5000)

> summary(posterioruitgever)
Iterations = 1:5000

Thinning interval = 1

Number of chains = 1

Sample size per chain = 5000


1. Empirical mean and standard deviation for each variable,

plus standard error of the mean:


Mean SD Naive SE Time-series SE

10.826377 0.653555 0.009243 0.009243


2. Quantiles for each variable:
2.5% 25% 50% 75% 97.5%

9.575 10.378 10.810 11.258 12.142


> plot(posterioruitgever)




1   ...   5   6   7   8   9   10   11   12   ...   25

  • > library(MCMCpack) > a=c(15,11,10,14,13,9,4,9,6,7,9,7,13,9,11,16,12,15,13,14,16,11,10,9,8) > posterioruitgever=MCpoissongamma(a,0.02,0.01,5000)
  • > plot(posterioruitgever)

  • Dovnload 2 Mb.