Thuis
Contacten

    Hoofdpagina


Docent: drs. Rob Flohr

Dovnload 2 Mb.

Docent: drs. Rob Flohr



Pagina1/25
Datum05.12.2018
Grootte2 Mb.

Dovnload 2 Mb.
  1   2   3   4   5   6   7   8   9   ...   25

Cursus Inleiding Bayesiaanse statistiek

Docent: drs. Rob Flohr

Les 1

(0)
Vooraf: waar gaat het vak statistiek eigenlijk over, wat houdt het in, wat voor soort kennis over de werkelijkheid levert het op? (Dat laatste wordt ook wel aangeduid als de epistemologische basis van de statistiek: 'epistemologie' betekent letterlijk kennisleer en gaat o.a. over het soort kennis dat aan de orde is).



Op deze vraag kunnen verschillende antwoorden gegeven worden, bijvoorbeeld 'het toepassen van de geschikte statistische procedures op de data om bepaalde conclusies te kunnen trekken of bepaalde beslissingen (bijv. wel of niet verwerpen van een nulhypothese) te kunnen nemen'.

Mede op basis van Joseph Lee Rodgers (2010). The Epistemology of Mathematical and Statistical Modeling. A Quiet Methodological revolution. American Psychologist, Vol. 65, No. 1, 1-12, kies ik een andere invalshoek, namelijk die van het modelbegrip.

Je kunt de aard en inhoud van het vak statistiek dan als volgt omschrijven:

We hebben data verkregen over een bepaald verschijnsel of 'systeem' in de werkelijkheid. De data zijn een uitdrukking van dat systeem en dat proces van uitdrukken interpreteren we vanuit een stochastisch referentiekader, d.w.z. dat de data worden gegenereerd door een specifieke kansverdeling die het systeem in kwestie adequaat beschrijft. Vanwege dat stochastisch element - de betreffende kansverdeling - ligt het niet vast welke data er op een bepaald moment vanuit het systeem verkregen worden, dat wordt bepaald door toeval, wat we zullen waarnemen is daardoor tot op zekere hoogte onvoorspelbaar (data zijn niet deterministisch maar stochastisch bepaald).

Het betreffende systeem wordt gekarakteriseerd door grootheden die we parameters noemen en die specifieke waarden hebben zoals een bepaald gemiddelde, een bepaalde proportie of spreiding etc.

We benaderen het 'systeem' met behulp van een model waarbij we onze data aan de hand van een of meer specifieke kansverdelingen relateren aan de parameters van het systeem. De specifieke kansverdeling wordt namelijk, zoals hierboven reeds genoemd, verondersteld de data (vanuit het 'systeem') te genereren en daarom is het van essentieel belang dat de betreffende kansverdeling goed past bij de aard van het 'systeem'.


Er zijn vele soorten kansverdelingen ontwikkeld en elke kansverdeling past bij een bepaald type 'systeem' (bijvoorbeeld de houdbaarheidstermijn van een griepvaccin, het aantal verkeersongelukken op een bepaalde snelweg, het gewicht van een populatie slechtvalken etc.).
Elke kansverdeling heeft een of meerdere parameters die dan op basis van de data geschat kunnen worden.
Het model is in principe wiskundig van aard maar door het toevoegen van een stochastisch element wordt het een statistisch model (zie hieronder).


* op basis van de data construeren we een model
* doel van een model: het beschrijven van het data-genererende proces
* een model heeft een of meerdere parameters
* deze parameters worden geschat op basis van de data
* daartoe gebruiken we de likelihood functie: een kansdichtheidsfunctie van de data gegeven verschillende parameter-waarden
(de likelihoodfunctie bevat de informatie die de data ons verschaft over de onbekende parameters; zie bijv. Lesaffre & Lawson, pp. 10-12)

Op basis van het model schatten we de waarden van de parameters (de karakteristieken van het systeem).

Omdat we die parameterwaarden alleen maar kunnen schatten ( de echte parameterwaarden kennen we niet en zullen we ook nooit kennen) hebben we te maken met onzekerheid. Dit element van onzekerheid (stochastisch element) maakt het model een statistisch model (denk aan de 'error'-term in een regressievergelijking).

Het vak statistiek houdt zich in de kern bezig met het kwantificeren van die onzekerheid, dus de onzekerheid die inherent is aan uitspraken over de parameterwaarden van het systeem.

Dat kwantificeren van onzekerheid omtrent de parameterschatting - gevolg van het feit dat we slechts over een beperkte hoeveelheid informatie (data) beschikken - kunnen we tot uitdrukking brengen door middel van een betrouwbaarheidsinterval.
Om zo'n betrouwbaarheidsinterval te kunnen bepalen hebben we een kansverdeling nodig die we moeten relateren aan de verkregen data. We kunnen deze kansverdeling verkrijgen:

a) langs Bayesiaanse weg: door een prior kansverdeling te kiezen en deze te actualiseren op basis van de verkregen data, kunnen we een posterior kansverdeling afleiden volgens de 'probability calculus' (de axioma's en afleidingsregels van de kansrekening). Op basis van deze posterior kansverdeling kunnen we vervolgens een betrouwbaarheidsinterval ('credible interval' in Bayesiaanse termen) afleiden

b) langs frequentistische weg: de steekproevenverdeling ('sampling distribution') is de kansverdeling op grond waarvan we een betrouwbaarheidsinterval kunnen bepalen. Om zo'n steekproevenverdeling te verkrijgen, moeten we eerst een nulhypothese toetsen. De steekproevenverdeling is namelijk gebaseerd op de volgende redenering:
we kiezen een bepaalde nulhypothesewaarde - hetgeen inhoudt dat de parameter als een deterministische grootheid wordt opgevat en niet als een stochast - en we gaan vervolgens na in hoeverre de verkregen data verenigbaar zijn met die nulhypothesewaarde (in de zin dat, uitgaande van de juistheid van de nulhypothesewaarde en van het - hypothetisch - vele malen herhalen van de procedure van dataverzameling en het vergelijken van de data met de nulhypothesewaarde, we nagaan in hoeveel procent van de gevallen we een uitkomst vinden die minstens zo extreem is als de in werkelijkheid verkregen data). Je zou dus kunnen zeggen dat de nulhypothesetoetsing slechts een hulpmiddel of instrument is om een betrouwbaarheidsinterval te kunnen bepalen.

Een voorbeeld ter illustratie.


er is een munt uit de Romeinse tijd opgegraven en we willen weten hoe zuiver die munt is (bijvoorbeeld omdat we weten dat in die tijd belangrijke beslissingen werden genomen door zo'n munt op te gooien). We gooien de munt 20 keer en we vinden 5 keer kop.
Het systeem: de fysieke eigenschappen van de munt
Parameter: de proportie kop
Data: 5 keer kop uit 20 worpen
Kansverdeling: binomiale kansverdeling

Hieronder zullen we dit vraagstuk zowel frequentistisch als Bayesiaans analyseren.




(Filosofische) uitgangspunten van frequentistische en Bayesiaanse statistiek
a) frequentistisch:
alleen de data (observaties) zijn stochastisch van aard; de verdeling van de uitkomsten van een experiment of van de resultaten van 'random draws' is gebaseerd op toeval ('chance').
Dit betekent dat alle andere zaken zoals de kans op een bepaalde uitkomst in een experiment maar ook het proces dat de data genereert, deterministisch en niet stochastisch van aard zijn.

Verder is de freq. redeneerwijze gebaseerd op het concept van de limiet van een relatieve frequentie (invulling van het begrip kans) hetgeen betekent dat een grote hoeveelheid observaties wordt verondersteld.

b) Bayesiaans:
alles wat we niet kennen wordt als stochastisch van aard beschouwd, dus niet alleen de data maar ook de kans op een bepaalde uitkomst maar ook het proces dat de data genereert.

het begrip kans wordt opgevat als een 'personal degree of belief' , gebaseerd op zowel reeds beschikbare kennis als recente observaties. Daarbij wordt een onderscheid gemaakt tussen subjectieve Bayesiaanse statistiek (alle informatie mag voor een prior gebruikt worden) en objectieve Bayesiaanse statistiek (alleen informatie die formeel-wiskundig afgeleid kan worden uit het probleem mag voor priors gebruikt worden).



Uit het bovenstaande blijkt dat een model tenminste bestaat uit de data, een of meer parameters en een of meer kansverdelingen. Voor Bayesiaanse modellen komen daar nog een of meer 'prior'-kansverdelingen bij (voor elke parameter een aparte 'prior').


Een belangrijk verschil tussen beide benaderingen is dat een parameter binnen de frequentistische benadering als een vaste maar onbekende grootheid, maar binnen de Bayesiaanse benadering als een kansvariabele (stochast) wordt opgevat.

Tenslotte: merk op dat:


a) een statistisch model (bijv. een lineair regressiemodel) een model is dat op verschillende manieren geanalyseerd kan worden, zoals frequentistisch of Bayesiaans. Een statistisch model op zich is dus noch frequentistisch, noch Bayesiaans.

b) een gekozen model statistisch geëvalueerd moet worden, met name ten aanzien van


*'model fit' : hoe goed past het model bij de data?, denk in dit verband aan residuenanalyse en R^2-waarde bij lineaire regressie en aan de 'predictive posterior distribution' bij Bayesiaanse analyses.
**'parsimony'/complexiteit. Over het algemeen geldt: streef naar een zo eenvoudig model wanneer de verklarings-/voorspellingskracht hetzelfde is of nauwelijks meer toeneemt. R.Fisher, een van de grondleggers van de frequentistische statistiek sprak over data in termen van 'statistical currency'. Met je data kun je parameters schatten maar voor elke extra parameter die je schat lever je wel in: het aantal vrijheidsgraden neemt af en zo hou je minder data over voor andere zaken zoals het checken van de 'model fit'.
Hoe meer parameters je in je model stopt (denk bijv. aan het aantal onafhankelijke variabelen/'predictors' i.g.v. een regressiemodel), hoe beter in het algemeen je model past bij de data. Maar ook, hoe meer bronnen van onzekerheid ('error') gaan meespelen (elke parameter moet immers geschat worden) en dus hoe minder precies bijvoorbeeld je voorspellingen zullen zijn.
Het gaat dus om een uitruil ('trade off') van 'model fit' en 'parsimony'.

c) we nooit direct toegang hebben tot de werkelijkheid/een 'systeem'. Dat brengt met zich mee dat we te maken hebben met verschillende soorten fouten, 'errors'.


Zo is er de 'sampling error': omdat de data langs stochastische weg gegenereerd worden, kunnen de data per steekproef wat verschillen. Dat betekent dat we voor een specifieke dataset niet weten hoe adequaat onze data het systeem (en onze steekproefgrootheden- bijv. het steekproefgemiddelde- de corresponderende parameter) adequaat weerspiegelen.
In de frequentistische statistiek komt deze 'sampling error' tot uitdrukking in de stadaardfout ('standard error'), zijnde de standaarddeviatie van de steekproevenverdeling ('sampling distribution'). De steekproevenverdeling is een kansverdeling die de mogelijke uitkomsten van een steekproefgrootheid (meestal het asteekproefgemidelde) beschrijft met de bijbehorende kansen. De steekproevenverdeling is theoretisch gefundeerd in de Centrale Limiet Stelling maar kan ook empirisch - bijv. via 'bootstrapping' - afgeleid worden.
Een beperking is dat slechts voor een beperkt aantal steekproefgrootheden zo'n steekproevenverdeling langs theoretische weg afgeleid kan worden (wat algemener geformuleerd: het is vaak een probleem om een geschikte kansverdeling te vinden waarmee overschrijdingskansen kunnen worden berekend).
In de Bayesiaanse statistiek komt de 'sampling error' tot uitdrukking in de standaarddeviatie van de 'posterior' kansverdeling. In principe zijn hier geen beperkingen aanwezig t.a.v. het aantal mogelijke steekproefgrootheden.

Verder kun je de verkregen data beschouwen als de 'rijkdom' waarover de onderzoeker beschikt (vgl. Fisher's 'statistical currency'). Dat betekent dat de kwaliteit van de data een grote rol speelt. In dit verband hebben we te maken met de mogelijkheid van 'measurement errors'. Zo dien je aandacht te besteden aan de betrouwbaarheid van je metingen en ingeval van scores die verkregen zijn via vragenlijsten dien je na te gaan in hoeveer de geobserveerde scores overeenkomen met de werkelijke scores(de score die een respondent invult en de score die echt geldt). Dit hangt onder meer samen met de deugdelijkhied van de theoretische begrippen ('constructen') die in de vragenlijst worden gebruikt: zijn de begrippen goed gedefinieerd?, zijn ze theoretische goed onderbouwd?, zijn ze adequaat geoperationaliseerd?

Daarnaast zijn er nog andere vormen van zogeheten 'non-sampling errors' zoals 'missing data errors', 'coverage errors' (populatie en/of steekproef zijn niet goed in kaart gebracht), errors vanwege het niet goed behandelen van de data enz.

Over verschillende soorten van onzekerheid:


(ontleend aan Directoraat-Generaal Rijkswaterstaat (2002): Bayesiaanse statistiek voor de analyse van extreme waarden, pp. 17-18). Lelystad jan. 2002)

(I)


Statistical inference gaat over: kwantificeren van onzekerheid
ter toelichting:

zie Kéry (2010), p. 14 : over onderscheid kansrekening en statistiek (in de context van : statistiek -> kwantificeren va onzekerheid)

kansrekening: je specificeert een kansverdeling (bijv. binomiale verdeling i.v.m. gooien van een munt) en je specificeert een parameterwaarde. Op basis daarvan bereken je de kansen op alle mogelijke uitkomsten van de kansvariabele (o.a. kans op 3x kop en 7x munt bij proportie kop=0.5).

statistiek: je begint met de data (bijv. je hebt 3x kop en 7x munt gegooid) en op basis van een model (hier binomiaal) en van de data (en eventueel van een prior belief) schat je de parameterwaarde (hier: de proportie kop van de betreffende munt). Let wel: die proportie zul je nooit te weten komen, die kun je alleen schatten (= onzekerheid). De onzekerheid kun je kwantificeren in de vorm van een ..% betrouwbaarheids- resp. credible interval.

(II)

Bayesiaans vs frequentistisch:



Frequentistisch:
Je kiest een nulhypothese en je gaat m.b.v. een overschrijdingskans ( p-waarde) na in welke mate de gevonden data verenigbaar zijn met die nulhypothese. Het komt erop neer dat je de volgende kans bepaalt:

Bayesiaans:


Op basis van de posterior bepaal je de volgende kans:

voorbeeld van kikker en vijver (McCarthy 2013: p. 4) gebruiken om specifieke aard van freq. resp. Bayesiaanse manier van redeneren te illustreren)


N.a.v. Kéry (2010) pp. 15-19

statistics: how to learn about parameter values in a stochastic system

freq. en bayes. : gemeenschappelijk: in beide benaderingen worden de data opgevat als "the observed realizations of stochastic systems that contain one or several random processes".

verschillen:
1) mbt parameters (= "quantities used to describe these random processes": "key descriptors" van een stochastisch systeem): freq.: parameters are fixed and unknown quantities; Bayes.: parameters are unobserved realizations of random processes
(dus bij Bayes. heb je observed (data) and unobserved (parameters) realizations of random processes.
Omdat in de Bayesiaanse statistiek de parameters worden behandeld als kansvariabelen, kunnen we op basis van de data en het statistisch model de parameterwaarden schatten.

2) mbt onzekerheid: Hoe wordt die tot uitdrukking gebracht? ->


(a)
freq.: "uncertainty is evaluated and described in terms of the frequency of hypothetical replicates (hoewel je slechts over één dataset beschkit)

(b)
Bayes. "uncertainty is evaluated using the posterior distribution of a parameter (= voorwaardelijke kansverdeling van de parameter gegeven:


- de data
- het model
- de prior)

3) mbt begrip kans: freq. : kans = relatieve frequentie van een bepaalde karakteristiek van de data


Bayes. : kans = uitdrukking van iemands onzekerheid omtrent een parameterwaarde

NB
a) freq. : alleen de data zijn random grootheden


b) Bayes. : directe kansuitspraken over parameterwaarden zijn mogelijk ( de parameters zijn kansvariabelen)
c) Bayes. : fundamenteel onderscheid tussen observable quantities (data) and unobservable quantities (parameters)

4) wat betreft de discussie rond de voor-en nadelen van priors: zie Kéry (2010) pag. 18

5) voor bondige karakteristiek van de Bayesiaanse analyse, zie Kéry (2010) pag. 20

6) MCMC-simulaties: technieken om trekkingen uit de posterior verdeling te simuleren, gegeven een model, een likelihood en de data.


Uiteindelijk verkrijgen we op deze manier een steekproef uit de posterior verdeling
Zie Kéry (2010) p. 20 en 21
------------------------------------------------------------------------------------------------------------------------

a) statistiek: komt in essentie neer op het kwantificeren van onzekerheid (zie boven)

b) de manier waarop binnen de frequentistische statistiek dit aspect van onzekerheid vorm wordt gegeven (dmv p-waarde en frequentie van 'hypothetical replicates' ) heeft als nadeel dat het een binaire of dichotome wijze van redeneren tot gevolg heeft (wel of niet nulhypothese verwerpen)

c) een dichotome wijze van denken staat op gespannen voet met denken in termen van onzekerheid; het verdient de voorkeur om onzekerheid uit te drukken dmv een interval (betrouwbaarheids- of credible interval)


-------------------------------------------------------------------------------------------------------------------------
-------------------------------------------------------------------------------------------------------------------------

Beliefs (-> uncertainty) enerzijds en data (-> variation) anderzijds

Belief: gedachte, aanname, opvatting, inschatting over iets in de werkelijkheid

voorbeelden van beliefs:


- de parameter-waarde van de stochastische variabele “aantal keren kop (of munt)”: wat is de proportie kop?
- de mate van vooruitgang bij een TBS-patient
enz.

Twee manieren om Beliefs en data op elkaar te betrekken:


frequentistisch (NHST) en
Bayesiaans
nadelen Bayes: 1) veel rekenwerk -> software 2) bepalen prior

voor uitleg regel van Bayes zie boek en artikel Rob Flohr:

uitleg theorema van Bayes:


prior en posterior

prior en posterior toelichten aan de hand van driedeurenprobleem



Gebruik van R-software (packages, website: www.r-project.org, CRAN, pdf-manuals etc.)


Voorbeeld:
belief: in welke mate is deze munt zuiver? (=voorbeeld van parameter estimation value: de ‘echte/ware’ proportie ‘kop (of munt)’ van deze munt.

drie doeleinden van statistical inference:


1) estimating parameter values
2) predicting missing data
3) model selection (model comparison)

-----------------------------------------------------------------------------------------------------------------------

R version 2.15.2 (2012-10-26) -- "Trick or Treat"

Copyright (C) 2012 The R Foundation for Statistical Computing

ISBN 3-900051-07-0

Platform: x86_64-w64-mingw32/x64 (64-bit)


R is free software and comes with ABSOLUTELY NO WARRANTY.

You are welcome to redistribute it under certain conditions.

Type 'license()' or 'licence()' for distribution details.
R is a collaborative project with many contributors.

Type 'contributors()' for more information and

'citation()' on how to cite R or R packages in publications.
Type 'demo()' for some demos, 'help()' for on-line help, or

'help.start()' for an HTML browser interface to help.

Type 'q()' to quit R.
[Previously saved workspace restored]
> #Voorbeeld les 1 NHL 22 april 2014

> #Belief: betreft de (mate van) zuiverheid van een (oude) munt

> #data: 20 keer gooien met de munt levert 5 keer kop op

> #Volgens NHST:



> pbinom(5,20,0.5)

[1] 0.02069473

> #P-waarde = 2 x 0.02069 is ongeveer 0.042 < 0.05 -> reject H0: munt is niet zuiver

Beter (i.v.m. beschikbaarheid betrouwbaarheidsinterval) is via:


> binom.test(5,20,0.5)
Exact binomial test
data: 5 and 20

number of successes = 5, number of trials = 20, p-value = 0.04139

alternative hypothesis: true probability of success is not equal to 0.5

95 percent confidence interval:

0.08657147 0.49104587

sample estimates:

probability of success

0.25


> #Bayesiaans met discrete prior:

> #Prior: P(pi=0.5)=0.40, P(pi=0.4)=0.30, P(pi=0.6)=0.30

> local({pkg <- select.list(sort(.packages(all.available = TRUE)),graphics=TRUE)

+ if(nchar(pkg)) library(pkg, character.only=TRUE)})


Attaching package: ‘Bolstad’
The following object(s) are masked _by_ ‘.GlobalEnv’:
binodp
Warning message:

package ‘Bolstad’ was built under R version 2.15.3


  1   2   3   4   5   6   7   8   9   ...   25

  • Let wel
  • Gebruik van R-software (packages, website: www.r-project.org , CRAN, pdf-manuals etc.)
  • > pbinom(5,20,0.5)

  • Dovnload 2 Mb.