Thuis
Contacten

    Hoofdpagina


Docent: drs. Rob Flohr

Dovnload 2 Mb.

Docent: drs. Rob Flohr



Pagina21/25
Datum05.12.2018
Grootte2 Mb.

Dovnload 2 Mb.
1   ...   17   18   19   20   21   22   23   24   25

node mean sd MC error 2.5% median 97.5% start sample

kappa 0.1992 0.04336 6.569E-4 0.1154 0.198 0.2862 501 4500

pi[1] 0.03696 0.008094 1.313E-4 0.02261 0.03647 0.05406 501 4500

pi[2] 0.01407 0.005107 7.901E-5 0.00607 0.0135 0.02552 501 4500

pi[3] 0.1893 0.0168 2.092E-4 0.1571 0.1892 0.2227 501 4500

pi[4] 0.7596 0.01854 2.561E-4 0.7237 0.7599 0.7952 501 4500

Les 7

(I)
- bespreking artikel Romeijn/Morey/Rouder (RMR) als reactie op het artikel van Gelman/Shalizi (GS)


(a)
ter inleiding (Rob): (nogmaals) over de relatie tussen statistiek en filosofie.


eerste vraag: wat is de bron van onze kennis van de wereld waarin we leven? Ligt die in ons denken (rationalisme: bijv. Ronald Fisher, die o.a. de significantietoets en p-waarde ontwikkeld heeft) of ligt die in onze ervaring (bijv. empirisme: Karl Pearson, o.a. bekend van de Pearson productmoment-correlatiecoëfficiënt)?
tweede vraag: op welke methode verwerven we kennis? deductief (van algemeen naar specifiek) of inductief (van specifiek naar algemeen)?

(b)
Centrale vraag RMR: hoe bepaal je of een statistisch model geschikt is voor het beantwoorden van vragen die 'real-world problems' betreffen?


Antwoord RMR: wanneer de conclusies uit het model zinvol geïnterpreteerd kunnen worden in termen van de 'real-world'

(c)
Het artikel van RMR is een reactie op een artikel van GS.


GS geven een beschrijving van wat - naar hun mening - de huidige stand van zaken binnen het vak statistiek is:
enerzijds hebben we de klassieke/frequentistische statistiek die de 'hypothetico-deductive approach' genoemd wordt en gebaseerd is op falsificatie: wetenschappers formuleren hypothesen en leiden uit die hypothesen uitspraken over de werkelijkheid af (deductief). Vervolgens wordt gekeken hoe die afgeleide uitspraken zich verhouden tot de data, dus welke implicaties de data hebben voor de hypothesen. Hypothesen kunnen worden verworpen (gefalsifieerd) maar nooit op dezelfde manier geaccepteerd.

anderzijds hebben we de Bayesiaanse statistiek: de wetenschapper begint met een prior, verzamelt data en vindt een posterior verdeling. De gevolgde weg is inductief van aard.

GS (voor de duidelijkheid: prof. Andrew Gelman is een prominent Bayesiaans statisticus!) vinden dit beeld incorrect. Ze hebben twijfels over het inductieve karakter van de Bayesiaanse benadering en vinden, kort gezegd, dat er over het algemeen te veel waarde gehecht wordt aan de posterior verdeling. Bayesiaanse statistici zijn naar hun mening te veel bezig met data-analyse en te weinig met de vraag of het gebruikte model wel geschikt is. Ze benadrukken het betrekkelijke karakter van elk statistisch model, zowel klassiek als Bayesiaans, en vragen zich af hoe je als statisticus hiermee moet omgaan.
RMR zijn het met GS eens dat te veel optimisme met betrekking tot de posterior niet op zijn plaats is en vinden ook dat 'model checking, revision and comparing' een cruciale rol dient te vervullen in elke statistische analyse, maar vinden dat het Bayesiaanse kader een goede theoretische basis vormt om dat proces van 'model checking, revision and comparing' uit te voeren.

RMR schetsen ook een ander beeld van het wetenschapsbedrijf (p. 4 ):


je begint als wetenschapper met een theoretische vraag en zoekt vervolgens in de data naar invarianties (constante elementen zoals bijvoorbeeld in de relaties tussen variabelen)

Belangrijke zin op p. 4:


"As representations, scientific models, including statistical models, are neither true nor false (...) unlike the propositions about the world that they represent".

Opmerking Rob:


let op het onderscheid tussen de statistische analyse als zodanig (over het algemeen wordt de Bayesiaanse analyse als theoretisch meer consistent gezien dan de klassieke analyse met significantietoets en p-waarde), en
de 'statistical philosophy' die betrekking heeft op de vraag hoe passend/geschikt/goed de conclusies uit de statistische analyse zijn met betrekking tot de 'real-world problems'.
GS twijfelen niet aan de waarde van de Bayesiaanse statistiek op zich maar wel aan de (stilzwijgende) veronderstelling van Bayesiaanse statistici dat hun conclusies ook zonder meer waardevol zijn voor de beantwoording van de 'real-world' -vragen en vraagstukken.
Toevoeging:

-wat houdt dat in: model checking?

I) verifiëren dat het model 'reasonable' is:

- kijk kritisch naar de posterior output; maak daarbij gebruik van 'background knowledge'

- wijkt de prior inschatting sterk af van de geobserveerde data?

- kijk naar de mate van verschil in centrummaten tussen prior en posterior in het licht van de prior standaarddeviatie (komt dat overeen?)

- hoe verhouden prior variantie en posterior variantie zich tot elkaar?

2) vergelijk de geobserveerde data met de 'predicted' data zowel wat betreft verdeling (zie je uitbijters?) als wat betreft 'summary measures' als gemiddelde, mediaan, variantie e.d.

3) sensiviteitsanalyse: hoe sterk reageert het model bijv. op het weglaten of veranderen van sommige waarnemingen?
- bespreken tekst uit Van Fraassen: representatie

voorbeeld:

neem de grafiek van een exponentiële functie enerzijds en a) de groei van een kolonie bacteriën of b) het verval van een radioactief element anderzijds

vraag:representeert de grafiek a) of b)?

niets in de grafiek of in de relatie tussen grafiek en a) of b) kan die vraag beantwoorden -> de representatie-relatie moet een relatie betreffen tussen iets wat in de grafiek zit en factoren die noch in de grafiek, noch in het gerepresenteerde zitten ->

Van Fraassen: het zit in de relatie tussen 'use and user'

-Hiërarchische modellen : grafische weergave model
Hiërarchische modellen

Op basisschool A wordt in groep 5 een rekentoets afgenomen. De cijfers worden beschreven door - naar we aannemen - een normale verdeling (grote klas) met een bepaald gemiddelde en een bepaalde stand.dev. De cijfers van de leerlingen in de klas (de data) - en dus ook de variatie in de cijfers - worden dus beschreven door een kansverdeling.

Als je de resultaten in groep 5 op verschillende basisscholen met elkaar vergelijkt, zie je dat de groepsgemiddelden van elkaar verschillen, men zegt: de leerlingen van groep 5 zijn 'geclusterd' of 'genest' ('nested data') in een bepaalde klas. Dat betekent dat het groepsgemiddelde voor groep 5 zelf varieert per school en een kansvariabele is die weer wordt beschreven door een (andere) kansverdeling met specifieke parameters. En het gemiddelde voor alle scholen in een stad A. kan weer verschillen van het gemiddelde voor alle scholen in stad B. enz.

Zo zijn leerlingen 'genest' in een klas, klassen in scholen, scholen in steden enz.). Voorbeeld uit de ecologie: genen zijn 'genest' in een individu, individuen zijn 'genest' in populaties, populaties zijn 'genest' in 'communities' enz.

Enz. enz. (Hiërarchisch model).

In symbolen: (zie whiteboard)

Grafisch weergegeven: (zie whiteboard)

(Ook wel: 'random effect modeling': het modelleren van verschillende bronnen van variabiliteit in de data; vergelijk het begrip 'overdispersion': er is meer variabiliteit in de data dan het (eenvoudige) statistische model weergeeft. In zo'n situatie is een hiërarchisch model op zijn plaats waarin meerdere parameters als kansvariabelen - i.p.v. als constanten - zijn opgenomen)

Omdat in de Bayesiaanse statistiek parameters als kansvariabelen worden opgevat waardoor er per definitie variatie in de parameter is (i.t.t. de frequentistische statistiek: parameter, bijv. populatiegemiddelde, als onbekende maar vaste/constante grootheid), is het uitvoeren van statistische analyses gebaseerd op hiërarchische modellen in feite een vanzelfsprekende zaak binnen de Bayesiaanse statistiek.

( N.B. Een voordeel van de Bayesiaanse statistiek is, dat je door het opvatten van parameters als kansvariabelen, meer onzekerheid in je analyses mee kunt nemen. Binnen de frequentistische statistiek wordt de variatie meegenomen door de steekproevenverdeling, alleen is het niet altijd mogelijk om zo'n steekproevenverdeling te construeren).

----------------------------------------------------------------------------------------------------------------------------

Voorbeeld aantal ziektegevallen per regio:

Van vijf regio's is het aantal gevallen van .... (een bepaalde ziekte) vastgesteld (per tijdseenheid), namelijk: 6, 4, 3, 10 en 3. Het aantal mensen/dieren per regio is (bijv. in 100-tallen): 80, 50, 65, 130 en 40.
We gaan ervan uit dat de data beschreven worden door een Poisson-verdeling.

We zoeken zowel de posterior kansverdeling voor de parameterwaarde (kans) voor het aantal ziektegevallen per regio als de posterior predictive kansverdeling voor het aantal ziektegevallen per regio.


Hoe kan het corresponderende model er uitzien?

model

{

for (i in 1 : N) {



theta[i] ~ dgamma(alpha, beta)

lambda[i] <- theta[i] * t[i]

x[i] ~ dpois(lambda[i])

predict[i]~dpois(lambda[i])

}

alpha ~ dexp(1)



beta ~ dgamma(0.1, 1.0)

}

list(t = c(80.0, 50.0, 65.0, 130, 40.0),



x = c( 6, 4, 3, 10, 3), N = 5)

WinBUGS OUTPUT:

model is syntactically correct

data loaded

model compiled

initial values generated, model initialized


Time series

























Kernel density



















Node statistics


1   ...   17   18   19   20   21   22   23   24   25


Dovnload 2 Mb.