Statistiek 2 aantekeningen
College A1
Kernconcept statistiek 2: interactie
Deel 1
- Veel rekenen
- Interpreteren van de uitkomsten (beslissing, causale interpretatie)
- Elementair rapport, visualiseren
Deel 2
- De computer rekent meestal
- Interpreteren van de uitkomsten (welke toets moet je bekijken en wat zegt hij over
welke gemiddelden)
- Beknopt rapport, formuleren
Herhaling gemiddelde en variantie
Gemiddelde = geeft aan waar het centrum van de verdeling ligt
Standaarddeviatie = geeft aan hoe breed het midden is, dus ook hoe ver de scores uit elkaar
liggen, zou je kunnen zeggen als de gemiddelde afwijking van het gemiddelde, maar dit klopt
in cijfers niet helemaal
Variantie = het kwadraat van de standaardafwijking
‘Hoe vaak is men in een hete week van midden augustus naar het terras gegaan. Gegeven de
volgende frequentieverdeling’
- Zet je rekenmachine in de goede modus
- Wis het geheugen
- Voer de data in (score x frequentie data)
o 0 x 6 data
o 1 x 2 data
o 2 x 3 data
o 3 x 5 data
o 4 x 4 data
o 2 x 5 data
N = 22
Gemiddelde = 2.23
Standaarddeviatie = 1.74
Variantie = 1.74^2 = 3.04
Wat betekenen de standaarddeviatie en variantie nou?
- Tentamen met kleine verschillen tussen de deelnemers:
o S = 1.170, variantie = 1.37 (gemiddelde = 6)
- Tentamen met grote verschillen tussen deelnemers:
o S = 2.685, variantie = 7.21 (gemiddelde = 5.5)
Waar het centrum ligt is voor beide verdelingen ongeveer hetzelfde, maar een andere vraag
is hoe breed is die verdeling en dit wordt aangegeven met de standaarddeviatie. Onderaan is
de S groter en als je kijkt naar de histogrammen verwacht je dit ook, bovenste heeft alles
,rond de 6 en onderaan veel breder verdeeld. Variantie reflecteert ook dat de spreiding bij de
tweede figuur groter is.
Herhaling t-toets
PERSOON GESLACHT INKOMEN
1 M 51
2 M 32
3 M 44
4 M 22
5 M 23
6 V 24
7 V 12
8 V 32
9 V 01
10 V 15
Vraagstelling: verdienen mannen meer dan vrouwen?
- Beschrijving, van het design en het onderzoek, als het ware de opzet, mate van
controle, alles wat je kan doen zonder dat je data hebt, wat je voorafgaande aan het
onderzoek kan opschrijven, zie hieronder dit uitgewerkt met het voorbeeld
BESCHRIJVING
Design AV Inkomen
OV Geslacht (m/v)
Domein Between-subject
Mate van controle Passief observerend
Hypothesen H0 Gemiddelde mannen
kleiner dan of gelijk
aan gemiddelde
vrouwen
Ha Gemiddelde mannen
groter dan
gemiddelde vrouwen
Analyseprocedure t-toets voor
onafhankelijke
steekproeven
- Berekening, begin je met berekenen eerst dingen samenvatten met o.a. gemiddelde
en standaarddeviatie, dan dingen als t-waarde en p-waarde
GEAGGREGEERDE DATA MANNEN VROUWEN
Gemiddelde 34.4 16.8
Standaardafwijking 12.83 11.82
Grootte 5 5
BEREKENING
Schatters Ruw effect 34.4 – 16.8 = 17.6
Spreiding binnen groepen Wortel van ((4 x 12.82^2 = 4x
, 11.82^2)/(4=4)) = 12.33
Relatief effect (cohens d) 17.6/12.33 = 1.428
Toetsing Effectieve steekproefgrootte 1/(1/5+1/5) =2.5
(N*)
T 1.428 x wortel van 2.5 = 2.257
Df N-2 = 8
P P < 0.05
- Conclusies, in essentie de beslissingen en de causale interpretatie, bij beslissingen
zeg je of H0 verworpen wordt of niet en wat dit betekent in termen van het
onderzoek, bij causale interpretatie zeg je of er sprake was van meerdere
verklaringen en wat dit dan zijn
CONCLUSIES
Beslissing Behouden/verwerpen P < 0.05, dus verwerp H0
Verwoorden Mannen verdienen meer dan
vrouwen in de populatie
Causale interpretatie Aantal verklaringen Meerdere
Primaire verklaring Geslacht heeft invloed op
inkomen
Alternatieve verklaring Status vader heeft invloed op
geslacht en inkomen
Vooruitblik: de F-waarde
t-waarde neemt toe met de verschillen tussen groepen (ene gemiddelde – andere
gemiddelde), t-waarde neemt af met de spreiding binnen groepen (s1 en s2), t-waarde
neemt toe met N
- T= (verschil (tussen)/SD(binnen) x wortel N
- F= (var (tussen)/var(binnen)) x wortel N
College A2
1-factor Anova
Inhoud:
- Theorie
o Achtergrond
o Variantie – decompositie
o F-waarde
- Praktijk
o Elementair rapport
Ronald Fisher
(1890-1962)
- Variantie (1918)
- Anova (1921)
, - Nulhypothese
- F-verdeling
- Maximum likelihood
- Fisher-informatie
1-factor Anova
- Analysis of variance
- Gaat over gemiddelden
- Gebruikt varianties
- Splisting van varianties
o Totale variantie van een AV
o Verklaarde variantie (tussen groepen)
o Onverklaarde variantie (binnen groepen)
Variantie-decompositie
Groep Scores
1 1 8 3 5
2 6 6 8 9
3 6 7 5 9
4 13 14 15 19
Als je naar deze tabel kijkt is het gemiddelde 8.38 en de variantie 20.98 (totale variantie)
Groepsgemiddelde Groepsvariantie
4.25 6.69
7.25 1.69
6.75 2.19
15.25 5.19
Maar gebruik je het groepsgemiddelde dan is het gemiddelde 8.38, maarde variantie is dan
17.05 (verklaarde variantie, had iedereen in groep 1 een score van 4.25 iedereen in groep 2
7.25 etc. dan was de variantie namelijk 17.05 geweest). Gebruik je de groepsvariantie dan is
het gemiddelde 3.94 (onverklaarde variantie, waren alle groepsgemiddeldes gelijk geweest
maar binnen de groep nog verschillen? Dan was dit het gemiddelde geweest) en de variantie
4.31.
Nu verschillen de varianties, maar omdat het een kleine N is ga je ervan uit dat dit toeval is,
bij grotere N ga je ervan uit dat de groepsvarianties gelijk zijn.
Totale variantie (variantie van alle scores) = between variantie (variantie van de
groepsgemiddelden) + within variantie (gemiddelde van de groepsvarianties)
- 20.98 = 17.05 + 3.94
F-waarde
(Variantie van groepsgemiddelden/gemiddelde van groepsvarianties) x n
- Ongeveer 1 als H0 waar is
- Wordt groter met N als H0 onwaar is