Samenvatting Hoorcolleges Statistiek 3
WEEK 1 – HOORCOLLEGE 1 – HERHALING STATISTIEK
Definitie Statistiek
‘’Statistiek is de wetenschap van het verzamelen, organiseren en interpreteren van
cijfermatige feiten, wat we data noemen.’’
Toepassing voor statistiek
Steekproef uit populatie
Kijken of steekproef representatief is
Beschrijvende of inferentiële statistiek
o Beschrijvend = steekproef; data over gemiddelde van steekproef
o Inferentieel = of gemiddelde van jouw steekproef afwijkt van andere
steekproef
Meetniveaus (NOIR) en typen variabelen (categorisch/kwantitatief)
Kiezen van de juiste statistische analyses (= statistiek 3)
Experimentele en niet-experimentele onderzoeksdesign
Methoden (design) & Statistiek (gereedschapskist)
Doel = kiezen van juiste gereedschap bij onderzoeksvraag die je wilt behandelen
Belang van goed empirisch onderzoek.
‘’Kans dat je extreme scores hebt, wordt minder als je studie nog een keer uitvoert (=
regression to the mean). Regression to the mean kan ervoor zorgen dat therapeuten
en patiënten makkelijker geloven dat een nutteloze behandeling effectief is.’’
Meest belangrijke concepten in statistiek
- Descriptief vs inferentieel
- Data, populatie en steekproef
- Betrouwbaarheid en validiteit
- Variabelen, meetniveaus en range
- Centrale tendens, dispersion en positie maten
- Populatie verdeling, steekproefverdeling en steekproevenverdeling
o Elke keer willekeurige steekproef trekken > verdeling daarvan =
steekproevenverdeling
- Centrale Limiet Theorie en hypothese toetsen
Focus op empirische analyses
T-test = vergelijking van 2 groepen en 1 kwantitatieve uitkomstvariabele
ANOVA = vergelijking van 2 of meer groepen met 1 kwantitatieve
uitkomstvariabele
Regressieanalyse = relatie bepalen tussen 2 kwantitatieve variabelen
1
,Statistiek bestaat uit drie stappen om data te analyseren
1. Design (methodologie)
2. Beschrijvende statistiek
3. Inferentieel
Beschrijvende statistiek = steekproef/populatie samenvatten met verschillende
grafieken, tabellen, maatstaven
Inferentiële statistiek = schattingen maken, uitspraken doen over populatie
gebaseerd op willekeurige steekproef
Data, populatie, steekproef, betrouwbaarheid en validiteit
Data = observatie van karakteristieken
Populatie = iedereen, totale set van participanten
o Parameters > gemiddelde uur per week aan zelfstudie uren van alle
studenten
Steekproef = willekeurige selectie uit populatie van wie data wordt verzameld
o Steekproefstatistiek > gemiddelde uur per week aan zelfstudie voor
random geselecteerde steekproef
Goede data is noodzakelijk
- Betrouwbaarheid = precisie
- Validiteit = bias
- Dartbord!
Beschrijvende statistiek > variabelen, meetniveaus en range
Variabele: meetkarakteristieken die kunnen verschillen
Typen: gedrag, stimulus, subject, psychologische variabelen
Meetniveaus (NOIR)
o Categorisch/kwalitatief
Nominaal > niet geordend (oogkleur, geslacht)
Ordinaal > wel geordend (mee eens/neutraal/mee oneens)
o Kwantitatief/numeriek
Interval: gelijke afstand tussen waarden (graden Celsius)
Ratio: gelijke afstand en een absoluut nulpunt (Kelvin)
Range/bereik
o Discreet = meeteenheid is niet te delen (aantal broers/zussen)
o Continu = oneindig te delen meeteenheid (lengte)
Beschrijvende statistiek
Drie dimensies belangrijk
- Centrale tendency = typische observatie
o Gemiddelde, modus, mediaan
2
, - Verspreiding = variabiliteit in observaties
o Spreidingsmaten: standaarddevitatie, variantie, interkwartielafstand
- Positie = relatieve positie van observatie
o Geeft informatie over relatieve posities van observaties: percentiel,
kwartiel etc…
Inferentiële Statistiek
Steekproeven problemen
Doelstelling = betrouwbare en valide uitspraken te doen o.b.v. steekproef
o Steekproefstatistiek zou niet moeten verschillen van populatie
parameter
Problemen
o Steekproef error = natuurlijke random steekproefvariatie
(betrouwbaarheid)
o Sampling bias = selectieve sampling (validiteit)
o Response bias = incorrect antwoorden
o Non-respons bias = selectieve deelname
Belangrijk verschil tussen problemen over betrouwbaarheid (error) en validiteit
(bias)
Oplossing = willekeurige steekproef van voldoende grootte dat data genereert
dat voor iedereen geldt met juiste antwoorden van alle items voor alle
subjecten
Dimensies van verdelingen
- Populatieverdeling = proportie studenten dat aangeeft extra hulp nodig te
hebben bij wiskunde
- Steekproefverdeling = proportie studenten in de steekproef (n = 1000) dat
aangeeft extra hulp nodig te hebben bij wiskunde
- Steekproevenverdeling = verdeling van verschillende steekproeven. Zouden
allemaal verdeeld moeten zijn rondom gemiddelde
o Standaardfout > betrouwbaarheid schatting
Centrale Limiet Stelling voor steekproeven verdeling
Standaard normale verdeling gebruiken
Ook al is je verdeling niet normaal verdeeld > als je genoeg steekproeven trekt
dan gaat je steekproeven verdeling een standaard normale verdeling naderen
o 68% binnen +/- 1 sd van gemiddelde
o 95% binnen +/- 2 sd van gemiddelde
o Bijna 100% binnen +/- 3 sd van gemiddelde
Relatie tussen: populatie-, steekproef- en steekproevenverdeling
Typen van probability distributions
3
, - Standaard normale verdeling > z-statistiek
o Steekproevenverdeling voor proportie voor H0 wanneer populatie sd
bekend is
- Student’s T verdeling > t-statistiek
o Steekproevenverdeling voor gemiddelde voor H0 wanneer de populatie
sd onbekend is
o Steekproevenverdeling voor regressie coëfficient voor H0
t-verdeling en z-verdeling lijken erg op elkaar
In t-verdeling staarten wat dikker
Afhankelijk van aantal observaties
- Chikwadraat verdeling > X2-statistiek
o Steekproevenverdeling voor squared deviaties of categorische
variabelen voor H0
- Fisher’s verdeling > F-statistiek
o Steekproevenverdeling voor ANOVA-omnibus toets of gemiddelden
voor H0
Skewness van verdelingen
- Positieve skew > respectievelijk, modus, mediaan, gemiddelde
o Uitstulping links
- Symmetrische skew > modus, mediaan, gemiddelde allemaal in het midden
- Negatieve skew > respectievelijk gemiddelde, mediaan, modus
o Uitstulping rechts
Hypothese testen in inferentiële statistiek
Bewijs verzamelen tegen null-hypothese
5 stappen van hypothese toets
o Assumpties checken
o Hypothese opstellen
o Test-statistiek berekenen
o P-waarden bepalen
o Conclusie trekken
Type 1 fout: vals positief = null-hypothese verwerpen terwijl je dat niet zou moeten
doen
Gekozen significantie level
Alfa
Type 2 fout: vals negatief = null-hypothese niet verwerpen terwijl je dat wel zou
moeten doen
Effectgrootte
4
, Steekproefgrootte
Variantie/verspreiding in steekproef (hoe groter je steekproef, hoe meer bewijs
je hebt, hoe kleiner kans op fout)
Beta
Hoe kleiner gekozen type 1 fout, hoe groter de type 2 fout
3 hypothese testen
T-test = vergelijking van 2 groepen en 1 kwantitatieve uitkomstvariabele
o Jongens versus meisjes
o Afhankelijke steekproeven
Echtgenoot en echtgenote (tijd spenderen aan huishouden)
Herhaalde metingen: zelfde persoon op twee verschillende
tijdstippen (mate van depressie symptomen voor en na therapie)
o Onafhankelijke steekproeven
Mannen en vrouwen in random geselecteerde steekproeven
Democraten en Republikeinen
o Null-hypothese > gemiddelden van beide groepen zijn gelijk
o Assumpties van onafhankelijke steekproeven t-test
Afhankelijke variabele is kwantitatief en normaal verdeeld
Gelijke varianties in beide groepen
Onafhankelijke observaties
ANOVA = vergelijking van 2 of meer groepen met 1 kwantitatieve
uitkomstvariabele
o Laag inkomen, gemiddeld inkomen, hoog inkomen
o One-way between subjects ANOVA
Elke participant komt in een groep terecht (4 typen van
stresssituaties)
Voor elke participant is een observatie (self-reported angst)
o Groepen zijn bepaald door categorieën van de factor
In dit geval aantal verschillende stresssituaties
o Null-hypothese = alle groepen aan elkaar gelijk
o Zelfde assumpties als bij t-test!
o ANOVA
F-ratio > mean squares tussen groepen/mean squares binnen
groepen
F-test > is er verschil tussen een of meer gemiddelden?
F-test significant > twee manieren om te toetsen voor verschillen
Post hoc = na dataverzameling, exploratief (tukey’s test)
A priori = van te voren, confirmatief > regressieanalyse
o One-way ANOVA table: zie slide!
o Variantie analyse > ANOVA Sums of Squares
5
, Regressieanalyse = relatie bepalen tussen 2 kwantitatieve variabelen
o Opleidingsniveau, ervaringsjaren
o Relatie/associatie tussen variabelen > bivariate statistiek
Voorspeller of onafhankelijke
Uitkomst of afhankelijke
o Null-hypothese: H0 > correlatie
o Assumpties
Afhankelijke variabele = kwantitatief en onafhankelijke variabele
= kwantitatief of dichotoom
Lineaire relatie tussen X en Y
Onafhankelijke observatie
Gelijke varianties van fouten
Fouten zijn normaal verdeeld met gemiddelde van 0 voor alle
waarden van X
o Regressiemodel: functionele vorm van populatie
Y = B0 + BX + e
Y = geschatte waarde
X = observatie X voor persoon i
B0 = intercept
B = slope
Zie slide!
Venn-diagram > overlap = SSregressie
Hoe groter overlap, hoe beter model
WEEK 1 – HOORCOLLEGE 2 – HERHALING STATISTIEK
Mentiquiz
Leeftijd: jong, jongvolwassen, middelbaar, oud
Categorisch Ordinaal Discreet
De omvang van het BI…
Neemt af als het waarschijnlijkheidsniveau afneemt
Als je van 95% naar 90% gaat, dan ben je minder zeker en dan is ook de
breedte van het BI kleiner
Bij een p-waarde van 0.09 en significantieniveau van 5% wordt:
De nullhypothese niet verworpen
5% = 0.05 dus 0.09 is groter en niet significant
Nullhypothese aannemen doe je nooit!
Hoe groter de sum of squared errors (SSE),
Hoe meer onverklaarde variantie je hebt
Meer ruis in je model
Het aantal vrijheidsgraden bij een Chi-kwadraattoets volgt uit het aantal:
Waardes die beide variabelen kunnen aannemen
Herhaling Statistiek 1 & 2
OLS Regression analysis: visual
Venn-diagram geeft aan wat de totale variantie is van Var Y en Var X
6