Statistiek samenvatting: CIW colleges 2022
@Laura.Verkoeijen
Inhoudsopgave
Inhoudsopgave 1
Week 1: Introduction and doing research 2
Week 2: Research methods and statistical models 4
Week 3: Data visualization and the three t-test 7
Week 4: Assumptions and bias 8
Week 5: the SPINE of statistics 11
Week 6: One-way ANOVA 12
Week 7: Factorial ANOVA (1) 15
Week 8: Factorial ANOVA (2) 17
Week 9: Chi-squaretest 18
Week 10: Correlation coefficient 20
Week 11: Simple Linear Regression 23
Week 12: Simple Linear Regression (2) 27
Test kiezen tabel 30
Formuleblad 31
Syntax handleiding follow up test contrast test (week 7) 33
Compute variable bij factorial ANOVA 35
1
,Week 1: Introduction and doing research
Het onderzoeksproces (begrippen)
- Variabelen: alles dat gemeten kan worden en dat kan variëren
(in tijd of over dingen)
- Theorie: een verondersteld algemeen principe of verzameling
waarmee waarnemingen verklaard kunnen worden en van
waaruit nieuwe verwachting of hypothese opgesteld kunnen
worden
- Hypothese: voorspelling die we afleiden van een theorie
- Falsificatie: weerleggen van theorie of hypothese
- Bij “analyse data” gebruiken we de statistiek
Waarom hebben we statistiek nodig?
- Statistieken bieden ons een middel om precies te bepalen hoe (on)waarschijnlijk het is
dat we een reeks gegevens zouden waarnemen als de nulhypothese waar zou zijn.
- Als het zeer onwaarschijnlijk is (kans kleiner dan 5%), kunnen we concluderen
dat er is ondersteuning voor onze alternatieve hypothese.
- Met andere woorden: we onderzoeken de kans dat de nulhypothese waar is.
- In dit licht is statistiek een vorm van argumentatie
Twee variabelen
- Onafhankelijke variabele: kan gemanipuleerd worden in een experiment
- Afhankelijke variabele: het veronderstelde effecten, de uitkomst, is afhankelijk
Meetniveaus: van belang voor de interpretaties van de scores op een variabele
- Categoriële scores (categorical variables): de scores hebben verschillende categorieën
- Nominaal: classificatie die geen informatie geeft over de onderlinge relaties
tussen verschillende categorieën (Belg/Nederlander/Duitser)
- Tellen
- Ordinaal: de verschillende scores op een variabele impliceren een rangorde
(weinig/gemiddeld/veel)
- Tellen, ordenen
- Continue scores (continuous variables): de scores duiden bepaalde hoeveelheden aan
- Interval: aan de afstand tussen de verschillende scores op ordinaal niveau kan een
betekenis toegekend worden
- Tellen, ordenen, optellen, aftrekken
- Ratio: een interval waarbij een nulpunt gedefinieerd is
- Tellen, ordenen, optellen, aftrekken, vermenigvuldigen, delen etc.
2
,Soorten statistiek
- Descriptieve statistiek: Met descriptieve of beschrijvende statistiek orden
je de data en vat je de kenmerken van je dataset samen. Een dataset is een
verzameling reacties of observaties van een steekproef of een hele
populatie.
- Centrummaten (centrale tendens)
- Frequenties (N): de aantallen van iets
- Mean (M): gemiddelde → continue scores
- Is gevoelig voor outliers (denk bijv. Als iedereen
iets tussen een 2-5 heeft en één iemand een 10, dan
schiet de mean omhoog, daarom outliers gevaarlijk!!)
- Mediaan: de waarde die zich precies in het midden van de dataset bevindt
als de waarden van klein naar groot staan → ordinale scores
- Modus: de waarde die het vaakst voorkomt → nominale scores
- Spreidingsmaten
- Standaarddeviatie (SD): De standaarddeviatie is de gemiddelde
hoeveelheid variabiliteit in je dataset. Deze maat vertelt je hoe ver iedere
score gemiddeld van het gemiddelde verwijderd is. Des te groter de
standaarddeviatie, des te meer variabel je dataset is.
- Variantie: De variantie (variance) is het gemiddelde van de kwadratische
afwijkingen van het gemiddelde. Deze maat zegt iets over de mate van
spreiding in een dataset. Des te meer spreiding er is, des te groter is de
variatie in relatie tot het gemiddelde.
- Toetsende statistiek: Met toetsende statistiek wordt op basis van kansberekening een
uitspraak gedaan over de waarschijnlijkheid van een hypothese. → generaliseren?
Toetsingsfase
- Nagaan of de uitkomsten van de empirische gegevens overeenkomen met
de hypothese
- H0 (Nulhypothese): de standaardsituatie → er bestaat geen verschil. Op
basis van de aanname dat de nulhypothese waar is, wordt de kans op een
bepaalde uitkomst berekend.
- H1 (alternatieve hypothese): gebaseerd op het idee/de theorie van de
onderzoeker
- Eenzijdig: aan de hypothese is een richting toegekend
- Tweezijdig: aan de hypothese is geen richting toegekend
- Als we de H0 mogen verwerpen, dan is de ‘alternatieve’ hypothese
gesteund voor de data, maar NOOIT bewezen
- Significantieniveau: bij een significantie <.05 (5%) mag de H0 verwerpen worden
3
, Type 1 en Type 2 errors
- Type 1 error: concluderen dat er een effect is gevonden terwijl dat in de werkelijk niet zo
is (onterecht H1 aannemen)
- Type 2 error: concluderen dat er geen effect is terwijl dat in de werkelijkheid wel zo is
(onterecht H0 aannemen)
Week 2: Research methods and statistical models
Histogram
- Die variatie in hoe vaak een score voorkomt, kunnen we visualiseren met een grafiek: de
histogram
- Met een histogram laten we van de waarden van een variabele (X-as) zien hoe vaak die
waarde in een steekproef voorkomt (Y-as) = de frequentieverdeling
- Histograms helpen met het identificeren van: de vorm van de distribution, skewness,
kurtosis, spread or variation in scores, unusual score
Frequentieverdeling
- De frequentieverdeling vertoont dus een bepaald patroon.
- Dat patroon wordt de ‘normaalverdeling’ genoemd.
- Waarden rond het gemiddelde zijn relatief frequent
- Waarden ‘ver van’ het gemiddelde zijn relatief
‘zeldzaam’
Afwijkingen van de normaalverdeling (normaliteit)
- Skewness: de symmetrie van de verdeling
- ‘rechts-scheef’ = ophoping bij de lage scores, staart wijst naar de
hoge scores (positive skew)
- ‘links-scheef’ = ophoping bij de hoge scores, staart wijst naar
lage scores
(negative skew)
- Kurtosis: de gepiektheid of platheid van de verdeling
- ‘leptokurtic’: hoge piek, ‘lichte’ staarten (positief)
- ‘platykurtic’: lage piek, ‘zware’ staarten (negatief)
→ Problemen met Skewness en Kurtosis doen afbreuk aan de ‘fit’ van het model.
De mean wordt dan een minder betrouwbaar model van de werkelijkheid.
4