Inleiding – verkennen van data
1. Info en praktische afspraken
2 verplichte delen:
- Schriftelijk examen (60%): theorie (meerkeuze zonder giscorrectie, 5 antwoordmogelijkheden) +
oefeningen (met de hand), gesloten boek met formularium
- Praktisch examen (40%): software, oefeningen op computer, open boek
Deelname aan beide delen is vereist
Bij herexamen (enkel in augustus) kan punt worden gebruikt van deel waar je wel geslaagd voor
bent, maar deelname aan beide delen blijft vereist
2. Waarom data-analyse?
Data-analyse is noodzakelijk voor psychologen
Het helpt je om:
- Data te organiseren (grafieken)
- Data te beschrijven (beschrijvende/deductieve statistiek, samenvatten)
- Interpreteren en uitspraken doen op basis van data (inferentiële/inductieve statistiek, verklaren) ->
een statistische test kan nooit verkeerd zijn, enkel de interpretatie kan verkeerd zijn
- Theorieën te verifiëren en aan te passen
Deze figuur zegt te weinig
Het zegt enkel iets over het gemiddelde, maar de spreiding is ook
zeer belangrijk (je kan geen conclusies trekken met enkel het
gemiddelde zonder de spreiding)
3. Inductieve statistiek
1
,Van steekproef naar populatie
Begrippen
Theorie -> hypothese -> steekproef -> steekproefgrootheden
Steekproefgrootheid (statistiek, stat. grootheid): maat gebaseerd op de gegevens van de steekproef
(bv. rekenkundig gemiddelde, proportie…)
Steekproefgrootheid = toevalsvariabele met een bepaalde verdeling -> steekproevenverdeling
Stel: random steekproef 1 en we berekenen S1, random steekproef 2 (zelfde n) en we berekenen S2
etc. tot S
n
S1, S2, S3, S4, …, Sn
De verdeling van deze steekproefgrootheden = steekproevenverdeling
SteekproeFverdeling (sample distribution):
- Frequentieverdeling van de uitkomsten van de steekproef
- Empirisch, gekend
steekproeVENverdeling (sampling distribution):
- Kansverdeling van alle mogelijke waarden die een steekproefgrootheid (voor alle mogelijke
verschillende steekproeven) kan aannemen
- Theoretisch, benaderen
Stel: steekproefgrootheid = X
Wanneer men herhaaldelijk toevallige steekproeven met grootte n trekt uit een normaal verdeelde
populatie met gemiddelde = en standaardafwijking = dan is de steekproevenverdeling van het
steekproefgemiddelde normaal verdeeld
2
,Centrale limietstelling: wanneer men herhaaldelijk toevallige steekproeven met grootte n trekt uit
een willekeurig verdeelde populatie met gemiddelde = µ en standaardafwijking = en indien n
voldoende groot (vuistregel: n ≥ 30) is, dan benadert de steekproevenverdeling van het
steekproefgemiddelde een normaalverdeling
Notaties
4. Verkennen van data
4.1 Grafisch verkennen van data
Boxplot: info over positie, spreiding en symmetrie
Boxplot in SPSS
Verdeling vs boxplot
Histogram: info over normaliteit verdeling
4.2 Analyse van ontbrekende data (missing data)
3
, Ontbrekende waarden voor 1 of meer variabelen
Oorzaak:
- Onafhankelijk van de respondent: procedure (bv. indien ‘nee’, ga naar vraag x), codeerfouten
- Afhankelijk van de respondent: omvang (veel of weinig missing data), analyse van het profiel van
missing data (systematiek of random)
Impact missing data
Praktische impact:
- Reductie steekproefgrootte (proefpersoon met missing data verwijderen, mogelijk nieuwe
proefpersoon zoeken of data uitvinden adhv statistische modellen) -> listwise deletion
- Indien te veel: n vergroten of remediëren (zie verder)
Nonrandom missingness:
- Bias
- Specifieke groepen uitgesloten uit analyse (bv. hoge inkomens)
- Merk je pas op als je missing data hebt bestudeerd
Stap 1: bepaal het soort missing data
Verwaarloosbare missing data vs niet-verwaarloosbare missing data
Dit bepaald de juiste remedie!
Verwaarloosbare missing data
= verwacht, deel van de procedure, toegelaten
= random missingness
1. Data van individuen (observatie-eenheden) die niet in de steekproef zitten (bv. vragenlijst bij
coronapatiënten: patiënten in ziekenhuis kunnen geen vragenlijst invullen)
2. Skip-patronen in design (bv. Rookt u? Zo nee, ga naar item x)
3. Censored data: niet beschikbaar
Niet remediëren!
4