EXAMEN STATISTIEK 2023-2024
Module 1 – inleiding tot de statistiek
We hebben wetenschap nodig om onszelf beter te begrijpen → gaat over het verzamelen v data + zoeken van verklaringen
voor die data
Kwalitatieve OM Kwantitatieve OM
- Woorden/tekst (om te kunnen analyseren) - Cijfers
- Interviews en focusgroepen - Set v tools en technieken die gebruikt wordt voor
beschrijven, organiseren + interpreteren van info
en gegevens
1. Het onderzoeksproces
1.1. Genereer een onderzoeksprobleem (wat je doet)
- Bij ieder onderzoek start je met formulering van OV (antwoord hierop weten)
- BELANGRIJK: vraag moet ondubbelzinnig geformuleerd zijn
- OV kan voortkomen uit iets dat je vaststelt door wereld te observeren
1.2. Observeer de wereld of lees (hoe je het doet)
- Als je niets observeert → voorgaande literatuur lezen en ontdekken wat verder onderzoek vereist
1.3. Raadpleeg een theorie
- Theorie: uitleg/set v principes die een breed fenomeen verklaart + goed onderbouwd is door vaak te testen
- BELANGRIJK: theorieën zijn van toepassing op alle entiteiten of situaties
1.4. De populatie (waar je het op doet)
- Populatie: een theoretische groep waarover je conclusies wilt trekken (vb. klanttevredenheid: klanten = populatie)
1.5. Genereer een hypothese
- Hypothese: veronderstelling – vooropgestelde verklaring voor een vrij beperkt fenomeen of waarnemingen
VERSCHIL THEORIE & HYPOTHESE
- Theorie: verklaart breed scala aan fenomenen en vaak getest
- Hypotheses: verklaart enger fenomeen en nog niet getest
1.6. Verzamelen data om hypothese te testen
- Dataset: verzameling v gegevens die op de een of andere manier aan elkaar gekoppeld zijn
◼ ALGEMEEN: spreadsheet met variabelen als kolommen en cases/observaties als rijen
→ Elke variabele vertegenwoordigt een verzameling v 1 type gegeven
→ Case omvat alle gegevens over alle variabelen uit 1 enkele bron
- 2 termen:
◼ Variabele: alles dat gemeten kan worden – kan verschillen, veranderen, variëren tss entiteiten of i/d tijd (kolom in
datatset)
◼ Case: gegevens uit 1 bron van 1 of meerdere variabelen (rij in dataset)
A. Soorten variabelen
Kwalitatief (categorisch) Kwantitatief (scale)
- Opgebouwd uit categorieën waarbij entiteit slechts - Numerieke weergave + numerieke informatie
in 1 v.d. categorieën kan worden geplaatst
(Vb. lengte, gewicht, leeftijd)
(Vb. kat, hond, koe)
- Berekeningen
- Binaire of dichotome variabele: slechts 2
(Vb. leeftijd optellen)
verschillende categorieën
1
, (Vb. man/vrouw (man 1, vrouw 2) )
- Niet numeriek, kan als getal gecodeerd worden
B. Meetniveaus
- Meetniveau/meetschaal: relatie tss wat wordt gemeten + getallen die vertegenwoordigen wat er wordt gemeten
(nominaal + ordinaal: behoren tot categorische variabele en ratio bij de scale variabele)
Kwalitatief (categorisch) : nominaal - ordinaal Kwantitatief (scale) : interval - ratio
Nominale (variabelen) Interval (variabelen)
- Eenvoudigste meetschaal - Geen echt nulpunt – waarden onder nul zijn mogelijk →
(Vb. kleur, geslacht) verhoudingen zijn zinloos
- Labels zonder orde (kunnen niet zeggen dat
de ene superieur is a/d andere) (Vb. kalenderjaren, temperatuur) : geordende categorieën + vereist
dat intervallen tss de categorieën gelijk zijn)
Ordinale variabelen (variabelen) Ratio (variabelen)
- Betekenisvolle volgorde (Vb. rang en - Verhoudingen moeten zinvol zin
tevredenheid) - Schaal moet een zinvol nulpunt (→ waar volledige
- Intervallen tss waarden i/d schaal zijn afwezigheid is v hetgeen je aan het meten bent)
mogelijk niet gelijk
(Vb. leeftijd, gewicht, lengte,…)
(Vb. groot verschil tss tevreden en ontevreden, maar - Intervallen zijn consistent
klein verschil tss ontevreden en zeer ontevreden) - Betekenisvol nulpunt = verhoudingen/ratio’s worden
gehandhaafd
C. Classificatie v.d. kwantitatieve variabele
Discreet of continu
• Discreet: kunnen eindig aantal verschillende gehele waarden aannemen – kan verkregen worden door te tellen
(Vb. aantal lln i.e klas kan 19 of 20 zijn, maar niet 19,99) !!! kwalitatieve variabelen zijn altijd discreet !!!
• Continu: oneindig aantal kommagetallen – waarden kunnen niet worden geteld
(Vb. leeftijd (2 jaar 6 maanden 23 dagen etc., temperatuur) )
VERSCHIL TUSSEN VARIABELEN KAN VERVAGEN → men kan continue variabelen gebruiken in discrete termen – we maken v/e
continue variabelen een discrete variabelen
(Vb. leeftijd niet in nanoseconden uitgedrukt – nanoseconden = continue en jaren discreet)
DISCREET VARIABELEN BEHANDELEN ALSOF ZE CONTINUE ZIJN (Vb. aantal vriendjes dat een meisje heeft gehad = discrete
variabele – in boekjes staat dat afgelopen jaar vriendjes zijn gestegen van 2,3 naar 3,5 = continue variabele = zinloos want
niemand heeft 3,5 vriendjes)
D. Direct meetbare vs indirectmeetbare variabelen
Direct meetbare variabelen Indirect meetbare variabelen
- Lengte, gewicht, leeftijd : makkelijk meten - Depressie, angst, geluk en tevredenheid
= constructen : kenmerken/eigenschappen die niet
direct gemeten kunnen worden
Meten? : operationele definities nodig – procedure/reeks
procedures zijn om deze te kwantificeren
(Vb. operationale definitie v klanttevredenheid adhv vragen:
kan gemeten worden adhv likertschaal bv.)
- Likertschaal: Het is een schaal van vijf of zeven
punten waarmee mensen kunnen aangeven in
hoeverre ze het eens of oneens zijn met een
bepaalde uitspraak.
2
, Controversieel onderwerp: ordinaal v aard – lijken op intervalschalen
→ Beoordelingen hangen af v subjectieve gevoelens (als ze zeggen ik vind de winkel leuk, is dit dan ook echt zo?)
BELANGRIJKE ANALYSE: chronbach’s alpha (= maatstaf) → manier om vast te stellen of meerdere items samen 1 schaal mogen
vormen = betrouwbaarheidsanalyse → wordt getoetst obv onderlinge correlatie v.d. verschillende items
(Vb. 3 items → Cronbach’s Alpha = 0,43 – 20 items → Cronbach’s Alpha : je zou denken dat 0,83 beter is dan 0,43, maar er is een
verschil tss aantal items – daarom correlatie v ieder item uitzonderlijik onderzoeken)
Uitleg: een meetinstrument met hoger aantal items heeft meer kans om een hogere consistentie te laten zien daarom lijkt hier
de 0,83 hoger dan de 0,43. → om een eerlijke vgl te maken, is het belangrijk om ook naar de individuele correlaties te kijken. Een
lage alfa-waarde bij het instrument met 3 items kan te wijten zijn aan verschillen tss die items. Het is mogelijk dat sommige items
sterk samenhangen, terwijl andere dat niet doen.
E. Voorspellende vs uitkomstvariabele
Meeste hypotheses kunnen worden uitgedrukt in termen van voorspellende en uitkomstvariabele:
- Voorspellende (: verklarende var.) : waarde is niet afhankelijk v andere variabelen (onafh var) – kan gebruikt worden
om scores v/e andere variabele te voorspellen
(Vb.winkellocatie: men verklaart klanttevredenheid door winkellocatie)
- Uitkomstvariabele (=verklaarde variabele): waarde afhankelijk v andere variabele (afh var) – scores trachten te
verklaren adhv een ander variabele
(Vb. klanttevredenheid: beide zijn variabelen, want de winkkellocatie kan veranderen, waardoor tevredenheid ook kan
veranderen)
F. Steekproef
🌍 Populatie: Alles waar we in geïnteresseerd zijn (katten, mensen, auto's).
🔍 Steekproef: Subset van de populatie voor onderzoek.
📊 Statistieken: Direct berekend op steekproefgegevens (bv. gemiddelde klanttevredenheid).
🎯 Parameters: Geschatte waarden voor de hele populatie (bv. populatiegemiddelde klanttevredenheid).
G. Gelden onze conclusies v.d. steekproef voor de rest van de populatie?
🤔 Onderzoeksvraag: Verschil in autoritaire opvoedingsstijl tussen veertigjarige en vijfentwintigjarige moeders.
⚠️ Bias-gevaar: Als we alleen gescheiden veertigjarige moeders in onze steekproef hebben, kan dit leiden tot onterechte
conclusies.
❌ Niet representatieve steekproeven (BIAS): Verkeerde conclusies mogelijk. Observaties moeten representatief zijn voor de
hele populatie.
✅ Representativiteit vergroten: Observaties willekeurig selecteren verhoogt de kans op representativiteit.
🎲 Eenvoudige willekeurige steekproef: Elk lid heeft gelijke kans om gekozen te worden, waardoor de steekproef zo
representatief mogelijk wordt.
H. Steekproefvertekening (sample bias)
🔄 Steekproefvertekening: Vertekening veroorzaakt door het gebruik van niet-willekeurige gegevens voor statistische analyses.
🚫 Oorzaak: Fout in het steekproefselectieproces, waarbij bepaalde gegevens systematisch worden uitgesloten vanwege een
specifiek kenmerk.
✅ Doel: Steekproefentiteiten moeten representatief zijn voor de bredere populatie, bereikt door willekeurige selectie.
👥 Steekproevenvariatie: Verschillende steekproeven bevatten niet dezelfde personen, illustrerend voor statistische variatie.
❓ Steekproeffout: Omdat we naar een subgroep kijken, benaderen steekproeven slechts de populatie door natuurlijke variatie.
Het verschil tussen de geschatte waarde op basis van de steekproef en de werkelijke populatieparameter is de steekproeffout.
🌐 Representativiteit: Omdat je niet van iedereen informatie kunt krijgen, neem je een willekeurige steekproef en schat je de
populatieparameter in met behulp van steekproefgegevens.
❗ Onzekerheid: Schatting kan onjuist zijn door variaties tussen steekproeven en hun afwijking van de populatie.
3
, ! Algemeen: hoe representatiever en groter de steekproef, hoe beter je beeld v.d. populatie is !
I. Twee belangrijke benaderingen om gegevens te verzamelen
Observationele/correlationele studie Experimentele studie
Kenmerken: Kenmerken:
- Onderzoeker observeert gebeurtenissen - Oorzaak-gevolgrelatie enkel vinden door
- Observeert deel v.d. populatie experimenten waarbij ding/variabele waarvan je
- Beïnvloedt / verandert omstandigheden NIET denkt dat het de oorzaak is
- Control groep = past gedrag niet aan
- Treatment groep = past gedrag aan
Verschillende manieren: Belangrijke type studie: Quasi-experiment
- Cross-sectioneel onderzoek: op 1 bepaald moment, - Geen willekeurige toewijzing van proefpersonen –
verschillende var over verschillende cases heen bij experiment steekproef willekeurig indelen in 2 of
- Longitudinaal: var herhaaldelijk op verschillende meer groepen
tijdstippen meten - Ene groep volgt een training, andere niet
- Willekeur valt weg omdat mensen zelf kiezen
- Vertrekt uit 2 populaties (vrijwilligers & niet-
vrijwilligers)
- Probleem: werkt training voor iedereen of enkel
voor enthousiate vrijwilligers?
Correlationeel onderzoek → geeft ons een natuurlijk beeld
v.d. vraag die we onderzoeken – hebben geen invloed op wat
er gebeurt → metingen mogen niet beïnvloed worden door
de aanwezigheid v.d. onderzoekers
→ Betalen wel een prijs: vertelt ons niet over het feit of de
ene variabele de andere variabele veroorzaakt (= causaliteit)
1.7. Analyseer de data die je hebt verzameld (2)
• Beschrijvende statistiek: grafiek maken of samenvattende, beschrijvende gegevens berekenen zoals de gemiddelde
klanttevredenheid – kan ENKEL gebruikt worden om gegevens te beschrijven die uit een steekproef zijn verzameld
• Inferentiële statistiek: stelt ons in staat om gegevens die uit steekproef zijn verzameld, te generaliseren naar de
populatie waaruit DIE steekproef afkomstig is
1.8. Veralgemeen de resultaten
Inferentiële statistiek: Maakt generalisatie van steekproefresultaten naar populatie mogelijk.
Representativiteit: Cruciaal bij inferentiële statistiek om ervoor te zorgen dat de steekproef een goede afspiegeling is van de
hele populatie.
1.9. Delen van resultaten
Wetenschappers schrijven onderzoeksrapporten/papers volgens bepaald format:
1. Methodologie-sectie:
- Uitleg van wat je hebt gedaan en hoe.
- Belangrijk voor lezers om je onderzoek te evalueren.
- Inclusief: type onderzoek, dataverzamelings-/analysemethoden, motivatie voor gekozen onderzoeksmethode.
2. Resultaten-sectie:
- Rapporteert bevindingen en resultaten.
- Overzicht van verzamelde gegevens.
- Statistische analyses inbegrepen.
4