Statistiek 1 – Hoorcollege
1.1. Wat is statistiek?
! Statistiek als wetenschappelijke discipline: het is een kennismethode om de wereld beter te kennen
en te begrijpen.
Hoe? Door empirisch onderzoek: statistiek als werktuig, instrument en methoden en om beweringen te
staven.
→ Men gaat kijken naar gegevens en verdelingen en deze weergeven op een manier om alles beter te
begrijpen.
Voorbeelden van statistiek uit ons dagelijks leven?
Bv: Sport, streaming platformen, gezondheidszorg, onderwijs, meteorologie, etc.
*Statistiek (B)
→ Leren omgaan met verschillende data, met als doel gegevens te vertalen in kennis en een dieper
inzicht te krijgen in bepaalde onderwerp.
! Men wil de data 'synthetiseren' / samenvatten.
1.2. Waarom statistiek?
- Ondersteunen van beweringen → Statistiek helpt ons om claims en hypothesen te
onderbouwen met bewijs.
- Nood aan empirie → Er is behoefte aan feitelijke data en gegevens om kennis te verkrijgen.
+ Dit moet gebeuren volgens erkende methoden om betrouwbaarheid te waarborgen.
- Data analyseren → Statistiek wordt gebruikt om de verzamelde data op een gestructureerde
manier te interpreteren.
*Empirisch onderzoek (B)
→ Kennismethode om de wereld beter te kennen en te begrijpen
! Om empirisch onderzoek te doen, is het essentieel om data te verzamelen en te analyseren om
vragen te beantwoorden en beweringen te onderbouwen.
Verschillende databronnen:
• Administratieve data / registergegevens (geslacht, leeftijd, opleiding, …)
• Survey Gegevens (attitudes, aantal uren gsm, …)
• Big data (veel data beschikbaar over ons zonder dat we ons ervan bewust zijn)
1
,! Fasen in sociaal-wetenschappelijk onderzoek:
1. Probleemstelling
*Inhoudelijke kennis → Het formuleren van een duidelijke probleemstelling vereist een
grondige kennis van het vakgebied.
! Dit helpt om relevante vragen te identificeren en een gefocust onderzoek te ontwerpen.
2. Onderzoeksontwerp en dataverzameling
- Onderzoeksmethoden: bepaal welke methoden het meest geschikt zijn voor het
beantwoorden van de probleemstelling (Bv: interview, survey, …)
- Onderzoeksdesigns: Kennis van onderzoeksontwerpen is cruciaal (Bv: cross-sectioneel,
longitudinaal, …)
- Sterkte en zwakte van dataverzameling: Analyseer de voor- en nadelen van de veerschillende
manieren van dataverzameling, zoals:
a) Secundaire data → Al verzamelde gegevens, meestal goedkoper, maar mogelijk minder
relevant.
b) Kwantitatieve data → Cijfers en statistieken: goed voor het maken van generalisaties.
c) Kwalitatieve data → Diepgaande informatie, goed voor het begrijpen van de context en
betekenis.
3. Data-analyse
! Men kan een onderscheid maken van verschillende statistische methoden:
- Beschrijvende statistiek → Gebruikt om gegevens samen te vatten en beschrijven.
- Inductieve / inferentiële statistiek → Gebruikt om generalisaties te maken van een steekproef
naar een grotere populatie.
- Verklarende statistiek → Richt zich op het verklaren van relaties tussen veriabelen.
4. Rapportering
→ Literatuuronderzoek, refereren / citeren naar de gebruikte bronnen om betrouwbaarheid te
waarborgen en het gebruik van wetenschappelijk taalgebruik.
2
,1.3. Soorten statistiek (drie soorten)
*Beschrijvende / deductieve statistiek (B)
→ De wereld in cijfers beschrijven: we denken spontaan vaak kwantitatief (geven hoeveelheden weer
dmv veel, weinig, meer, …)
+ Basis: frequentievragen, samenvatten in ‘kerngetallen’, gebruik van grafische technieken.
Herleiden tot:
- Samenvattende maten, Bv: percentages, mediaan, kwartielen, standaardafwijking, …
- Grafieken, Bv: histogrammen, taartdiagrammen, boxplots, …
*Inferentiële / induciteve statistiek (B)
→ Middel om met een beperkt aantal gegevens uitspraken te doen over een breder
geheel, over een volledige populatie.
Dus: men probeert uitspraken te doen over de volledige bevolking obv een
toevalssteekproef uit die bevolking: veralgemeenbaarheid van steekproefresultaten.
! Belangrijk om met betrouwbaarheidsintervallen te werken.
*Verklarende statistiek (B)
→ Richt zich op het verklaren van verschillen en samenhangen tussen variabelen: maakt gebruik van
regressietechnieken om relaties te analyseren, Bv:
- Bivariate regressie: onderzoekt de relatie tussen 2 variabelen
- Multivariate regressie: analyseert de impact van meerdere variabelen tegelijk
- Logistische regressie: gebruikt uitkomstvariabelen die dichotoom zijn, zoals ja/nee
Voorbeelden van samenhang- en verschilvragen
→ “Wat is de relatie tussen opleidingsniveau en inkomen?”, “Wat is de relatie tussen opleidingsniveau,
inkomen en onveiligheidsgevoelens?”, “Wat is de relatie tussen opleiding en gezondheid?”, …
3
, 1.4. Misleidende statistiek
! Statistiek kan misleiden zijn, vaak gebruikt om valse of zwakke argumenten te ondersteunen.
→ Statistieken hebben veel impact, maar kunnen ook misbruikt worden.
Dus: Er zijn 3 manieren waarop statistiek misleidend kan zijn …
1) Misleiding bij verzamelen van gegevens
- Slechte selectie van deelnemers: NIET representatief voor de gehele bevolking
- Een te kleine steekproef
- Slechte vraagstelling, Bv: door bepaalde woorden zoals ‘erg’ in je vraag te gebruiken kan dit
de antwoorden van de onderzochte personen beïnvloeden.
- Slechte vergelijking tussen 2 of meerdere zaken
2) Misleiding bij presentatie van gegevens
→ Grafieken kunnen gemanipuleerd worden (Bv: delen kunnen worden
weggelaten, schalen aanpassen, …)
3) Misleiding bij het omschrijven van de conclusies
→ Kritisch lezen is essentieel: “Is het cijfer corret? Hoe is het verkregen? Hoe moet dit op een juiste
manier geïnterpreteerd worden?”
1.5. De oorsprong van statistiek
Onstaan? Statistiek was oorpsronkelijk gericht op het verzamelen van informatie over naties voor
fiscale en militaire doeleinden.
→ Het was dus een hulmiddel voor overheden in de 18 de eeuw en is ontwikkeld door belangrijk
figuren, die de nadruk legden op het verzamelen en analyseren van gegevens voor sociale en
gezondheidsdoeleinden.
Belangrijkste namen in de ontwikkeling van statistiek:
• Adolphe Quetelet
• Florence Nightingale
4