WINST OP DEZE SAMENVATTING WORDT OVERGESCHREVEN NAAR HET CAROLINE PAUWELS NOODFONDS
Uitgebreide samenvatting voor het vak statistiek II voor de sociale wetenschappen
Notities & slides
Academiejaar
STATISTIEK II VOOR DE SOCIALE WETENSCHAPPEN
Prof. Dr. Tom De Winter
1. INLEIDING EN HERHALING
1.1. Herhaling basisconcepten
1.1.1. Statistiek en statistische gegevens
• Weerbaar zijn in een samenleving gedreven door cijfers (‘data-driven’)
• Realiteit is complex en onzeker
• Uitzonderingsbubbel doorprikken
• Empirie om beweringen te staven
o Beweringen op zich zijn niet voldoende, nood aan empirie
o Niet zomaar data verzamelen, maar volgens regels van de kunst
▪ → Inleiding onderzoeksmethoden, etc.
o Niet zomaar data analyseren, maar adhv juiste techniek en met ruimte voor
onzekerheid
▪ → Statistiek II, etc.
1.1.2. Steekproef en onderzoekspopulatie
• Wie onderzoek ik? → (Onderzoeks)populatie met onderzoekseenheden (‘cases’)
o Vb. alle inwoners van Europa op 1 augustus 2021 → percentage
minderjarigen
o Vb. alle personen met de Belgische nationaliteit op 1 januari 2021 →
percentage actieven
o Vb. alle klanten van Colruyt in september 2021 → gemiddeld aankoopbedrag
per week
o Vb. alle scholen in Vlaanderen → percentage kinderen met leermoeilijkheden
o Vb. alle gebruikers van Netflix in 2020 → gemiddeld aantal minuten kijken per
week
o Vb. alle personen die in de loop van het jaar 2020 gedetineerd waren in België
→ percentage recidivisten
o Vb. alle studenten hoger onderwijs in Vlaanderen in 2020 → percentage
studenten criminologie
• Steekproef
o = Subset / selectie uit de volledige groep van onderzoekseenheden in de
populatie
o Een steekproef moet dezelfde karakteristieken hebben als van de populatie
die het vertegenwoordigt (representativiteit)
o Belangrijk: voor vele statistische technieken moet dit een toevalsteekproef
zijn (‘random sample’) → elke onderzoekseenheid heeft een gelijke kans op
selectie verschillend van nul
o Kengetallen die we meten in de steekproef → (steekproef)statistieken
1.1.3. Beschrijvende en inferentiële statistiek
• Beschrijvende of deductieve statistiek: beschrijven van de verzamelde gegevens
o Verzameling, organisatie en presentatie van de data
o Samenvatten van gegevens (adhv statistieken, grafieken, tabellen…) om
globale patronen en kenmerken te ontdekken
▪ Centrummaten (gemiddelde, modus, mediaan)
▪ Spreidingsmaten (standaardafwijking, variantie, interkwartielafstand)
▪ Grafieken: histogrammen, taartdiagram, boxplots
o Vb. grafiek opinie rond invoeren doodstraf bij jongeren tussen 15-30 jaar in
Vlaanderen (in %), gebaseerd op een steekproef van 3000 jongeren
o
• Inferentiële of inductieve statistiek
o Obv steekproefgegevens conclusies trekken mbt de populatie
o Veralgemening van een steekproef naar een popullatie
o De mate van betrouwbaarheid en nauwkeurigheid waarmee we van een
steekproef naar een populatie kunnen generaliseren
o Maakt gebruik van kansrekening (cf. les 2 en 3)
o Vaak zullen we dus op basis van statistieken in een steekproef de parameters
in een populatie schatten. De centrale vraag is dan ook of de resultaten die
we in de steekproef vinden veralgemeenbaar zijn naar de volledige
onderzoekspopulatie. Indien steekproefresultaten veralgemeenbaar zijn naar
de populatie spreken we over significantie van de resultaten.
o Voorbeelden inferentiële statistiek
▪ 20% (akkoord) met het herinvoeren van de doodstraf. Hoe
waarschijnlijk is het dat dit percentage effectief het percentage
akkoord is in de populatie van alle 15-30 jarigen in Vlaanderen
(populatiemeter is een onbekende)?
▪ → We zijn 95% zeker dat het percentage van alle 15-30 jarigen in
Vlaanderen die voorstander zijn van de herinvoering van de doodstraf
voor zware misdaden tussen 18.4% en 21.2% ligt.
, • Cf. les 5 – betrouwbaarheidsintervallen
▪ Gemiddelde lengte van alle mannen in Vlaanderen is 1.93m.
• Nulhypothese: gemiddelde in populatie = 1.93m
• Op basis van aantal berekeningen kunnen we dan nagaan of
die hypothese sterk afwijkt of niet met de gemiddelde lengte
gevonden in de steekproef.
• Cf. les 6: hypothesetoetsen
1.1.4. Variabelen: operationalisering & meetniveaus
• Variabelen: kenmerken die we meten of bevragen bij de onderzoekseenheden
• Variabelen zijn variabel, i.e. kunnen meerdere waarden hebben
o Cijfers
o Tekst (‘string’-variabelen in SPSS) → eventueel coderen
• Nood aan definiëring en operationalisering van concepten
o Leeftijd
o Geslacht
o Armoede
o Gezondheid
• Kwantitatief vs. Kwalitatief
o Kwantitatief of categorisch: waarden van de variabelen wijzen op
categorieën, zonder verdere wiskundige betekenis
o Kwantitatief of metrisch: waarden van de variabelen wijzen op wiskundige
betekenis
o
• 4 meetniveaus
o Nominaal: categorieën zonder ordening
o Ordinaal: categorieën met ordening
o Interval: wiskundige waarde, geen absoluut nulpunt
o Ratio: wiskundige waarde, wel absoluut nulpunt
o
• Kwantitatieve variabelen
o Discreet: (beperkt aantal) gehele getallen, resultaat van telling of classificatie
(vb. aantal auto’s per gezin, kan geen kommagetal zijn)
, o Continu: variabele kan alle waarden aannemen (vb. lichaamslengte, snelheid)
o
1.1.5. Frequentieverdelingen & grafische weergaven
• “… Make both calculations and graphs. Both sorts of output should be studied; each
will contribute to understanding.”
o F. J. Anscombe, 1973
1.1.6. Maten van centraliteit
• Eén getal dat de waarden van een variabele beschrijft aan de hand van een centrale
positie
• Modus → vanaf nominaal
• Mediaan / kwartiel / deciel / percentiel → vanaf ordinaal
• Gemiddelde → vanaf interval
1.1.7. Maten van spreiding
• Eén getal dat de spreiding van waarden van een variabele uitdrukt
• Variatiebreedte (range) → vanaf ordinaal
• Interkwartielafstand (interquartile range, IQR) → vanaf ordinaal
• Variatie (variation) / kwadratensom (sum of squares, SS) → vanaf interval
• Variantie (variance) → vanaf interval
• Standaardafwijking (standard deviation, std.dev, SD) → vanaf interval
1.1.8. Outliers
• Outliers zijn extreme (lage of hoge) waarden voor een kwantitatieve variabele die
statistische resultaten kunnen vertekenen
• Een outlier is niet noodzakelijk een inhoudelijke fout in de data, wel een cijfermatige
extremiteit
o Vb. leeftijd van 200 jaar
o Vb. netto maandelijks huishoudensinkomen van €20.000
• Verken variabelen daarom cijfermatig én visueel om outliers te detecteren
o Frequentietabel + grafiek (histogram / boxplot / scatterplot / …)
• Onderzoek de oorsprong van outliers alvorens in te grijpen
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper fbohets. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €6,39. Je zit daarna nergens aan vast.