WINST OP DEZE SAMENVATTING WORDT OVERGESCHREVEN NAAR HET CAROLINE PAUWELS NOODFONDS
Uitgebreide samenvatting voor het vak statistiek II voor de sociale wetenschappen
Notities & slides
Academiejaar
STATISTIEK II VOOR DE SOCIALE WETENSCHAPPEN
Prof. Dr. Tom De Winter
1. INLEIDING EN HERHALING
1.1. Herhaling basisconcepten
1.1.1. Statistiek en statistische gegevens
• Weerbaar zijn in een samenleving gedreven door cijfers (‘data-driven’)
• Realiteit is complex en onzeker
• Uitzonderingsbubbel doorprikken
• Empirie om beweringen te staven
o Beweringen op zich zijn niet voldoende, nood aan empirie
o Niet zomaar data verzamelen, maar volgens regels van de kunst
▪ → Inleiding onderzoeksmethoden, etc.
o Niet zomaar data analyseren, maar adhv juiste techniek en met ruimte voor
onzekerheid
▪ → Statistiek II, etc.
1.1.2. Steekproef en onderzoekspopulatie
• Wie onderzoek ik? → (Onderzoeks)populatie met onderzoekseenheden (‘cases’)
o Vb. alle inwoners van Europa op 1 augustus 2021 → percentage
minderjarigen
o Vb. alle personen met de Belgische nationaliteit op 1 januari 2021 →
percentage actieven
o Vb. alle klanten van Colruyt in september 2021 → gemiddeld aankoopbedrag
per week
o Vb. alle scholen in Vlaanderen → percentage kinderen met leermoeilijkheden
o Vb. alle gebruikers van Netflix in 2020 → gemiddeld aantal minuten kijken per
week
o Vb. alle personen die in de loop van het jaar 2020 gedetineerd waren in België
→ percentage recidivisten
o Vb. alle studenten hoger onderwijs in Vlaanderen in 2020 → percentage
studenten criminologie
• Steekproef
o = Subset / selectie uit de volledige groep van onderzoekseenheden in de
populatie
o Een steekproef moet dezelfde karakteristieken hebben als van de populatie
die het vertegenwoordigt (representativiteit)
o Belangrijk: voor vele statistische technieken moet dit een toevalsteekproef
zijn (‘random sample’) → elke onderzoekseenheid heeft een gelijke kans op
selectie verschillend van nul
o Kengetallen die we meten in de steekproef → (steekproef)statistieken
1.1.3. Beschrijvende en inferentiële statistiek
• Beschrijvende of deductieve statistiek: beschrijven van de verzamelde gegevens
o Verzameling, organisatie en presentatie van de data
o Samenvatten van gegevens (adhv statistieken, grafieken, tabellen…) om
globale patronen en kenmerken te ontdekken
▪ Centrummaten (gemiddelde, modus, mediaan)
▪ Spreidingsmaten (standaardafwijking, variantie, interkwartielafstand)
▪ Grafieken: histogrammen, taartdiagram, boxplots
o Vb. grafiek opinie rond invoeren doodstraf bij jongeren tussen 15-30 jaar in
Vlaanderen (in %), gebaseerd op een steekproef van 3000 jongeren
o
• Inferentiële of inductieve statistiek
o Obv steekproefgegevens conclusies trekken mbt de populatie
o Veralgemening van een steekproef naar een popullatie
o De mate van betrouwbaarheid en nauwkeurigheid waarmee we van een
steekproef naar een populatie kunnen generaliseren
o Maakt gebruik van kansrekening (cf. les 2 en 3)
o Vaak zullen we dus op basis van statistieken in een steekproef de parameters
in een populatie schatten. De centrale vraag is dan ook of de resultaten die
we in de steekproef vinden veralgemeenbaar zijn naar de volledige
onderzoekspopulatie. Indien steekproefresultaten veralgemeenbaar zijn naar
de populatie spreken we over significantie van de resultaten.
o Voorbeelden inferentiële statistiek
▪ 20% (akkoord) met het herinvoeren van de doodstraf. Hoe
waarschijnlijk is het dat dit percentage effectief het percentage
akkoord is in de populatie van alle 15-30 jarigen in Vlaanderen
(populatiemeter is een onbekende)?
▪ → We zijn 95% zeker dat het percentage van alle 15-30 jarigen in
Vlaanderen die voorstander zijn van de herinvoering van de doodstraf
voor zware misdaden tussen 18.4% en 21.2% ligt.
, • Cf. les 5 – betrouwbaarheidsintervallen
▪ Gemiddelde lengte van alle mannen in Vlaanderen is 1.93m.
• Nulhypothese: gemiddelde in populatie = 1.93m
• Op basis van aantal berekeningen kunnen we dan nagaan of
die hypothese sterk afwijkt of niet met de gemiddelde lengte
gevonden in de steekproef.
• Cf. les 6: hypothesetoetsen
1.1.4. Variabelen: operationalisering & meetniveaus
• Variabelen: kenmerken die we meten of bevragen bij de onderzoekseenheden
• Variabelen zijn variabel, i.e. kunnen meerdere waarden hebben
o Cijfers
o Tekst (‘string’-variabelen in SPSS) → eventueel coderen
• Nood aan definiëring en operationalisering van concepten
o Leeftijd
o Geslacht
o Armoede
o Gezondheid
• Kwantitatief vs. Kwalitatief
o Kwantitatief of categorisch: waarden van de variabelen wijzen op
categorieën, zonder verdere wiskundige betekenis
o Kwantitatief of metrisch: waarden van de variabelen wijzen op wiskundige
betekenis
o
• 4 meetniveaus
o Nominaal: categorieën zonder ordening
o Ordinaal: categorieën met ordening
o Interval: wiskundige waarde, geen absoluut nulpunt
o Ratio: wiskundige waarde, wel absoluut nulpunt
o
• Kwantitatieve variabelen
o Discreet: (beperkt aantal) gehele getallen, resultaat van telling of classificatie
(vb. aantal auto’s per gezin, kan geen kommagetal zijn)
, o Continu: variabele kan alle waarden aannemen (vb. lichaamslengte, snelheid)
o
1.1.5. Frequentieverdelingen & grafische weergaven
• “… Make both calculations and graphs. Both sorts of output should be studied; each
will contribute to understanding.”
o F. J. Anscombe, 1973
1.1.6. Maten van centraliteit
• Eén getal dat de waarden van een variabele beschrijft aan de hand van een centrale
positie
• Modus → vanaf nominaal
• Mediaan / kwartiel / deciel / percentiel → vanaf ordinaal
• Gemiddelde → vanaf interval
1.1.7. Maten van spreiding
• Eén getal dat de spreiding van waarden van een variabele uitdrukt
• Variatiebreedte (range) → vanaf ordinaal
• Interkwartielafstand (interquartile range, IQR) → vanaf ordinaal
• Variatie (variation) / kwadratensom (sum of squares, SS) → vanaf interval
• Variantie (variance) → vanaf interval
• Standaardafwijking (standard deviation, std.dev, SD) → vanaf interval
1.1.8. Outliers
• Outliers zijn extreme (lage of hoge) waarden voor een kwantitatieve variabele die
statistische resultaten kunnen vertekenen
• Een outlier is niet noodzakelijk een inhoudelijke fout in de data, wel een cijfermatige
extremiteit
o Vb. leeftijd van 200 jaar
o Vb. netto maandelijks huishoudensinkomen van €20.000
• Verken variabelen daarom cijfermatig én visueel om outliers te detecteren
o Frequentietabel + grafiek (histogram / boxplot / scatterplot / …)
• Onderzoek de oorsprong van outliers alvorens in te grijpen
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller fbohets. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $6.85. You're not tied to anything after your purchase.