Toetsing: meerkeuze tentamen: 100% van eindcijfer.
Doelstellingen cursus
- Basiselementen en procedures uit de beschrijvende en verklarende statistiek adequaat kunnen
toepassen, met behulp van SPSS (of Stata).
- Resultaten van statistische procedures adequaat kunnen interpreteren;
- Keuzes bij het uitvoeren van statistische procedures en de interpretatie van de resultaten
kunnen onderbouwen
- Zelfstanding bestuderen van Field
- Hoorcolleges: rode draad
- SPSS opdrachten: Statistische kennis toepassen op concrete vraagstukken
- Practica voor algemene bespreking, ondersteuning voor het maken van de opdrachten,
bespreken van de opdrachten/vragen.
µσ⍻⍺
College 1 - 27-01-2020
Gebruik en misbruik van statistiek
Wees altijd kritisch als je naar statistieken kijkt.
Vaak wordt er gebruik gemaakt van absolute getallen als bijvoorbeeld landen vergeleken worden.
Bij vergelijkingen moet er altijd gekeken worden naar relatieve getallen.
Hoe komt de onderzoeker aan de data.
Beschrijvende statistiek
De cijfers spreken nooit voor zich.
Initiële observatie > theorie > hypothese > dataverzameling > analyse > uitspraak (interference)
Conceptuele achtergronden
Onderzoeksvraag: Waarom is er in sommige landen en sommige gemeenten meer verzetting
tegen asielzoekerscentra (AZC) dan in andere?
Stap 1: Het identi ceren van je afhankelijke variabele: Hetgeen wat je wil verklaren > de mening
van mensen over migratie.
Stap 2: Bepalen van spreiding (variantie) in deze variabele > de spreiding is het aantal meningen.
Stap 3: Het identi ceren van de onafhankelijke variabele: Op zoek naar factoren die deze
spreiding kunnen verklaren > mate van geluk, angst voor misdaad etc.
Stap 4: Modellen opstellen die de spreiding kunnen wegnemen.
Beschrijvende statistiek: populatie
Verklarende statistiek: Vanuit de steekproef redeneren om verklarende uitspraken te doen over de
populatie.
Typen gegevens/data
Kwalitatieve gegevens (categorisch)
- nominaal meetniveau (geslacht, nationaliteit)
- Ordinaal meetniveau (opleidingsniveau)
Kwantitatieve gegevens (continue)
- Interval meetniveau (IQ, temperatuur)
µσ⍻⍺ 1
fi
,- Ratio meetniveau (inkomen, leeftijd)
Met kwantitatieve/continue gegevens kan je meer, dit kan beter worden gemeten omdat er een
afstand zit tussen de categorieën, je kan het scoren.
Hoe je een vraag scoort is van invloed op de meetgegevens.
Vergelijk:
- Bent u voor de komst van migranten naar Nederland?
- Stelling: De komst van migranten is goed voor Nederland.
(zeer mee oneens, mee oneens, noch eens noch oneens, mee eens, zeer mee eens).
Immigrants make country worse or better place to live? (ESS)
(op een schaal van 0 tot 10)
Leveren deze drie vragen dezelfde resultaten op? NEE
Welk van deze drie vragen levert de beste resultaten op? Dat is afhankelijk van de onderzoeker, en
wat de onderzoeker wil onderzoeken. Het is niet per se hoe breder of genuanceerde hoe beter de
vraag is.
Eigenschappen data
Centrale tendentie: Gemiddelde, mediaan, modus
Spreiding: Bereik, kwartiel afstand, variantie, standaarddeviatie
Vorm: Scheefheid, spitsheid
Centrale tendentie
Maat Populatie Steekproef Type data
Modus Mode Mode N/O/I/R
Mediaan M Mode O/I/R
Gemiddelde µ X I/R
Modus: de waarde met de grootste frequentie
Mediaan: het middelste getal
Gemiddelde: som van alle frequentie gedeeld door totaal aantal frequentie
µσ⍻⍺ 2
,Variantie
Bij nominale data
kan je niet spreken van spreiding. De spreiding is de afstand tussen scores, er moet dan wel
sprake zijn van scores.
Bereik (range): Wat is de spreiding van scores over de hele steekproef van de laagste tot de
hoogste, als de laagste score 1 is en de hoogste 250 is dan is het bereik 249. Stel dat er maar 1
persoon is met een score van 300, trekt hij het hele bereik omhoog, dit is erg gevoelig voor
extreme waarden. Om dit tegen te gaan is de interkwartiel range.
Interkwartiel range: Maat voor spreiding in de middelste 50% van de waarnemingen (rond de
mediaan). Data wordt verdeeld in 4 kwarten. Interkwartiel range = Q3 - Q1. Q2 is de mediaan, de
middelste waarde. De interkwartiel range kom je tegen in bosplots, dit zijn gra sche weergeven
van de interkwartiel range.
Variantie: de mate waarin de waarden onderling verschillen, hoe groter de variantie, hoe meer de
afzonderlijke waarden van elkaar verschillen, en dus hoe meer de waarden van het gemiddelde
afwijken. Deze meet je door het gemiddelde van het kwadraat van de afwijkingen.
Standaarddeviatie: maat voor de spreiding -de mate waarin de waarden onderling verschillen- van
een variabele of van een verdeling of populatie. De standaardafwijking is gede neerd als de
worden uit de variantie.
Standaarddeviatie
µσ⍻⍺ 3
fi
, Formules
Bij een steekproef: N-1 correctie omdat je te maken hebt met onzekerheid bij steekproeven.
Voor alle normaal verdeelde datasets is het zo dat we weten dat
- 68% van de waardes zich bevindt binnen 1 standaarddeviatie van het gemiddelde (µ - 1σ / µ +
1σ).
- 95% van alle waarden bevindt zich binnen 2 standaarddeviaties van het gemiddelde (µ - 2σ / µ
+ 2σ).
- 99,7% bevindt zich binnen 3 standaarddeviaties van het gemiddelde (µ - 3σ / µ + 3σ).
Variabele: aantal Facebook vrienden (µ = 193, σ = 80)
Ervan uitgaande dat we hier met een normale verdeling te maken hebben kunnen we stellen dat
- 68% van de scholieren tussen de 113 en 273 vrienden heeft (µ - 1σ / µ + 1σ)
- 95% van de scholieren tussen de 33 en 353 vrienden heeft (µ - 2σ / µ + 2σ)
- Waarden onder de 33 en boven de 353 erg uitzonderlijk zijn.
Variabele: aantal likes (µ = 137,5, σ = 61,35)
Onze respondent heeft 315 likes. Vraag: Hoe uitzonderlijk is deze waarde?
- Hoeveel standaarddeviaties bevindt deze waarde zich van het gemiddelde? Hoe hoger de
waarde, hoe uitzonderlijker deze is.
Z = (315-137,5) / 61,35 = 2,893
Afstand tussen aantal likes en gemiddelde en deelt door de standaarddeviatie, wat je krijgt is een
gestandaardiseerde afstand. De waarde (315) bevindt zich 2,89 standaarddeviaties van het
gemiddelde: vrij uitzonderlijk.
Vorm: scheefheid
Maat = Scheefheid (skewness)
De twee belangrijkste gevolgen zijn:
- gemiddelde wordt meegetrokken naar een bepaalde richting door extreme waarden.
- Spreidingsmate in sterke mate beïnvloed door extreme waarden.
µσ⍻⍺ 4