Samenvatting Statistiek
Week I: Beschrijvende statistiek
Statistiek: de methodiek en de techniek van het verzamelen, bewerken, interpreteren en
presenteren van gegevens. Dit kent drie vormen: beschrijvend (een steekproef van
onderzoekseenheden beschrijven), verklarend (verbanden tussen variabelen onderzoeken) en
inferentie.
Inferentie: generaliseren; een uitspraak doen over een populatie op basis van een steekproef
van diezelfde populatie.
Het doel van beschrijvende statistiek is om structuur te geven aan ruwe gegevens om daarme
trends of patronen te zien. Dit kan via een tweetal groepen manieren:
i. Centrale tendentie, die de meest kenmerkende of waarschijnlijke score weergeeft:
- Modus (en: mode), het meest voorkomende getal;
- Mediaan (en: median), het middelste getal van de rangorde;
- Gemiddelde (en: mean).
ii. Spreiding, die de mate van variatie binnen een groep weergeeft:
- Variantie;
- Bereik;
- Frequentie.
Er zijn meerdere meetniveaus:
i. Interval meetniveau, waarbij er intervallen zijn tussen getallen op een numerieke
schaal én deze intervallen zijn gelijk van grootte. Dit meetniveau kent zowel een
gemiddelde, mediaan als modus.
Voorbeeld: lengte; één tot tien schaal.
ii. Ordinale meetniveau, wat een rangorde kent, maar waarbij het verschil tussen
iedere trede niet gelijk is. Kent géén gemiddelde, maar wel een mediaan en een
modus.
Voorbeeld: a) één keer, b) ten minste een paar keer en c) ten minste tienmaal.
iii. Nominale meetniveau, stelt vast tot welke categorie van variabele een bepaalde
observatie behoort en is kwalitatief van aard. Kent alleen een modus.
Voorbeeld: welke religie; man of vrouw.
1
,Bereik: het verschil tussen de hoogste en de laagste score.
Variantie: formule die de variabiliteit rond het gemiddelde laat zien. De standaarddeviatie
is de wortel van de variantie, die de spreiding rond het gemiddelde weergeeft. Hieronder staan
de formules weergegeven:
N = het aantal observaties;
Σ = sigma; de som van alle waarden.
2
, Week II: Samenhang
Bij de analyse van samenhang moet er eerst bepaald worden of er één of twee variabelen in de kwestie
spelen. Bij een univariate analyse is dat één variabele (vb: ‘Hoeveel jongeren stemmen op D66?’).
Bij een bivariate analyse zijn dat twee variabelen (vb: ‘Stemmen jongeren vaker op D66 dan
ouderen?’).
Er moet een onderscheid gemaakt worden tussen samenhang (ofwel correlatie op interval-ratio
niveau; de associatie tussen twee variabelen) en een causaal verband: een oorzakelijk verband tussen
twee variabelen. Er is sprake van een causaal verband als:
- Verdeling van een variabele veranderts als de categorie of score van de andere
variabele verandert, én:
- X voorafgaat aan Y in de tijd;
- Er een logische reden is waarom X invloed heeft op Y;
- Er geen andere variabelen zijn die de associatie tussen X en Y verklaren.
Hierbij vormt het eerste criterium tevens het enige criterium voor een associatie.
Associatiematen: geven de sterkte en indien van toepassing, de richting of het patroon, aan van een
bivariate samenhang. Ze tonen op zichzelf niet aan dat een causaal verband bestaat, maar kunnen wel
als bewijs voor iets dergelijks worden gebruikt. Dit komt omdat ze niet aan geven of de geobserveerde
verschillen waarschijnlijk zijn of het gevolg van toeval.
Voor het meten van associatie zijn er drie stappen.
i. Bestaat er een verband tussen twee variabelen;
ii. Indien ja, wat is de richting van dit verband (positief/negatief);
iii. Hoe sterk is het verband?
a. Interval meting, gebruik van Pearson’s r.
b. Ordinale meting, gebruik van Spearman’s rho.
c. Nominale meting, gebruik van Lambda.
3