BESCHRIJVENDE STATISTIEK
2021-2022
HOORCOLLEGE 1
Statistiek is een hulpmiddel om gegevens te kunnen ordenen, om een grote hoeveelheid aan informatie
te rangschikken, te verzamelen en toegankelijk te maken. Met dit hulpmiddel kan je een onderzoeksvraag
beantwoorden. Zo kan op wetenschappelijke wijze conclusies worden getrokken: aantonen op basis van
empirische gegevens met een empirisch waargenomen resultaat.
Dus: statistiek is het verzamelen, classificeren, samenvatten, organiseren, analyseren en
interpreteren van numerieke gegevens.
Beschrijvende versus toetsende statistiek
Er wordt onderscheid gemaakt tussen beschrijvende en toetsende statistiek. Het verschil tussen die twee
gaat over de vraag over welke groep je uitspraken wilt doen. Meestal ben je geïnteresseerd in uitspraken
over de gehele bevolking. Dit zijn echter teveel personen om allemaal te ondervragen. Daarom worden er
steekproeven getrokken. Deze steekproef moet representatief zijn. Beschrijvende statistiek is het
beschrijven van die kleinere onderzoekseenheid. Met behulp van de steekproefgegevens kan je met
toetsende statistiek uitspraken doen over de gehele populatie. De toetsende statistiek kan dus eigenlijk
niet zonder beschrijvende statistiek.
Gegevens in de statistiek
Er zijn een aantal manieren om gegevens te verzamelen, namelijk:
Grootschalig veldonderzoek / survey
Experiment
Observatie
Secundaire databronnen
Onderzoekseenheden: over welke eenheid wil je uitspraken doen?
Individuen, huishoudens, dorpen, journalitems
Variabelen: eigenschappen van onderzoekseenheden
Geslacht, leeftijd, bruto inkomen, samenstelling huishoudens, aantal inwoners, voorzieningen
Waarden: scores die de onderzoekseenheid kan halen op de variabelen
Man/vrouw, 0-100, traditioneel gezin/etc.
Naast geldige waarden, zijn er ook ontbrekende waarden (bijvoorbeeld omdat de respondent het niet
wou beantwoorden). Dit heeft gevolgen voor je datamatrix. Met codes in SPSS wordt zo’n missende
waarde aangegeven, bijvoorbeeld met de waarde 999. Voor statische analyse is het belangrijk
onderscheid te maken tussen deze twee waardes om te voorkomen dat deze waarde als geldige waarde
wordt meegenomen. In SPSS is elke regel een onderzoekseenheid. De variabelen staan in de kolommen.
In de cellen staan de waarden. Dit maakt het geheel van een datamatrix. Er is een data en variabele view.
Meetniveaus
Er zijn numerieke en tekstvariabelen. In de statistiek kan je eigenlijk alleen wat met numerieke variabelen
(getallen). Toch zijn er in veel datasets ook veel alfanumerieke variabelen. Deze kunnen echter om
gecodeerd worden in numerieke variabelen. Deze variabelen hebben allemaal verschillende meetniveaus.
Dit is belangrijk om te weten, aangezien het gevolgen heeft op welke analyses je wel en niet kan
uitvoeren. Het meetniveau wordt bepaald door de kenmerken van een variabele. Er zijn vier meetniveaus:
1. Nominaal
- Kwalitatief
- Categorieën
- Geen rangorde
- VB: man en vrouw (dichotome variabele), burgerlijke staat, geloof, etniciteit
1
, 2. Ordinaal
- Kwalitatief
- Categorieën
- Wel rangorde
- VB: vwo, havo, mavo
3. Interval
- Kwantitatief
- Categorieën
- Ordening
- Betekenisvolle verschillen (interval is telkens even groot)
- VB: graden Celsius
4. Ratio
- Kwantitatief
- Categorieën
- Ordening
- Betekenisvolle verschillen
- Absoluut nulpunt
- VB: Leeftijd, aantal minuten televisie kijken
* Een missende waarde verstoort de rangorde en daarmee maakt het de variabele direct nominaal. Stel
echter dat SPSS deze categorie als missing is gedefinieerd, dan mag je de missing buiten beschouwing
laten en is het dus bijvoorbeeld alsnog ordinaal.
* Strikt genomen zijn antwoordmogelijkheden als ‘helemaal eens, eens, niet eens, helemaal niet eens’
ordinaal, maar soms worden ze beschouwd als quasi-interval, want dat biedt meer mogelijkheden voor
analyses
Analyses
Univariate analyse is het beschrijven van één enkele variabele.
Bivariate analyse beschrijft de samenhang/relatie tussen twee variabelen.
Multivariate analyse beschrijft samenhang/relatie tussen meer dan twee variabelen
Kwalitatieve variabele NO Kwantitatieve variabele IR
Grafisch Staafdiagram/stacked bar Histogram
Taartdiagram Stamdiagram
Boxplot Boxplot
Numeriek Frequentietabel Frequentietabel
Centrum- en spreidingsmaten Centrum- en spreidingsmaten
*Voor uitleg over die grafische analysemodellen moet je in het gele boekje kijken (blz. 23)
HOORCOLLEGE 2
Voor zowel kwalitatieve als kwantitatieve variabelen kun je een frequentietabel en centrum- en
spreidingsmaten gebruiken. De centrum- en spreidingsmaten verschillen wel per het meetniveau van de
variabele.
Frequentietabellen
Bij een nominale en ordinale variabele bestaat de frequentietabel uit een opsomming van alle categorieën
en de bijbehorende frequenties. Bij een frequentietabel met kwantitatieve variabelen is de opsomming
van de categorieën met hun frequenties te zien, maar ook veel andere informatie in het geval van veel
antwoordcategorieën. Dat maakt het minder overzichtelijk.
De eerste kolom geeft de absolute frequentie aan. De tweede kolom het relatieve percentage. De derde
kolom de valid percent. Hierbij worden alleen de geldige scores op 100 gesteld en de missings worden
2