BESCHRIJVENDE
EN INFERENTIËLE
STATISTIEK
,👨🏫 MODULE 0 — INTRODUCTIE
0.1.1 — INLEIDING, WAAR GAAT DEZE CURSUS OVER?
Wat is statistiek? = het verzamelen en analyseren van gegevens (oftewel, data). Het ultieme doel is om kennis
te vergaren over de wereld om ons heen.
In dit vak wordt zowel aandacht besteed aan:
‣ beschrijvende statistiek => hoe zien gegevens/data eruit?
‣ inferentiële statistiek => een stapje verder, het doen van uitspraken en voorspellingen over de hele
populatie op basis van een steekproef.
=> verkiezingspeilingen zijn goede voorbeelden van beide: op basis van een selecte groep Nederlanders
wordt een voorspelling gedaan.
=> column van Ben Tiggelaar die beschrijft dat managers een negatieve houding hebben tegenover oudere
werknemers, omdat ze meer ziek zijn etc.
Voorbeeld van beschrijvende statistiek: uit een steekproef van 50 jongeren en ouderen bij een bepaald bedrijf
blijkt dat er weinig verschil zit in het aantal dagen dat ze ziek zijn per jaar.
=> Inferentiële statistiek zou zich afvragen wat deze steekproef zou betekenen voor alle jongeren en ouderen
en hun ziekteverzuim binnen het bedrijf.
=> Inferentiële statistiek zou ook kunnen onderzoeken of er nog een verstorende variabele is: bijvoorbeeld
soort contract. De simpelste manier is om de groep op te splitsen in het soort contracten. To infer = in het
Engels: concluderen uit
0.1.2 — OPZET EN ORGANISATIE VAN DE CURSUS
De cursus bestaat uit veertien modules, veertien verschillende onderwerpen en kennisclips.
1 t/m 4 gaan over beschrijvende statistiek,
5 t/m 10 over inferentiële statistiek en
10 t/m 14 over regressie-analyse.
Door middel van literatuur en kennisclips. De “extra”-kennisclips zijn wel leerzaam, maar geen tentamenstof.
=> OEFENEN! Zelf vragen maken en opgaven maken is heel belangrijk. Wekelijkse oefenopgaven in
TestVision, drie SPSS opdrachten en de vragen in het boek! Bij vragen is het canvas-discussieforum heel
handig, waarbij je ook bij jezelf kunt nagaan of je het aan een ander kunt uitleggen.
Wekelijkse oefencolleges via ZOOM = woensdag om 15:30 uur, een aantal opgaven samen maken.
Drie SPSS colleges via ZOOM = donderdag 11 feb, 25 feb en 11 maart om 15:30 uur.
Toetsing = twee deeltoetsen en één tentamen:
Elke toets bestaat uit twee delen:
1. Reken- en theorievragen = vergelijkbaar met de oefenopgaven op testvision/boek
2. SPSS-vragen = vergelijkbaar met een SPSS opdracht
,BESCHRIJVENDE EN INFERENTIËLE STATISTIEK SAMENVATTING STUVIA — ERIK SJOERS
Je mag de online rekenmachine en een online formuleblad gebruiken! Het pdf staat op Canvas over formules,
want die hoef je niet uit je hoofd te leren maar slechts te begrijpen.
0.2.1 — STATISTISCHE CONCEPTEN
Variabelen = kenmerken van iets of iemand. Elk kenmerk van een case kan een variabele worden genoemd,
zolang het maar varieert!
Cases = zijn die iets of iemand
Constante = kenmerken van cases die niet variëren
Er zijn verschillende soorten meetniveaus:
- Categoriale variabelen:
- Nominaal => verschillende variërende categorieën, maar geen rangorde! => nationaliteit
- Ordinaal => verschillende variërende categorieën, wel een rangorde! => de stand in een
voetbalcompetitie. Maar je weet niet hoeveel beter de ene was.
- Kwantitatieve variabelen:
- Interval => verschillende variërende nummers, rangorde en dezelfde intervallen => leeftijd van een
speler
- Ratio => verschillende variërende nummers, rangorde en dezelfde intervallen maar met een nulpunt
met betekenis (bij een speler van 0 cm, is er geen speler. Bij een leeftijd van 0 jaar, is er wel iemand )
bijvoorbeeld de lengte van een speler
Kwantitatieve variabelen kunnen ook worden onderscheiden in discrete en continue variabelen:
=> een variabele is discreet als het mogelijk is dat categorieën een set aparte nummers vormen: bijvoorbeeld
het aantal doelpunten; het is mogelijk om 1 of 2 doelpunten te scoren, maar niet 1,41.
=> een variabele is continue als het mogelijk is dat de waarden een interval vormen: de lengte van een speler:
zowel 170 cm kan als 174,21936 cm kan.
Variatie Rangorde Dezelfde Nulpunt met
intervallen betekenis
Categoriaal Nominaal + - - -
Ordinaal + + - -
Kwantitatief Interval + + + -
Ratio + + + +
👨🏫 MODULE 1 — BESCHRIJVENDE STATISTIEKEN
1.1 — DATA BESCHRIJVEN
Hoe kun je je variabelen en cases ordenen?
‣ Datamatrix => het kernelement van elke statistische studie, een overzicht van alle variabelen gemengd
met de cases. Deze menging heten observaties: de statistieken die je krijgt als je voor elke case de variabele
3
, BESCHRIJVENDE EN INFERENTIËLE STATISTIEK SAMENVATTING STUVIA — ERIK SJOERS
toepast.
Maar de datamatrix is te groot om te delen met het publiek en ook zijn de tendensen niet zichtbaar.
Daarom worden er samenvattingen aangeboden die de grote hoeveelheid nominale data verdelen in
behapbare stukjes:
‣ Frequentietabel => een lijst met alle mogelijke variabelen, gecombineerd met de geobserveerde
frequenties. Ook kun je de percentages weergeven door de geobserveerde frequentie te delen door het
totaal en te vermenigvuldigen met 100. Cumulatieve percentages zijn dezelfde percentages maar dan bij
elkaar opgeteld.
Maar wat als je te maken hebt met kwantitatieve variabelen? => dat zou op deze manier veel te
gedetailleerd zijn. Wetenschappers bouwen dan nieuwe ordinale categorieën, dat heet hercoderen.
‣ Grafiek => illustratief weergeven van data
‣ Cirkeldiagram => de oppervlakte van de stukken representeren de grootte van de data.
‣ Een voordeel is dat je direct schattingen kunt maken van de relatieve grootte (ongeveer 50% als
hij voor de helft is gevuld).
‣ Staafdiagram => de hoogte van de staaf representeren de grootte van de data
‣ Een voordeel is dat je het absolute aantal direct kunt aflezen aan de hoogte van de staaf.
‣ Een staafdiagram kies je over de cirkeldiagram als het aantal categorieën heel groot is.
Het inzichtelijk maken van kwantitatieve data kan op de volgende manieren:
‣ Puntplot => een horizontale lijn met gelijke intervallen, waar je per data een punt boven de juiste waarde
plaatst. Dit kan goed als je een kleine observatie hebt: anders gebruik je:
‣ Histogram => een staafdiagram voor onderzoeken met grote observaties, alleen raken de staven elkaar
aan. Dat komt doordat deze een continue schaal representeren. Er worden intervallen gemaakt (omdat er
zoveel dat is) die allemaal dezelfde wijdtes hebben.
‣ Meestal heeft een histogram een bel-vorm, een normaalverdeling. Maar deze kan ook naar links of
naar rechts verdeeld zijn (skewed to the right betekent dat op rechts een langere staart is).
Bijvoorbeeld bij het inkomen van voetballers in de Spaanse league: er is een aantal dat veel meer
verdient. Ook kan een histogram twee toppen hebben: bimodaal. Eén top betekent unimodaal.
1.2 — MATEN VAN CENTRALITEIT
Het samenvatten van de verdeling van data kan door de vorm, maar ook door het middelpunt. Daarvoor kun
je drie verschillende manieren gebruiken. De maten van centrale tendens:
- Modus — de waarde die het meeste voorkomt.
Deze wordt vaak gebruikt op nominaal of ordinaal niveau. Dit is ook de reden waarom een cirkeldiagram
en staafdiagram zo vaak worden gebruikt: de grootste is de modus. Let op dat de modus de variabele is,
niet de absolute of relatieve waarde die daaraan vast hangt.
Er kan ook meer dan één modus zijn: bijvoorbeeld bij een steekproef op een Likert-schaal, daar kunnen
mensen het heel erg eens of oneens zijn. Vandaar heet een histogram met twee toppen ook bimodaal;
twee modi.
- Mediaan — de middelste waarde van je observaties wanneer ze op grootte gerangschikt zijn.
Als er een even aantal cases is, wordt het gemiddelde van de twee middelste waarden genomen. Hierbij zit
50% onder de mediaan en 50% erboven.
- Gemiddelde — de som van alle waarden gedeeld door het aantal observaties.
Alle waarden bij elkaar gedeeld door het aantal observaties is het gemiddelde.
Wanneer moet je welke maat van centrale tendens gebruiken? —> dat ligt eraan wat
het meetniveau is van je variabele.
- Nominaal => alleen de modus is mogelijk. Logisch, want bij bijvoorbeeld nationaliteit kun je alleen bepalen
wat de meest-voorkomende is, omdat er geen rangorde in zit kan de mediaan niet en de gemiddelde is
ook niet uit te rekenen.
- Kwantitatief => voornamelijk de mediaan en het gemiddelde.
4