TOEGEPASTE DATA-ANALYSE
HOOFDSTUK 2: HET ABC VAN DE STATISTIEK
1. INLEIDING
➢ Wereldwijde coronapandemie
Grootschalige veranderingen die onderzoeksinteresse opwekken
➢ Om vragen hieromtrent te beantwoorden, hebben we gegevens of kenmerken nodig over de
onderzoekspopulatie
Deze kenmerken variëren van persoon tot persoon = variabelen
1.1. ONDERZOEKSVRAGEN BEANTWOORDEN
➢ 3 stappen om een onderzoeksvraag te beantwoorden
1) Gegevens of kenmerken verzamelen over de onderzoekspopulatie = waarden verzamelen
van variabelen
2) De juiste descriptieve of inferentiële analysetechniek(en) kiezen
o Is afhankelijk van 3 bepalende factoren
1. Het aantal variabelen/wat is de variable
2. Het meetniveau van elke variabele
3. De rol van elke variabele in de onderzoeksvraag : afhankelijke, onafhankelijke
variabele, moderator,…
3) Statistische analyse(s) uitvoeren op de verzamelde gegevens
2. MEETNIVEAU VAN VARIABELEN
➢ Variabelen = kenmerken van een populatie waarin je als onderzoeker geïnteresseerd bent
Ze kunnen telkens variëren wanneer ze gemeten worden bij verschillende
onderzoekseenheden van die populatie of op verschillende tijdstippen en plaatsen
➢ Onderzoekseenheden komen voor in verschillende vormen
Respondenten : bv. De variabele ‘gender’ of ‘gewicht’
Producten of diensten zoals sociale media-apps: bv. Variabele ‘aantal actieve gebruikers’
Tijdsperiodes of ruimtes zoals gevangenissen: bv. Variabele ‘aantal vierkante meter
celruimte per gedetineerde’
➢ Operationaliseren van variabelen = concepten waarmee we gestart zijn, moeten we omzetten
naar meetbare variabelen
Hierbij beslis je hoe elk kenmerk gemeten zal worden en met welke waarden die
metingen gerepresenteerd zullen worden
Bv: leeftijd weten = naar geboortejaar vragen OF hun specifieke leeftijd vragen
Operationaliseren kan dus op verschillende manieren aangezien 1 concept op
verschillende manieren gemeten kan worden
Later meetniveau kun je niet naar een hoger maar van hoger wel naar lager
1
, 2.1. MEETNIVEAU VAN VARIABELEN
➢ De antwoorden op een vraag worden omgezet in een getal zodat die statistisch kunnen
verwerkt worden
Bv: Ik ben (0) man, (1) vrouw, (2) ander
➢ 4 meetniveaus, geordend van weinig naar meer informatief
Nominaal
Ordinaal
Interval
Ratio
➢ Hoe lager het meetniveau, hoe beperkter de mogelijkheden om de gegevens statistisch te
bewerken
CATEGORISCHE VARIABELEN
➢ Categorische variabele = indien de waarde van een variabele een bepaalde klasse of categorie
vertegenwoordigt (=kwalitatieve variabele)
Nominale variabelen = wanneer we voor een bepaalde variabele individuen of objecten
indelen in gelijkwaardige klassen of categorieën
o Getalwaarde = louter benoeming, geen functie of betekenis, = arbitrair
o Gelijkwaardige categorieën: de waarden van de nominale kenmerken kunnen
niet in logische volgorde worden gezet (bv: chinees restaurant), kunnen onderling
verwisseld worden
o Klassen zijn discreet: er komen geen tussenliggende waarden voor (bv: geslacht:
waarde 1.5 is niet mogelijk)
o Nominale variabelen met slechts twee categorieën = binaire variabele (bv. Type
klacht), vaak uitzonderingen
o Getal aan categorie is een label.
Ordinale variabelen = wanneer er in de verschillende categorieën van een categorische
variabele een bepaalde rangorde zit.
o Getalwaarde met bepaalde logische of natuurlijke rangorde
o Ordinale variabelen laten niet toe om een uitspraak te doen over ‘hoeveel meer
of beter’ (niet kwantificeren), alleen hoger of later
• Geen vaste meeteenheid (tussenwaardes)
• Bv: hotdogwedstrijd: degene op plaats 1 at meer dan degene op plaats 2,
maar je weet niet hoeveel meer
o Niet-gelijkwaardige categorieën
o Geen vaste meeteenheid dus geen rekenkundige bewerkingen erop uitvoeren
➢ Categorische variabelen = discrete variabelen
Mogelijke waarden = beperkt en liggen vooraf vast
2
,METRISCHE VARIABELEN
➢ Metrische variabele = wanneer de verschillende waarden van een variabele geen categorieën
maar een specifieke numerieke score vertegenwoordigen
Bv: lichaamslengte in centimeter (is in een logische volgorde gerangschikt)
➔ Zoals ordinale variabelen
MAAR is een metrische variabele:
1) Extra informatie dan rangschikking: lengte heeft een vaste meeteenheid
o Je kan hierdoor het exacte verschil berekenen tussen verschillende waarden van
respondenten
2) Tussenliggende waarden zijn mogelijk → continue variabelen
o Continuüm aan tussenliggende waardes
➢ Intervalvariabelen = metrische variabelen die geen nulpunt kennen
Het verschil tussen de waarden is betekenisvol
Oneindig veel mogelijke tussenliggende waarden
Geen absoluut nulpunt: het kenmerk 0 heeft niet de betekenis van niet bestaan, maar
bestaat enkel bij conventie
Verhoudingen tussen de waarden van een intervalvariabele zijn niet zinvol
Negatieve waarden kunnen ook voorkomen
➢ Ratiovariabelen
Hoogst mogelijke meetniveau
Hebben een absoluut nulpunt (bv: gewicht of salaris)
o Maakt verschil tussen het zijn en het niet zijn → een doos die 0 gram weegt,
bestaat niet
Verhoudingen tussen de waarden zijn zinvol (percentage alcohol in bloed: 3 promille is 3
keer zoveel als 1 promille)
➔ MAAR in onderzoekspraktijk is onderscheid interval vs ratio amper relevant
ABSTRACTE KENMERKEN CONCREET MAKEN
➢ Enkelvoudige vragen die een concept meten
Bv: werktevredenheid
➢ Nadelen van een enkelvoudige vraag:
1) Het concept is vaak te heterogeen om slechts door 1 vraag te dekken (want het heeft
vaak verschillende dimenties)
2) Toevalsinvloeden spelen een rol
o 1 vraag valt niet altijd op tussen de resem vragen in een enquête: afgeleid zijn,
slecht begrip, emotionele stemming,…
3
, ➢ Meervoudige vragen (meetschaal) laten toe om respondenten achteraf beter te
onderscheiden (meerdere vragen)
Via meetschalen zoals de Likertschaal een abstract concept meten:
o Minstens 3 concrete ordinale schaalitems, die eenzelfde abstract kenmerk zo
goed mogelijk vertegenwoordigen
o Elk ordinaal schaalitem: beantwoord obv geordende antwoordopties
(=puntenschaal): bv. 1 = niet akkoord, 2 = eerder niet akkoord, 3 = eerder wel
akkoord, 4 = wel akkoord (samen is het metrisch, van laag naar hoog)
o De waarden van de schaal zijn niet meer discreet, maar metrisch!! : bv. De score
varieert van 0 tot 10, met tussenliggende waarden
HIËRARCHIE VAN MEETNIVEAUS EN BELANG VAN DE JUISTE VRAAGSTELLING
➢ Duidelijke hiërarchie tussen de meetniveaus:
Hoe hoger gerangschikt, hoe meer bewerkingen of analyses een bepaald meetniveau
toelaat:
o Metrisch > ordinaal > nominaal
➢ MAAR elk meetniveau is altijd even nuttig/waardevol:
Bv. Pijnniveau na behandeling
Pijn metrisch meten > pijn nominaal meten (‘0 = Nee’, ‘1 = Ja’)
Maar daarnaast ook nominale variabele geslacht meten = extra informatie: pijnniveau
vergelijken tussen twee doelgroepen
➢ Metrische variabelen kan je achteraf ALTIJD categorisch maken
OMGEKEERD NIET → vraagstelling in survey belangrijk: hoger meetniveau = meer info
Bv: leeftijd: eerst metrisch gemeten (bv: 19 jaar)
= achteraf toewijzen aan een bredere maar minder informatierijke categorie
steeds mogelijk (bv. 18-24 jaar)
Bv: leeftijd: initieel ordinaal gemeten (bv. 18-24 jaar)
= onmogelijk om nadien te achterhalen wat iemands exacte leeftijd was, je blijft vast op
het ordinale niveau
4