Samenvatting KOM (Kwantitatieve onderzoeksmethode)
Week 1. Gegevensverzameling
Steekproeven – waar wil je de data gaan verzamelen?
Je kan de hele populatie nemen (alle onderzoekseenheden), maar dat is lastig. Daarom zijn er
steekproeven. Dat is een klein deel van de populatie. Technieken voor steekproef zijn:
1. Op toevalbasis (aselect): representativiteit mag worden verondersteld, maar je moet dit wel
nog toetsen. Kanssteekproef.
2. Niet op toevalbasis: representativiteit mag niet worden verondersteld, niet-kanssteekproeven
Deel 1. Representativiteitstoets
Representativiteit = de mate waarin de steekproef op relevante kenmerken (zoals leeftijd, gender)
een goede afspiegeling vormt van de populatie. De toets geldt voor één variabele. Je gebruikt de T-
toets en vergelijkt het gemiddelde met wat je in je onderzoek vindt met de gegevens die je elders hebt.
Dit geldt alleen voor interval of ratio variabele.
Er zijn twee manieren om representativiteit te toetsen:
1. Beschrijvende manier. Statistische analyse is de frequentieverdeling. Minder krachtige manier
dan de toetsende analyse.
Acties in SPSS: vragen om een overzicht van de aantallen en percentages van de variabele.
Een verschil van meer dan 5% in grote steekproeven (> 400) is een indicatie dat er verschillen zijn in
de steekproef t.o.v. de populatie, oftewel dat de steekproef niet significant is voor de populatie.
2. Inferencial statistics = toetsende analyse
Interval/ratio variabele
Acties in SPSS: Analyze compare means one sample t-test. Vergelijking van twee groepen:
H0: twee groepen verschillen niet van elkaar (status quo).
Ha: groepen verschillen van elkaar
Categorische variabele
Acties in SPSS: Analyze non-paraetric tests legacy dialogs chi-square Variabele
invullen all cateogires equal (is het anders, dan vul je values in het blokjes)
SPSS laat een tabel met geobserveerde aantallen en verwachte aantallen (= wat je verwacht in het
databestand) zien. Je gaat het verschil bepalen van beide. Formule: geobserveerde frequentie (FO)
– verwachte frequentie (FE) = verschil. Basisgedachte: als de verhouding klein is, dan lijkt de
steekproef op de populatie. Hoe meer ze uitwijken, dan is er een groot verschil tussen steekproef en
populatie. Met een negatieve waarde kwadrateer je de getallen. Formule is: Fo – Fe / Fe. Je krijgt
dan de gi-kwadraat waarde.
Bij de tweede manier werken we met een alpha van .30. Bij een alpha van .05 wil je voorkomen dat je
een type 1 fout maakt = de H0 hypothese onterecht verwerpen. Dit is bij een standaardtoetsing aan de
hand.
Bij de representativiteittoets wil je juist niet te snel besluiten dat de verdeling in de steekproef bij
representativiteit overeenkomt bij de verdeling in de populatie. Hier wil je niet te snel H0 onterecht
accepteren. Het maken van een type 2 fout is belangrijk. Type 2 fout = beta. Dit weet je vaak niet.
Type 1 en 2 fout hangen met elkaar samen. Als je alpha naar beneden doet (van .05 naar .001). dan is
kans is groter dat je H0 onterecht zal accepteren. Alpha naar beneden stijging Beta. Daarom
verhogen we alpha naar .30 om een lagere Beta te krijgen.
Werkelijkheid
H0 is juist H0 is onjuist
Statistische conclusie Accepteer H0 Juiste conclusie Type 2 fout
1-alpha Kans B
H0 terecht accepteren H0 onterecht
accepteren
Accepteer H1 Type 1 fout, kans Power
alpha H0 onterecht 1-B
verwerpen H1 terecht accepteren
,Hoe rapporteer je de data?
Welke data is gebruikt?
Stap 1: definiëren hypothese
- H0: verdeling in steekproef is gelijk aan de verdeling in de populatie – steekproef is representatief
voor de populatie
- Ha: verdeling in de steekproef is niet gelijk aan de verdeling in de populatie – steekproef is niet
representatief voor de populatie.
Stap 2: Vermeld de alpha. Voor de representativiteitstoets is dat .30.
Stap 3: Noteer op een statische manier de gegevens: (x 2, (df, n = x), = GI-KWADRAAT, p = INVULLEN
P-WAARDE
Wat is je regel?
Stap 4: Gebruik de regel ‘’Je verwerpt H0 ten gunste van H1 indien p < alpha.
Toepassing
Stap 5: Benoem of jouw data voldoen aan de regel door een statistische conclusie te geven: H0
wel/niet verwerpen, want gevonden p-waarde is kleiner/groter dan alpha van .30. En daaropvolgend
een inhoudelijke conclusie: Steekproef is wel/niet representatief voor de populatie).
Deel 2. Missing value analyse
Na de afname van vragenlijsten moet je de data overzetten in SPSS. Tijdens het overzetten kunnen
fouten optreden. Deze fouten hoor je eenmaal in SPSS te herstellen. Data-cleaning = verkregen data
opschonen, controleren en goed weergeven in SPSS om daarna te beginnen met statistische
procedures. Je kijkt eerst of alle gegevens in de datamatrix klopt via:
Codes
Routings = andere vragen worden gesteld n.a.v. de antwoorden die je geeft.
Response set = automatische piloot antwoord of over elke vraag goed nadenken. Gaat ten
koste van de validiteit van het onderzoek. Is de response set laat, dan zou je een aantal
scores kunnen verwijderen of als missing opgeven.
Missings declareren
Hierna voer je een missing value analyse uit. Missing value analyse = kijken of ontbrekende scores op
variabelen samenhangen. Doe het volgende: frequentietabellen weergeven, missings declareren en
meta-data (in variabele view) bekijken.
Twee soorten problemen treden op
1. Lagere power bij veel system missing. Power = kans dat je een daadwerkelijk bestaand verschil,
correlatie, samenhang kunt terugvinden in je statistische toetsing. Power wordt gebruikt om te
bepalen hoeveel proefpersonen je nodig hebt bij een onderzoek. Power zit tussen de 0 en 1. Een
power van .80 volstaat (Field, p.84). Je verwacht een bepaald effect/relatie, d.m.v. de power geef
je aan hoe groot de kans is dat je dit daadwerkelijk zult vinden. Heeft wel te maken met de
steekproefomvang. Een te kleine steekproef levert weinig verschil of correlatie op.
2. Te veel selectiviteit. Enkel de mensen die willen antwoorden op de vraag, geven een antwoord.
Dat is een te selectieve groep. Vb: vrouwen geven liever geen antwoord op gewicht, mannen
liever niet over salaris.
Stappen van de missing value analyse
Stap 1. Type missing data vaststellen
Onderzoeken of de missing data niet negeerbaar is. Categorieën zijn:
- negeerbare missing values: non-response/steekproef, routings en censored data/ontwerp.
- niet negeerbare missing values: te verklaren missing processen en onverklaarbaar missing
processen. Oorzaken zijn een slechte vraagstelling, interviewer luistert niet, fouten in invoer.
Met de niet negeerbare missings data moet je als onderzoeker aan de slag.
Stap 2. Omvang van de missing data vaststellen
Acties in SPSS: analyze missing value analysis alle waarden variabelen in quantitative variables
en de kenmerken in de categorical variables patterns tabulated cases aanvinken uitvinken
, sort variables by missing pattern descriptives t-test, crosstabulations en probabilities, percentage
op 1% estimation optie EM OK
Je wilt zoveel mogelijk respondenten overhouden in je data-set. Je kijkt in de tabel ‘’univariate
statistics’’ naar het percentage van variabelen met missing data voor elke respondent en naar het
aantal respondenten met missing data voor elke variabele. Criterium: percentage missing data is
kleiner dan 10%, dan mag je het negeren en MCAR aanhouden.
Belangrijk element: randomness. De 10% is minder een probleem als de missing values op toevallige
basis over de dataset zijn verspreid, dan is het geen probleem. Als de missing values bij bepaalde
groepen horen (selectiviteit), dan is het niet randomness. Je moet wel kritisch blijven.
Stap 3. Nagaan of de missing data random zijn
Na vaststelling van stap 2, kijk je of de missing data random zijn. Twee vormen van random data zijn:
- MCAR = missing completely at random. De ontbrekende scores zijn willekeurig verdeeld over alle
respondenten en variabelen in de steekproef.
- MAR = missing at random. De ontbrekende scores op een variabele zijn afhankelijk van ontbrekende
waarden op een andere variabele: er is sprake van selectiviteit. MAR betekent dat er onderliggende
patronen aanwezig zijn tussen missing data en andere variabelen.
Het streven is naar MCAR. Als je minder dan 10% per variabele of respondent op toeval gebaseerd
hebt, dan ben je tevreden.
Acties in SPSS – om MCAR of MAR vast te stellen
MCAR: een algehele χ2-toets uitvoeren om te kijken of het MCAR is. Wanneer deze toets niet
significant is, dan hebben we te maken met MCAR
MAR: hierbij ga je voor elke variabele die je wilt onderzoeken verdelen in twee groepen. Een groep
met alle respondenten die een geldige score hebben en een groep met respondenten met een missing
op die variabele. SPSS draait een tabel uit met in de rijen de variabelen met de twee groepen en in de
kolommen de variabelen met in de cellen een aantal gegevens. Voor elke combinatie van variabelen
wordt een t-toets uitgevoerd. Hair et al. (2010) geven aan dat wanneer een t-toets significant is dit een
teken kan zijn voor MAR (let op: metrische data). De onderzoeker moet in de tabel zoeken naar
consistente patronen om aan te kunnen geven dat de data MAR zijn. Voor niet
metrische data kunnen kruistabellen worden bestudeerd om te zoeken naar patronen in missing data.
Of je te maken hebt met MCAR of MAR gebruik je de volgende informatie:
Is het aantal missing groter dan 10% (stap 2)
Is er een systematisch patroon te herkennen in de tabel (stap 3: MAR test)
Is de toets voor MCAR significant of niet (stap 3: MCAR test)
Voor categorievariabelen geldt de kruistabel om MCAR of MAR te bepalen. Criterium zijn:
1. Grote steekproeven (N > 400) geldt dat percentageverschillen van > 5% significant zijn.
2. Kleine steekproeven geldt dat percentageverschillen van > 10% significant zijn
Voor metrische variabelen geldt de T-test om MCAR of MAR te bepalen. Missing (nee, ja) op ene
variabele vergelijken met score op andere variabele. Criterium t > 2 wijst op mogelijke MAR. In de
tabel zie je de volgende onderdelen staan:
1. T-waarde
2. Df = degrees of freedom
3. P = significantie van t-waarde
4. Aantal cases voor #present en #missing
5. Gemiddelde kolomvar van #present en #missing
Overall toets voor MCAR: little MCAR test
H0: missing patronen wijken niet af van verwachte patronen voor MCAR (=0)
Ha: missing patronen wijken af van verwachte patronen voor MCAR
Stap 4. Subsitutiemethode kiezen en uitvoeren
Maak eerst onderscheid of er sprake is van MCAR of MAR.