S13131-Onderzoekspracticum Kwantitatieve Data-analyse (OKD)
Inhoudsopgave
1. Frequenties, relatief en cumulatief ............................................................................................................. 3
2. Centrum- en spreidingsmaten..................................................................................................................... 4
3. Formuleren van hypothesen: waarom en hoe? ........................................................................................... 6
4. Populatie en steekproef .............................................................................................................................. 7
5. Vergelijken van twee gemiddelden: de t-toets ............................................................................................ 8
6. Overschrijdingskans en onderscheidingsvermogen van de t‐toets ..............................................................10
7. Vergelijken van twee gemiddelden: de t-toets met SPSS ............................................................................15
8. Betrouwbaarheidsinterval .........................................................................................................................16
9. Vergelijkbaarheid van groepen ..................................................................................................................19
10. Vergelijken van meer dan twee gemiddelden: ANOVA .............................................................................20
11. Vergelijken van meer dan twee gemiddelden: ANOVA met SPSS ..............................................................25
12. Overzicht van getoetste hypothesen en onderzoeksvragen......................................................................26
13. Variabelen hercoderen met SPSS .............................................................................................................26
14. Nieuwe variabelen creëren met SPSS .......................................................................................................27
15. Groepen selecteren met SPSS ..................................................................................................................27
16. Kennismaking met de SPSS Syntax Editor .................................................................................................28
17. Formuleren van hypothesen over samenhang en voorspellen van variabelen ..........................................31
18. Verslaglegging van onderzoek ..................................................................................................................32
19. Samenhang tussen twee variabelen: correlatieanalyse ............................................................................34
20. Samenhang tussen twee variabelen: correlatieanalyse met SPSS .............................................................38
21. Het verklaren van een variabele: regressieanalyse ...................................................................................39
22. Het verklaren van een variabele: regressieanalyse met SPSS ....................................................................44
Voorbeeldcase: 1. casebeschrijving ...............................................................................................................46
Voorbeeldcase: 2. theoretisch kader en conceptueel model ..........................................................................48
Voorbeeldcase: 3. methoden van onderzoek .................................................................................................51
Voorbeeldcase: 4. data-analyse .....................................................................................................................53
Voorbeeldcase: 5. toetsen centrale hypothese: ANOVA, η2, regressie ...........................................................58
Voorbeeldcase: 6. toetsen overige hypotheses: t-toets, correlatie .................................................................62
Voorbeeldcase: 7. conclusies .........................................................................................................................64
___________________________________________________________________________________
S13131-Kwantitatieve data-analyse| versie 1.5 - oktober 2015 | door Jasper Verkroost 1
,Woordenlijst
95% betrouwbaarheidsinterval, 16 histogram, 3 significantie van een verband, 36
afhankelijke variabelen, 8 hypothese, 6 significantieniveau, 8, 14
alternatieve hypothese, 6 intervalschatting, 16 significantietoetsing, 36
American Psychological kurtosis, 5 skewness, 5
Association, 32 Levene's test, 15 spitsheid, 5
ANOVA, 20 lineaire regressieanalyse, 43 spreiding, 8
aselecte steekproef, 7 McNemar-toets, 9 spreiding van waarden, 16
aselecte steekproeftrekking, 19 mediaan, 4 spreidingsmaten, 4
berekening van Pearson's r, 35 meetinstrumenten, 32 SPSS
beste regressielijn, 41 methode van onderzoek, 32 Compute, 27
betrouwbaarheidsinterval, 16, 17 modus, 4 Recode, 26
between groups sum of squares, multimodale verdeling, 4 Select Cases, 27
23 non-respons, 7 Split File, 27
between groups variance, 20 normale verdeling, 5 SPSS Syntax Editor, 28
bimodale verdeling, 4 nulhypothese, 6 staafdiagram, 3
Bonferroni, 25 omnibus-variantieanalyse, 21 standaardafwijking, 4
cirkeldiagram, 3 onafhankelijke variabelen, 8 standaardfout, 14, 17
Cohens d, 12 onderscheidingsvermogen, 11, 12 Standard Error (SE), 10
confidence interval, 16 onderzoeksgroep, 32 statistische hypothese, 6
continue variabelen, 4 onderzoekshypothese, 6 statistische power post-
correlatie, 38 onderzoeksvariabele, 19 hoctoetsen, 25
correlatieanalyse, 31 onderzoeksvraag, 26 steekproef, 7, 8
criteriumvariabele, 39 One-Way ANOVA, 25 steekproefgrootte, 16
cumulatieve percentage, 3 ongerichte hypothese, 6, 17 steekproefomvang, 12
discrete variabelen, 4 outlier, 36 sterke en richting van een lineair
discussie, 33 Pearson's correlatiecoëfficient, 34 verband, 34
eenzijdige toets, 9 percentage, 3 t-toets, 8
effectgrootte, 12 populatie, 7 t-toets voor onafhankelijke
enkelvoudige regressie, 43 post-hoctoetsen, 21 groepen, 15
enkelvoudige regressieanalyse, 39 power, 11 Tukey, 25
foutieve beslissingen, 11 predictorvariabele, 39 tweezijdige toets, 9
frequentie, 3 procedure, 32 type I fout, 11, 12
frequentietabel, 3 proportie verklaarde variantie, 42 type II fout, 11, 12
frequentieverdeling, 3 puntschatting, 16 unbiased estimate, 4
F-waarde, 21 regressieanalyse, 31, 39, 44 valide percentage, 3
Games-Howell, 25 regressievergelijking, 39 variantie, 4
gemiddelde, 4 relatieve frequentie, 3 variantieanalyse, 20
generalisatie, 7 repeated measure analyse, 24 variatiebreedte, 4
gepaarde t-toets, 9, 15 resultaten data-analyse, 32 vergelijken van gemiddelden, 44
gepoolde standaardfout, 10 samenhang, 31 vergelijken van groepen, 19
gerichte hypothese, 6, 17 schaalscore, 29 verschilscores, 10
gestandaardiseerde scheefheid, 5 vormmaten, 5
regressiecoëfficiënten, 45 selecte steekproef, 7 vrijheidsgraden, 8, 10
gestratificeerde steekproef, 7 Sign toets, 9 Wilcoxon rangtekentoets, 9
gewenste betrouwbaarheid, 16 significantie, 11 within groups sum of squares, 23
GPower, 12 significantie controleren, 17 within groups variance, 21
___________________________________________________________________________________
S13131-Kwantitatieve data-analyse| versie 1.5 - oktober 2015 | door Jasper Verkroost 2
, 1. Frequenties, relatief en cumulatief
frequentie
- frequentie: het aantal keren dat een antwoordcategorie voorkomt
- frequentieverdeling: het geheel van alle categorieën en hun frequenties; kunnen gemaakt worden
voor alle variabelen
- frequentietabel: tabel waarin een frequentieverdeling kan worden weergegeven
- relatieve frequentie: frequentie van een antwoordcategorie gedeeld door de totale frequentie
percentages
- percentage: algemene benaming voor de term relatieve frequentie
- valide percentage: het aantal niet ontbrekende antwoorden gedeeld door het totale aantal
- cumulatieve percentage: het gesommeerde percentage van alle antwoordcategorieën tot aan de
desbetreffende antwoordcategorie
grafieken
- staafdiagram: grafische weergave van frequentieverdeling; op de horizontale as worden de
verschillende antwoordcategorieën weergegeven, op de verticale de aantallen van de verschillende
antwoordcategorieën; voor iedere categorie wordt de frequentie door een staaf afgebeeld
- cirkeldiagram: wordt gebruikt om relatieve omvang van de categorieën in een frequentieverdeling
weer te geven; is een soort taart, waarvan elke taartpunt (segment) het deel weergeeft dat een
bepaalde verschilscore heeft
- histogram: grafische weergave van een frequentieverdeling van scores die gegroepeerd zijn; op de
horizontale as staan geclassificeerde antwoordcategorieën, op de verticale as de verdeling over de
verschillende geclassificeerde antwoordcategorieën; voor iedere klasse wordt de frequentie in de
data door een balk afgebeeld, die de breedte heeft van de klasse en de hoogte van de frequentie
___________________________________________________________________________________
S13131-Kwantitatieve data-analyse| versie 1.5 - oktober 2015 | door Jasper Verkroost 3
, 2. Centrum- en spreidingsmaten
meetniveaus
meetniveau aantal ordening vaste vast nulpunt voorbeeld
waarden meeteenheid
kwalitatief dichotoom twee nee nee nee geslacht
nominaal onbeperkt nee nee nee oogkleur
ordinaal onbeperkt ja nee nee opleiding
kwantitatief interval onbeperkt ja ja nee temperatuur
ratio onbeperkt ja ja ja lengte
discrete, continue variabelen
- discrete: variabele is gemeten in bepaalde afzonderlijke getallen; gehele getallen (bv. gezinsgrootte)
- continue: kan iedere waarde aannemen, ook breuken en decimalen; meestal is er een onder- en/of
bovengrens (bv. tijd op een videoband)
centrummaten
- modus: de waarde die het meeste voorkomt; bimodale verdeling: heeft twee modussen;
multimodale verdeling: heeft meer dan twee modussen
- mediaan: wanneer alle waarden van laag naar hoog worden geordend is de middelste waarde de
mediaan; bij een even aantal waarden ligt de mediaan tussen de middelste twee
- gemiddelde: de som van alle waarden gedeeld door het aantal onderzoekseenheden; nadeel:
uitschieters naar hoge of lage waarden kunnen een grote invloed hebben
meetniveau
centrummaat dichotoom nominaal ordinaal interval ratio
modus nee ja ja ja ja
mediaan nee nee ja ja ja
gemiddelde nee nee nee ja ja
spreidingsmaten
- variatiebreedte (range, bereik): het verschil tussen de hoogste en de laagste waarde
- variantie: maat die aangeeft hoe gevonden waarden verspreid zijn rondom het gemiddelde; wordt
berekend door kwadraat te berekenen van de afwijkingen van alle waarden t.o.v. het gemiddelde;
de gekwadrateerde verschillen worden opgeteld en gedeeld door het aantal waarnemingen minus 1
- unbiased estimate: wanneer er bij het berekenen van de variantie een steekproef uit een populatie
wordt getrokken wordt n - 1 gebruikt; reden is dat de variantie in een steekproef een
onderschatting is van de populatievariantie: de schatting wordt hierdoor zuiverder
- standaardafwijking: de wortel van de variantie; meest gebruikte maat voor de spreiding van
variabelen op interval- en ratiomeetniveau
___________________________________________________________________________________
S13131-Kwantitatieve data-analyse| versie 1.5 - oktober 2015 | door Jasper Verkroost 4
,vormmaten
- kurtosis (spitsheid): de top van de verdeling van de meetwaarden; een negatieve kurtosis wijst op
een te vlakke verdeling; een positieve kurtosis wijst op een te spitse verdeling
- skewness (scheefheid): wordt bepaald door de ligging van de mediaan t.o.v. de mogelijke
meetwaarden in de frequentieverdeling; als de mediaan in het midden ligt is de verdeling niet
scheef, als de mediaan rechts van het midden ligt is de verdeling linksscheef (er zijn dan uitschieters
met lage waarden aan linkerkant van de verdeling), als de mediaan links van het midden ligt is de
verdeling rechtsscheef (er zijn dan uitschieters met hoge waarden aan rechterkant van de verdeling)
- normale verdeling: scheefheid en spitsheid zijn beide nul; belangrijke kenmerken zijn eentoppigheid
en symmetrie; wordt vaak omschreven als klokvormig; voor veel statistische toetsen is het een
belangrijke voorwaarde dat een variabele ongeveer normaal verdeeld is, maar dat is in de praktijk
nooit het geval: als de onderzoeksgroep > 30, dan hebben afwijkingen van de normaliteit geen of
nauwelijks invloed op het resultaat van de toets
___________________________________________________________________________________
S13131-Kwantitatieve data-analyse| versie 1.5 - oktober 2015 | door Jasper Verkroost 5
, 3. Formuleren van hypothesen: waarom en hoe?
hypothese
- een of meer voorspellingen die m.b.v. de verzamelde data al dan niet gestaafd worden
- is altijd een voorspelling over de populatie: men is niet geïnteresseerd in de beperkte groep mensen
die men heeft onderzocht, maar wil conclusies trekken m.b.t. de populatie waar die streekproef van
onderzochte mensen uit afkomstig is
onderzoekshypothese
- een in woorden uitgedrukte verwachting die met heeft over het verband tussen de variabelen die
men onderzoekt (bv. "geslacht heeft invloed op statistiekangst")
- wordt expliciet verwoord door de onderzoeker voordat hij het onderzoek uitvoert en wanneer het
het rapporteert in een wetenschappelijk artikel
- om deze te toetsen wordt meestal gebruik gemaakt van een statistische toets
statistische hypothese
- hierin dient exact te worden verwoord hoe het construct is gemeten en hoe het verband wordt
aangetoond (bv. "vrouwen scoren statistisch significant hoger op de schaal die statistiekangst meet
dan mannen"); wordt zelden expliciet verwoord; lijkt vaak erg op de onderzoekshypothese
- nulhypothese (H0): er is geen invloed van de ene variabele op de andere; heeft in veel gevallen geen
wetenschappelijke waarde
- alternatieve hypothese (H1): voorspelling dat de ene variabele invloed heeft op de andere; is vrijwel
altijd de hypothese die men wil bevestigen; kan ongericht of gericht worden geformuleerd: dit is
afhankelijk van de onderzoekshypothese
ongerichte hypothese
- er is alleen sprake van een verschil tussen twee scores, terwijl men niet aangeeft wat dat inhoudt
- de onderzoeker heeft geen idee hoe de twee groepen verschillen: hij weet niet wie hogere en wie
lagere scores heeft, hij veronderstelt alleen dát de scores zullen verschillen
- toetsing vindt plaats met een tweezijdige toets
- voorbeeld: "geslacht heeft invloed op statistiekangst"
gerichte hypothese
- men geeft van tevoren al aan dat de ene groep een hogere score heeft dan de andere groep
- toetsing vindt plaats met een eenzijdige toets
- voorbeeld: "vrouwen vertonen meer statistiekangst dan mannen"
___________________________________________________________________________________
S13131-Kwantitatieve data-analyse| versie 1.5 - oktober 2015 | door Jasper Verkroost 6
, 4. Populatie en steekproef
populatie
- de totale groep waarover de conclusies uit het onderzoek worden getrokken
- eenheden kunnen bestaan uit mensen, dieren, dingen en gebeurtenissen
- bij psychologisch onderzoek gaat het vaak om conclusies over een bepaalde groep mensen
- omvang kan variëren van weinig eenheden tot zeer veel eenheden; als een populatie uit slechts een
klein aantal eenheden bestaat, dan kan het onderzoek bij de hele populatie plaatsvinden
steekproef
- onderzoek bij een aantal mensen uit de populatie wanneer deze uit een groot aantal bestaat
representatief
- steekproef moet een afspiegeling vormen van de populatie
- hiervoor moet er een inventarisatie gemaakt worden van factoren waarop de mensen in de
steekproef kunnen verschillen
- vervolgens moet ervoor worden gezorgd dat deze factoren in de streekproef tot uiting komen
willekeurig
- de eenheden van de steekproef moeten volgens toeval (at random, aselect) getrokken worden uit
de populatie; dan wordt er gesproken van een aselecte steekproef
- aselecte steekproef: ieder element van de populatie heeft een kans om in de steekproef te komen
- gestratificeerde steekproef: een steekproef die op tenminste een variabele representatief is
- selecte steekproef: een steekproef uit een specifieke subgroep van een populatie (bv. onderzoek
naar leerlingen van een specifieke school o.b.v. praktische haalbaarheid)
- non-respons: indien een aselecte steekproef een lage respons heeft, is het de vraag of deze
steekproef nog wel representatief is voor de totale populatie; in het algemeen geldt dat dit moet
leiden tot voorzichtigheid bij het trekken van conclusies
- generalisatie: als een specifieke subgroep op een groot aantal variabelen overeenkomt met de
populatie kan deze gegeneraliseerd worden naar de totale populatie; dit is altijd zwakker dan op
statistische gronden
___________________________________________________________________________________
S13131-Kwantitatieve data-analyse| versie 1.5 - oktober 2015 | door Jasper Verkroost 7
, 5. Vergelijken van twee gemiddelden: de t-toets
variabelen
- onafhankelijke: de variabele op basis waarvan de steekproef in subgroepen wordt opgesplitst
- afhankelijke: de variabele die door de onafhankelijke variabele wordt beïnvloedt
steekproef
spreiding
- wanneer deze groot is, dan zal de spreiding in de populatie ook groot zijn
- deze steekproeven zullen relatief meer van elkaar verschillen dan steekproeven die worden
genomen uit een populatie met een kleine spreiding
- in onderzoek o.b.v. steekproeven kan de populatiespreiding niet berekend worden; in dat geval
wordt die populatiespreiding geschat o.b.v. de gevonden spreiding van de steekproef
- als maat hiervoor wordt de variantie of de standaardafwijking gebruikt
grootte
- in kleine steekproeven wordt het gemiddelde meer beïnvloed door toevallige factoren
- de kans dat in een aselecte steekproef het gemiddelde wordt vertekend door extremen is dan
groter, en dus de kans dat ze minder representatief zijn voor de populatie
t-toets
- vergelijkt gemiddelde scores van twee groepen op één onafhankelijke variabele
- wordt bepaald o.b.v. het verschil tussen de gemiddelden, de variantie en de steekproefgrootte
- hoe groter de waarde van t, hoe groter de kans dat het verschil tussen de gemiddelden niet op
toeval berust
- in tabellen is op te zoeken hoe groot de kans is dat de gevonden waarde voor t aan toeval wordt
toegeschreven: voor een gegeven t is deze kans nog afhankelijk van de grootte van de steekproef
- er bestaan twee manieren om de t-waarde te berekenen: een voor het geval dat de varianties gelijk
zijn, en een voor het geval dat de varianties ongelijk zijn; dit wordt getest met de Levene's toets
- hiervoor wordt een afzonderlijke hypothese geformuleerd: de nulhypothese voor varianties stelt dat
deze gelijk zijn aan elkaar, de alternatieve hypothese voor varianties stelt dat ze niet gelijk zijn
notatie
- t(aantal vrijheidsgraden) = [waarde], p < [percentuele kans/100]
- waarbij het aantal vrijheidsgraden = de steekproefgrootte minus het aantal groepen
significantieniveau
- de kans dat een t-waarde aan het toeval kan worden toegeschreven (meestal 5%)
- deze kans wordt aangeduid met een p-waarde (p = probability)
___________________________________________________________________________________
S13131-Kwantitatieve data-analyse| versie 1.5 - oktober 2015 | door Jasper Verkroost 8