SAMENVATTING MULTIVARIATE ANALYSE B
HOORCOLLEGE 6: PRINCIPALE COMPONENTEN-ANALYSE EN SCHAALCONSTRUCTIE
Asymmetrisch Symmetrisch
Interval - Multipele regressie-analyse - Principale componenten analyse
- Factoranalyse
Niet-interval - Regressie met dummy-variabelen - Niet-lineaire PCA
- Logistische regressie (Y dichotoom) - Multipele correspondentie-analyse (alle
- Cox regressie (Y duurvariabele) variabelen nominaal)
Correlatie: relatie tussen twee variabelen. Zijn op zoek naar een verband binnen een set variabelen.
• Cronbach’s α: je hebt een set variabelen, je denkt dat je deze kunt samenvatten tot 1 schaal (1 variabele), gaat dat?
• PCA is andersom, meer exploratief.
In vragenlijsten vaak meerdere vragen (items) gesteld, mogelijk grote samenhang tussen een set items. Wij zijn op zoek naar één
maat die meerdere losse variabelen samenvat = datareductie.
Cronbach’s α: wordt gebruikt als een maat voor de onderlinge samenhang binnen een set variabelen. “Hier heb ik een aantal
variabelen, kan ik deze goed samenvatten tot één nieuwe variabele?”. Dit is geen statistische toets.
• Op basis van theorie een set vragen ontwikkeld.
• Cronbach’s α toetst of ze ook echt samenhangen → schaalconstructie.
• Bijv. schaaltjes om intelligentie, impulsiviteit, criminele attitude te meten.
Je wilt weten of een specifiek vooraf gegeven set variabelen zo sterk samenhangt dat het verdedigbaar is om te zeggen dat zij als
één principale component/construct/schaal/dimensie opgevat mag worden. Wanneer dit het geval is kun je zeggen dat de
variabelen zoveel interne consistentie hebben dat ze als één schaal (= een bepaalde trek of aspect van respondenten wordt niet
gemeten met één vraag, maar hiervoor wordt een set van vragen gebruikt die samen een goede meting hiervan geven) opgevat
kunnen worden. Een andere term die hiervoor gebruikt wordt is homogeniteit.
Het is een maat voor interne consistentie van een set items: meten deze items of vragen hetzelfde? Bijvoorbeeld: 4 items over
criminele attitude.
1. Ik vind het niet erg om iets te stelen omdat iedereen wel iets steelt.
2. Je mag nooit stelen, ook niet als je honger hebt
3. Ik heb het recht om mijn huis te verdedigen, desnoods met geweld
4. Mensen die een dure fiets niet op slot zetten, vragen erom dat die fiets gestolen wordt
➢ Antwoordopties: eens of oneens. Mensen die ja antwoorden op 1 item zijn eerder geneigd om ja op een ander item te
antwoorden.
➢ 3 hoort hier niet echt bij, gaat niet over stelen + rechtvaardigingsgrond noodweer.
➢ 2 is andersom geformuleerd, dus gaat ook niet goed met de Cronbach’s alpha, tenzij je hem hercodeert (ompoolen).
Meerdere items omdat:
• Respondent begrijpt vraag mogelijk niet
• Respondent interpreteert vraag mogelijk anders
• Construct niet in één vraag te vangen: deelaspecten die construct in volle breedte meten. Intelligentie is niet alleen
rekenen, maar ook taal en ruimtelijk inzicht etc.
Het kan ook voorkomen dat de interne consistentie van de items niet goed is, omdat het construct eigenlijk meerdere schalen of
dimensies bevat. In dat geval zouden de vragen ingedeeld moeten worden in subschalen en zou per subschaal dan weer de
interne consistentie berekend kunnen worden. de Morele Oriëntatie Lijst (MOL) is zo’n lijst. De lijst is geconstrueerd vanuit de
theoretische notie dat moreel besef bestaat uit de integratie van twee factoren: morele cognitie (heeft te maken met de manier
waarop iemand kan redeneren over bijvoorbeeld de rechtvaardigheid van straf voor een vergrijp) en moreel affect (redeneert meer
in welke mate iemand kan meevoelen met een slachtoffer bijvoorbeeld). De lijst bestaat uit 42 items, waaruit door sommatie twee
subschalen geconstrueerd worden: straf-georiënteerd en slachtoffer-georiënteerd.
,Cronbach’s alpha wordt berekend op basis van onderlinge correlaties tussen items.
• Cronbach’s α: > 0.6 = redelijk;
• Cronbach’s α: > 0.8 = goed (goede interne samenhang, vormen één schaal).
• Niet hoog genoeg? Op zoek naar het item dat er niet in hoort en dus niet goed samenhangt met de rest.
• SPSS: ‘Cronbach’s α if item deleted’ altijd inspecteren!
Omdat ‘if deleted’ (.690) boven de alpha (.248) ligt bij var2 moet er iets gebeuren om dit te verbeteren. In dit geval is gekozen voor
hercoderen, omdat wij de variabele niet willen verwijderen als dit niet nodig is. Bovendien past de variabele er goed bij. Daarom
hebben wij de variabele gehercodeerd. Hierdoor is de daadwerkelijke alpha (.712) hoger dan ‘if deleted’. De variabele hoeft dus
niet verwijderd te worden. Nu is het goed en kan niks verbeterd worden. Als de ´if deleted´ nog steeds hoger was dan de alpha,
had de variabele nog steeds niet verwijderd hoeven worden, omdat .712 redelijk hoog is voor een alpha dus het is voldoende.
Principale componenten-analyse (PCA): sterk exploratief. Je zoekt vrij naar mogelijkheden om het aantal variabelen te
reduceren tot een kleiner aantal dimensies.
• Spiegelbeeld van Cronbach’s α.
• Zoeken naar cluster van onderling samenhangende variabelen (principale componenten, schalen, dimensies, factoren).
• Je hebt veel variabelen en je wilt weinig principale componenten.
• Geen theoretisch model achter de analyse, je laat de techniek zoeken. Interpretatie is hierdoor soms lastig.
1. Je zoekt dus naar een aantal dimensies dat de data redelijk samenvat.
2. Vervolgens ga je kijken of die dimensies ook een inhoudelijke betekenis hebben (‘constructen’).
→ Het gaat hier niet om een zelfgekozen set met variabelen waarvan je wilt weten of ze samenhangen (1 dimensie vormen). Maar
het gaat om een berg variabelen waarvan je wilt weten welke variabelen tot een kleiner aantal dimensies combineren.
VOORBEELD
Respondent 1 tot 5 gevraagd wat ze belangrijk vinden met skiën.
• Factor 1: belangrijk wat het kost?
• Factor 2: belangrijk hoeveel liften er zijn in dat gebied?
• Factor 3: belangrijk hoe hoog de sneeuw ligt?
• Factor 4: belangrijk hoe goed de sneeuw is?
, Respondent 1 (R1) vindt de aanwezigheid van liften, voldoende
sneeuwhoogte en poedersneeuw erg belangrijk, de kosten vindt
hij minder belangrijk. Respondent 2 vindt de kosten erg belangrijk
en de twee sneeuwkenmerken, maar de liften weer minder
belangrijk.
Twee clubjes variabelen: KOST en LIFT hangen sterk samen (-.95).
Hoogte en kwaliteit van de sneeuw hangen ook sterk samen (.99).
Aan de correlaties is te zien dat je eigenlijk twee principale
componenten kan maken. Wanneer je weet wat iemand van de liften
vindt, weet je wat die persoon van de kosten vindt.
HOOG en POEDER laden op pc1 → sneeuwkwaliteit
KOST en LIFT laden op pc2 → kosten van wintersport
‘-.500’, ‘.357’, .... zijn componentladingen ajk van de j-de variabele op de k-de component. Dus:
Pc 1= -0.500 * KOST + 0.357 * LIFT + 0.891 * HOOG + 0.919 * POEDER
Componentscores: scores van respondenten op de principale componenten. Scores van respondenten invullen in formule.
Eigenwaarde: hoeveel verklaren de componenten? Hoe goed doen zij het/hoe belangrijk zijn zij? Hiermee de verklaarde variantie
berekenen, hoe goed past de principale component in de oplossing?
Eigenwaarde berekenen:
• De som van de gekwadrateerde factorladingen.
• pc1: (-0.500)² +0.375² +0.891² + 0.919² = 2.02
Er is zoveel variantie te verklaren als er variabelen zijn. In dit voorbeeld 4 variabelen, dus maximaal te verklaren variantie is 4.
• Eerste pc heeft altijd de meeste eigenwaarde/verklaarde variantie, tweede één na meeste, etc.
• pc1: eigenwaarde = 2.02 = 2.02/4 = 50%
• pc2: 1.94/4= 48,5%
Communaliteit: hoe goed doen de variabelen het? Hoe goed passen de variabelen in de oplossing? Hoe hoger, hoe beter.
→ Communaliteiten in dit voorbeeld: 0.983 of hoger. Dus alle variabelen passen erg goed in de oplossing