In dit document staan de aantekeningen van de colleges (4 t/m 7) van het kwantitatief spoor van de cursus MTS4 voor ISW'ers. Deze colleges gaan over de factoranalyse, multipele regressieanalyse, moderatie/mediatie en logistische regressieanalyse. De aantekeningen omvatten informatie over deze analy...
Hoorcollege wk 4: Factoranalyse
Een tweede stap in de data-analyse is de factoranalyse. Binnen de sociale wetenschappen
gebruiken we vaak meerdere variabelen/items die een score geven van een kenmerk of
eigenschap. Deze variabelen reduceren we vaak tot 1 of 2 item(s). Bij een factoranalyse
beoordelen we hoe goed we in staat zijn om een verzameling van vragen die gaan over
hetzelfde, te vervangen tot 1 of 2 nieuwe variabele(n) (schaalscore). De factoranalyse geeft
je een argument om dit te doen.
Een factoranalyse heeft twee doelen:
1. Datareductie: informatie van een aantal items samenvatten in een kleiner aantal
variabelen (factoren). Kenmerken:
Aantal en interpretatie factoren zijn vooraf onbekend.
Exploratief
Hoeveel zinvolle (statistisch en inhoudelijk) factoren zijn voor een verzameling
items te onderscheiden?
Na afloop van de factoranalyse weten met hoeveel schaalscores je de
verzameling van items kunt representeren.
2. Beoordelen dimensionaliteit (schaalconstructie): Meten van indirect geobserveerde
theoretische constructen.
Aantal en interpretatie factoren vooraf bekend.
Confirmatief.
Komt de in de data gevonden factorstructuur overeen met het
verwachte aantal factoren?
Er zijn twee factoranalysemodellen:
- PCA: Principale Componenten Analyse, hoofdcomponentenanalyse (besproken in
hc).
- PAF: Factoranalyse, Principal Axis Factoring.
Datareductie (factorstructuur onbekend)
We hebben een verzameling aan variabelen en we willen nagaan of dit gerepresenteerd kan
worden door een kleiner aantal nieuwe variabelen. De factoranalyse geeft inzicht met
hoeveel factoren we die verzameling kunnen representeren. Vooraf is er dus geen kennis
van de factorstructuur.
Voorbeeld voor datareductie: een Tienkamp bestaat uit 10 onderdelen/items (100 meter,
verspringen, kogelstoten, hoogspringen, 400 meter, horden, discuswerpen,
polsstokhoogspringen, speerwerpen, 1500 meter). Van deze 10 disciplines zijn de scores
bepaald bij de atleten. Alle presentaties zijn weergegeven als Z-cores.
Z-scores: het aantal standaardafwijkingen die iemand afligt van het gemiddelde. Een
z-score van 0 betreft het gemiddelde van de groep. Hoe hoger de z-score, hoe beter
de prestatie; dat is zo gecodeerd.
De onderzoeksvraag voorafgaande aan de factoranalyse is: Kunnen we de atleten typeren
op basis van een gericht aantal onafhankelijke factoren?
Factoren: sets of clusters van onderdelen (items) waarop atleten goed/slecht
presteren. Ze horen bij elkaar, omdat er voor de prestatie op de onderdelen
eenzelfde vaardigheid nodig is.
Onafhankelijk: Geen samenhang tussen scores op te onderscheiden factoren;
een score op factor A zegt niets over score op factor B
,Stappenplan exploratieve factoranalyse
Er zijn verschillende stappen voor een exploratieve factoranalyse
1. Items geschikt voor PCA? item correlatiematrix, KMO, Bartlett’s Test.
2. Aantal factoren? Kaiser criterium, knikcriterium, Jolliffe criterium.
3. Interpreteerbare oplossing? Varimax rotatie, Oblimin rotatie.
4. Nieuwe variabelen? Bewaar factorscores, bereken schaalscores.
5. Betrouwbaarheid? Cronbach’s Alpha.
Stap 1: items geschikt voor PCA?
Zijn de items geschikt voor een factoranalyse (PCA)? Is er voldoende afhankelijkheid van de
items? Hiervoor kijken we als eerst naar de correlatiematrix. De correlatiematrix geeft de
samenhang tussen de tien
onderdelen. Een criterium voor
de correlatiematrix is: Voor elk
item moet er minimaal één
correlatie met een ander item zijn
van groter dan 0.3 of -0.3. Alle
items voldoen hieraan (zie
plaatje). Als er een item was die
er niet aan voldeed, dan is er
voor dat item geen correlatie met andere onderdelen van > 0.3. Dat item hangt niet samen
met andere items en kun je dus niet in een cluster opnemen. Het staat volledig los van de
overige items. Dat is nadelig voor het representeren van een verzameling van variabelen
door een geringer aantal factoren, want dan blijft het item alleen staan. Het is dan de vraag
of je het item behoudt of verwijdert.
Twee andere criteria voor het beoordelen van het nut van een factoranalyse op een
verzameling van gegevens;
1. KMO: de vuistregel hierbij is: < 0.6 = slecht; 0.6 – 0.8 = redelijk; > 0.8 = goed. In het
voorbeeld is de KMO waarde redelijk
(0.753).
2. Bartlett: Als chi-kwadraat in de buurt is van
het aantal vrijheidsgraden (df) dan hebben
we te maken met onafhankelijkheid van
items. We willen afhankelijkheid van items,
want dan kunnen we de clusters of
onderdelen van items bepalen. In dit geval is chi-kwadraat veel groter dan het aantal
vrijheidsgraden (828).
Er is dus voldoende afhankelijkheid om de factoranalyse uit te voeren, gebaseerd op alle drie
criteria.
Stap 2: aantal factoren?
Hoeveel zinvolle factoren zijn er in de verzameling van de tien onderdelen. Het wordt
beoordeeld met de eigenwaarde. De eigenwaarde is een kernmerk van een factor, en het
geeft aan hoeveel procent verklaarde variantie er is in alle variabelen in de analyse; het geeft
de verklaarde variantie in alle items door een factor. De tien variabelen hebben 10 z-scores.
Dat betekent dat de standaardafwijking van die z-scores gelijk is aan 1, en dat ook de
variantie gelijk is aan 1. Ofwel: de totale variantie spreiding in scores is gelijk aan 10. Elke
factor probeert iets van die variantie te verklaren. De mate waarin een factor dat doet is de
eigenwaarde. De eigenwaarde wordt gebruikt in drie criteria voor het kiezen van het aantal
statistisch zinvolle achterliggende factoren van de (in dit geval tien) onderdelen:
1. Kaiser criterium (initiële oplossing): Is de eigenwaarde groter dan 1, dan komt die in
aanmerking om geselecteerd te worden.
, 2. Knikcriterium: Aantal factoren boven de knik in de screeplot (met eigenwaarden).
3. Jolliffe criterium: Is de eigenwaarde groter dan 0.7, dan komt die in aanmerking om
geselecteerd te worden.
Toegepast op het voorbeeld van het Tienkamp geldt het volgende:
Kaiser criterium: Voor alle mogelijke factoren
in de PCA geeft SPSS de eigenwaarden.
Het Kaiser criterium geeft drie te
onderscheiden factoren. SPSS gebruikt dit
criterium als initiële oplossing, om nader te
inspecteren. Volgens het Jollife criterium
zouden we vier factoren gebruiken.
Knikcriterium: Er zit een volgorde in de eigenwaarde: De eerste
factor verklaart de meeste variantie, de laatste het minste. Op
basis van dit criterium kiezen we 1 factor (i.p.v. 3). Het
knikcriterium komt vaak tot minder factoren dan het Kaiser
criterium.
Stap 3: Interpreteerbare oplossing?
Op basis van deze resultaten is gekeken naar hoe het zit met een vier-factoroplossing.
Ofwel: Is het mogelijk om de tien onderdelen te representeren tot 4 achterliggende factoren
die iets gemeenschappelijks hebben? Hiervoor moeten we nagaan of de vier factoren
inhoudelijk een interpretatie hebben waarmee we verder kunnen; waarmee we iets kunnen
zeggen over atleten m.b.t. deze vier aspecten van die tienkamp. Dit doen we door te kijken
naar de relatie tussen de afzonderlijke variabelen en de factor. Hoe hoger de samenhang
tussen de variabelen en de factor, hoe meer de betreffende variabelen in dit onderdeel de
factor van betekenis kunnen voorzien, dus de items (onderdelen met de hoogste
factorlading) zijn het meest representatief voor de factor. Uiteindelijk leidt je de betekenis van
de factor af door te kijken naar de hoogladende onderdelen. Binnen de onderdelen moet je
dan iets gemeenschappelijks vinden.
Items met een hoge factorlading zijn meest representatief voor de factor.
Betekenis factor afleiden uit het gemeenschappelijke van de items met hoge
factorladingen.
Hoogladend wil zeggen dat de factorlading de relatie tussen de factor en variabele aangeeft.
Als vuistregel hanteren we dat de factorlading groter moet zijn dan 0.4: Het betreffende
item/onderdeel hoort bij de factor; er is een sterke relatie tussen het onderdeel en de factor
die we nog van interpretatie moeten voorzien.
Hiernaast staat een resultaat van een
driefactoroplossing, gebaseerd op het Kaisercriterium.
Als we kijken naar de factorladingenmatrix, dan zie we
voor de drie componenten een getal staan en dat getal
is de factorlading. Het geeft de sterkte van de relatie
tussen het onderdeel en de factor aan. In het eerste
component zitten veel onderdelen, in de tweede minder
en in de derde nog minder. Hieruit moet geconcludeerd
worden dat deze matrix een ongeroteerde oplossing
geeft, die niet bruikbaar is voor interpretatie: Uiteindelijk
willen we namelijk naar een matrix waarop slechts één
factor hoog laadt en we per factor een gering aantal
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller eliannevlieg. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $3.21. You're not tied to anything after your purchase.