Samenvatting blok 3.5 Advanced Quantitative Methods
Week 1: Herhaling Kwantitatieve Methoden en
factor- en schaalanalyse
Hoorcollege 1
Factoranalyse
- Samenvoegen van verschillende vragen (items)
- Het onderlinge verband toetsen
- Confirmatief en exploratief
- Toetst onderliggende dimensies
De factoranalyse gaat op zoek naar dimensies waarop de items laden. Dat kun je zien in de
SPSS output. Je moet kiezen welk criterium je gaat gebruiken voor het aantal dimensies dat
je zult hanteren:
- Eigenvalue: items met een eigenvalue van hoger dan 1 die laden op een bepaald
aantal dimensies (af te lezen in de tabel in SPSS output)
- Bij een waarde hoger dan 0,4 in de Rotated Component Matrix, laadt het
desbetreffende item voldoende op een dimensie om hem mee te nemen in de
analyse
- Scree plot: hoe veel punten zich boven de knik bevinden (vaak is deze beter)
Betrouwbaarheidsanalyse
- Bepalen betrouwbaarheid van afzonderlijke dimensies (Cronbach’s alfa) o.b.v.
interne consistentie en het aantal items
- Antwoord op de vraag of items hetzelfde meten
- LET OP: zorg ervoor dat de items dezelfde richting hebben, hercodeer zo nodig
- Tussen 0 en 1
- <0,6 → laag
- 0,6< en >0,8 acceptabel
- >0,8 → hoog
Schalen
- Minimaal 3 items om een schaal te kunnen maken
- Twee soorten: somschaal of gemiddeldenschaal
- Bij een somschaal gaan de waarden van de originele variabele verloren en is
er geen schaal voor mensen met missende waarden. Bij een
gemiddeldenschaal wel.
Agresti & Finlay Hoofdstuk 9: Lineaire regressie en correlatie
De lineaire functie y = a + bx drukt observaties van y uit als een lineaire functie van
observaties van x. De formule heeft een rechte lijn in de grafiek met helling (slope) b en y-
intercept a. De a wordt y-intercept genoemd omdat wanneer x = 0, de lijn de y-as snijdt en
de y-waarde gelijk is aan de a-waarde.
Lisanne Tuk
433229
1
, Samenvatting blok 3.5 Advanced Quantitative Methods
De vergelijking ŷ = a + bx wordt de voorspellingsvergelijking (prediction equation)
genoemd, omdat het een voorspelling geeft voor de y-variabele bij elke x-waarde.
Voor een observatie wordt het verschil tussen een geobserveerde waarde en de voorspelde
waarde van y het residu (residual) genoemd, ook wel de voorspellingsfout. Deze reken je
uit door de formule y (werkelijke observatie) - ŷ (voorspelde observatie). Hoe kleiner het
residu, hoe beter de voorspelling. Het residu van elke observatie wordt gekwadrateerd en
die worden weer bij elkaar opgeteld, wat resulteert in de sum of squared errors
(SSE)/residual sum of squares (RSS). Deze beschrijft de variatie van data rond de
voorspellingslijn.
SSE=Σ( y− ŷ)²
Het minimum van SSE wordt bereikt door de voorspellingsvergelijking die wordt gevormd
door de least squares estimates a en b. Daarom wordt de voorspellingsvergelijking ook wel
de least squares line genoemd. Deze lijn heeft positieve en negatieve residuen en gaat
door het punt (gemiddelde x,gemiddelde y).
Niet alle y-waarden zijn hetzelfde bij dezelfde x-waarde in sociaal-wetenschappelijk
onderzoek. Een waarschijnlijkheidsdistributie (probability distribution) beschrijft de y-
waarde bij een bepaalde x-waarde en verwijst naar de variabiliteit in de y-waarde bij een
vaste x-waarde, dus het is een voorwaardelijke distributie (conditional distribution).
Bijv.: Niet iedereen heeft hetzelfde inkomen (y) bij hetzelfde aantal jaren opleiding (x) omdat
het inkomen niet helemaal afhankelijk is van het aantal jaren opleiding.
Een probabilistisch model voor de relatie tussen variabelen staat toe dat de y-waarde
varieert bij een vaste x-waarde en hiervoor is een lineaire functie de basis.
De conditionele distributie van y kan worden aangeduid door E(y), de verwachte waarde
ofwel het gemiddelde.
Een regressiefunctie is een wiskundige functie die beschrijft hoe het gemiddelde van de
reagerende variabele (y) verandert volgens de waarde van een verklarende variabele (x). In
principe is de regressiefunctie hetzelfde als een lineaire vergelijking: E(y) = a + bx.
Het lineaire regressiemodel heeft een extra parameter σ die de standaardafwijking van
elke conditionele distributie beschrijft.
s=
√ SSE
n−2
De b in een lineaire formule kan alleen een richting aangeven en niet beschrijven hoe sterk
het verband is tussen de twee variabelen. De correlatie kan dit wel, dit is een
gestandaardiseerde versie van de helling. De waarde is niet afhankelijk van de
meeteenheden. De standaardisatie past de helling b aan vanwege het feit dat de
standaarddeviaties van x en y afhangen van hun meeteenheden. De correlatie (r) is de
waarde die de helling (b) zou aannemen voor eenheden zodat de variabelen gelijke
standaarddeviaties hebben.
Lisanne Tuk
433229
2
, Samenvatting blok 3.5 Advanced Quantitative Methods
sₓ=
√ Σ( y− ŷ )²
n−1
sy ¿
√ Σ ( y− ŷ)²
n−1
r= ( sxsy )b
Uitkomsten Interpretatie
r = -1 Perfecte negatieve correlatie
-1 < r < -0,8 Sterke negatieve correlatie
-0,8 < r < -0,6 Matige negatieve correlatie
-0,6 < r < 0 Zwakke negatieve correlatie
r=0 Geen correlatie
0 < r < 0,6 Zwakke positieve correlatie
0,6 < r < 0,8 Matige positieve correlatie
0,8 < r < 1 Sterke positieve correlatie
r=1 Perfecte positieve correlatie
We kunnen meten hoe sterk de variabelen geassocieerd zijn aan de hand van r-squared
(proportional reduction in prediction error). Er zijn formules om dit uit te rekenen, maar
het is makkelijker om het SPSS te laten doen of simpelweg de correlatie te kwadrateren.
Omdat r² het kwadraat is van r, die altijd tussen -1 en 1 is, is r² altijd tussen 0 en 1. Hoe
dichter bij 1, hoe sterker de lineaire associatie. De r² kun je uitdrukken in een percentage dat
de verklaringswaarde van de onafhankelijke variabele uitdrukt.
Assignments
9.8 A college admissions officer uses regression to approximate the relationship between y =
college GPA and x = high school GPA (both measured on a four-point scale) for students at
that college.
(a) Which equation is more realistic: y = 0,5 + 7,0x, or y = 0,5 + 0,7x? Why?
The equation y = 0,5 + 0,7x, because the GPA’s were measured on a four point
scale, so the slope can never be 7,0.
(b) Suppose the prediction equation is ŷ = x. Identify the y-intercept and slope and
interpret the slope.
This would mean that the predicted y always is equal to x. So when x increases one
unity, y does as well. The slope would thus be 1 (b = 1).The y-intercept is the a, and
the point where the line cuts the y-axis, so when x = 0. Ŷ will also equal 0.
9.9 For the data in Table 9.1 on y = violent crime rate and x = poverty rate, the prediction
equation is ŷ = -209,9 + 25,5x.
(a) Interpret the y-intercept and slope.
The y-intercept -209,9 is the violent crime rate when the poverty rate is 0. So when
there is no poverty, the crime rate is very low. The slope 25,5 represents the increase
of crime when the poverty rate rises with one unit.
(b) Find the predicted violent crime rate and the residual for Massachusetts, which had x
= 10,7 and y = 805. Interpret.
ŷ = -209,9 + 25,5 * 10,7 = 62,95
y = 805
y - ŷ = 805 - 62,95 = 742,05
The crime rate of Massachusetts is probably an outlier, because the residual is very
Lisanne Tuk
433229
3