Statistische modellen 2 – Agresti Finlay (4e editie)
Hoofdstuk 9.1
Bij een regressieanalyse gaat het over drie verschillende aspecten:
Je kan zien of er een relatie is tussen twee of meerdere variabelen
Je kan zien hoe sterk deze relatie is (met behulp van de correlatie)
Je kunt een regressieformule opstellen en hiermee de waarden van de onafhankelijke
variabele voorspellen (op basis van een formule, denk aan y = bx + a)
Bovenstaande analyses samen, noem je een regressieanalyse.
Enkelvoudige regressieanalyse = er is 1 voorspeller
Multipele regressieanalyse = er zijn 2 of meer voorspellers
Allereerst gaan we kijken naar een lineair verband, dit betekent dat het gaat om een rechte lijn. We
kijken hierbij naar X en Y. Hoe verandert Y, als X verandert? Dit kun je uitdrukken in een formule
Y = bx + a
B = de helling (als X met één eenheid omhoog gaat, hoeveel stijgt/daalt Y dan? helling. De
helling geeft de richting van de relatie weer en kan hiermee een interpretatie geven aan de
relatie (zie grafiek; positief, negatief, neutraal/geen relatie). Hoe steiler de lijn, hoe sterker
het verband.
A = het y-intercept, punt waar de lijn de y-as snijdt bij x=0.
Let op: je kunt met een lineaire verband geen causale voorspellingen doen (VB: het aantal
winkelovervallen in 2040 kan dus niet voorspeld worden op basis van informatie uit 2020). Je kunt
alleen informatie schatten/voorspellen op dit moment.
Hoofdstuk 9.2
Hiernaast zien we een scatterplot. Dit geeft de uitkomsten weer voor alle observaties.
Het aantal blauwe puntjes is dus gelijk aan je aantal observaties (n).
Door een scatterplot kun je een denkbeeldige lijn tekenen, de geschatte lineaire
functie. Maar waar moet je deze lijn precies tekenen?
Bereken alle residuen (= afstanden van de punten tot de lijn = y - ŷ)
Kwadrateer alle residuen
Tel alle gekwadrateerde residuen op
Kies een lijn waarmee de som van deze residuen zo klein mogelijk
is
,Elke observatie heeft een residu. De verwachte scores komen namelijk vrijwel nooit overeen met de
daadwerkelijke, geobserveerde scores. Als de verwachte lijn dichtbij alle puntjes ligt in de scatterplot,
zijn de residuen klein. We kunnen de grootte van de residuen samenvatten met de sum of squared
errors (SSE):
SSE = ∑(𝑦 − 𝑦̂)2
Dit is de kleinste som van de gekwadrateerde afstanden tussen de geobserveerde punten (y) en de
voorspelde punten (𝑦̂). Je wilt de residuen namelijk zo klein mogelijk, want dan is je verwachte lijn
het beste.
In SPSS wordt de sum of squared errors (SSE) ook wel de residual sum of squares genoemd. Raak hier
niet van door de war!
De least squares estimates zijn de waarden van a en b in de verwachte formule, waarbij de sum of
squared errors (SSE) het kleinst is. De residuen zijn dus het kleinst en de formule is dus de beste
voorspelling van de data. De bijbehorende lijn van de formule wordt de least squares line genoemd.
De least squares line is dus de denkbeeldige lijn die je door je data kunt trekken. Deze lijn heeft
positieve en negatieve residuen. De som van deze residuen (bij een perfecte lijn) is 0.
Let op: het is dus niet nodig dat alle punten exact op de regressielijn liggen. Een voorwaarde is:
homoscedasticiteit. Dit betekent dat de verticale spreiding (van onder naar boven) voor ongeveer
alle waarden van X gelijk is (zie grafiek hieronder). Het tegenovergestelde is heteroscedasticiteit (zie
grafiek ernaast).
Om te checken of je een goed voorspelde regressielijn hebt getekend, kun je de lineairiteit checken.
Bij lineairiteit cehck je of het gemiddelde van de gestandaardiseerde residuen van links naar rechts
rond de ei (de totale variatie rondom de best passende lijn (= ook wel residu of error)) = 0 ligt. Als dit
het geval is, is je lineairiteit goed (zie eerste afbeelding). Is het gemiddelde veel meer verdeeld, dan is
er sprake van niet-lineairiteit (zie afbeelding ernaast).
, In deze scatterplot zie je een voorbeeld van een regressielijn. Alle
puntjes liggen gecentreerd rondom deze lijn. Het verband tussen
lengte en gewicht (in het voorbeeld) is dus ongeveer lineair, want we
kunnen er een denkbeeldige lijn doortekenen.
In het plaatje eronder, wordt dit al veel lastiger. Hier liggen de puntjes
niet gecentreerd in één gebied. We kunnen er moeilijk één lijn
doortekenen, waardoor het verband dus waarschijnlijk niet lineair is.
Wanneer een scatterplot laat zien dat er een lineair verband mogelijk is
(wanneer je dus een lijn kunt tekenen), kun je dit invullen in een formule. Je
noemt dit dan een verwachte formule, omdat je er natuurlijk niet zeker van
bent of er een lineair verband is. Deze formule gaat voor het gemak wel uit
van een lineair verband: Ŷ = a + bx (het dakje op de y geeft aan dat het om
een verwachting gaat).
Soms heb je te maken met een extreme, afwijkende waarde. Dit noem je
een uitbijter (ook wel een outlier genoemd). Wanneer je te maken hebt met
een uitbijter heeft dit effect op je regressielijn. Het zorgt er namelijk voor dat je lijn naar de uitbijter
wordt getrokken, waardoor de lijn wegraakt van het centrum van de andere punten. Het kan dus
zeker een storend effect zijn!
Een observatie wordt invloedrijk genoemd, wanneer als je deze observatie/waarde er uit laat, je
verwachte formule heel erg verandert. Dit betekent namelijk dat de uitbijter veel invloed op de
verwachte formule (met name de helling) heeft, waardoor je de uitbijter er beter uit kunt laten. Het
geeft namelijk geen goede indicatie van de data.
Hoofdstuk 9.3
Deterministisch = iedere waarde voor x correspondeert met een unieke waarde van y zonder
rekening te houden met onzekerheid 𝑦̂ = 𝑎 + 𝑏𝑥
Probabilistisch = één waarde voor x correspondeert met een range van waardes op y 𝐸(𝑦̂) = α +
β𝑥 E” staat voor expected value, wat een ander benaming is voor gemiddelde
VB: Stel x is het aantal jaren van opleiding en y is het jaarlijks inkomen. Stel we nemen x = 12, je hebt
dus 12 opleidingsjaren gehad. Als dit deterministisch zou zijn, zou iedereen met 12 opleidingsjaren
dezelfde y waarde hebben en dus hetzelfde jaarlijks inkomen. Dat is in dit geval niet zo, want mensen
met 12 opleidingsjaren, kunnen een verschillende baan hebben en dus een verschillend jaarlijks
inkomen. Het is in dit geval dus een probabilistisch model. Dit betekent dat iedereen met 12
opleidingsjaren een andere y waarde kan hebben en y dus een range van waarden kan hebben.
Bij een probabilistisch model, is er variëteit in de y-waarden. De y-waarde kan variëren, ook al is de
X-waarde wel telkens hetzelfde. De door het model voorspelde waarde 𝑦̂ is het gemiddelde van dit
interval. Dit betekent dat bij x= 12, een geschatte y- waarde van bijvoorbeeld 36.000 hoort (ŷ =
36.000). Dit is dan het gemiddelde voor deze x-waarde.
De formule: 𝐸(𝑦̂) = α + β𝑥 is een regressie formule. Een regressieformule is een formule die
beschrijft hoe het gemiddelde van de afhankelijke variabele verandert aan de hand van de
onafhankelijke variabele. 𝐸(𝑦̂) betekent hierin het gemiddelde van het y-interval (zie uitleg
hierboven, bijvoorbeeld die 36.000).
De formule: 𝐸(𝑦̂) = α + β𝑥 is een lineaire regressie formule, omdat het uitkomt als een rechte
(lineaire) lijn. Deze rechte lijn geeft het gemiddelde van de y-waardes weer voor elke waarde van x.