PM Statistiek
Beschrijvende en inferentiële statistiek
Uitgebreide samenvatting van het boek en de colleges, deeltoets 3.
Maart 2018
, Hoofdstuk 9
Regressie-analyse (het lineaire model)
• Hypothesetoetsing met regressie-analyse.
• Bijvoorbeeld: geslacht (man/vrouw) en inkomen (denk aan SPSS practicum 1)
Regressie gaat over de causale relatie, die causale relatie tonen we niet aan maar dat
veronderstellen we. Regressie is wat anders als een correlatie omdat we met een correlatie een
verband aantonen tussen twee variabelen, alleen weten we niet hoe dat verband ontstaat. Bij
regressie is er altijd sprake van een veronderstelde causaliteit. De x kan een dummy zijn een
categorische variabele maar ook een kwantitatieve variabele zijn.
Het doen van voorspellingen gaat altijd over een lineaire relatie, het is altijd verstandig om een
scatterplot te maken om te zien of er daadwerkelijk lineaire relatie is in het verband, kun je er
een lijn doortrekken? Daarbij is het goed om te kijken of er extreme outliers zijn omdat deze
het beeld kunnen verstoren.
Eerst zagen we de regressie alleen nog maar als beschrijvende statistiek. Als we een stap
verder maken en aan de hand van een variabele, bv tentamencijfer en studie-uren,
voorspellingen willen doen over een gehele populatie dan hebben we het over inferentiële
statistiek. Het is dan meer een theoretisch regressie model en omdat je dan uitspraken over de
populatie gaat doen komen de Griekse letters weer tevoorschijn. De Griekse letters hiervoor
zijn de alpha en de beta. Deze alpha heeft niets te maken met Cronbachs alfa of de foutenkans
maar is de intercept. De beta is de slope van de populatie. Je hebt dus twee verschillende
slopes, de b slope (wat zie je in de data) en de beta slope wat is er in de populatie aan de hand.
Prediction error en predictive power: hoe goed is onze voorspelling?
– Voorspellingsfout: Residuals
– Verklaarde variantie = R2 (Explained variance)
-2-
,Je kan de waarden van de regressie op een rij kunnen zetten zoals bovenstaande. De real
income is de populatiewaarde en daar komt een E bij dat is de residual. We kunnen het nooit
exact voorspellen. Als je al die residuals kwadrateert en bij elkaar optelt wordt het allemaal
positief. De beste lijn is de lijn die het kleinste verschil met de werkelijkheid weergeeft. Deze
lijn wordt berekend middels de kleinste kwadraten-methode: a en b worden zodanig
berekend, dat de som van de kwadraten van de residuen (RSS) minimaal is.
We zouden de redenering ook om kunnen draaien en kunnen kijken hoe goed onze
voorspelling is, dat doen we door predictive power, R kwadraat. We geven daar de
verklaringskracht van het model mee weer zie onderstaande.
De RSS is dat rode balkje per specifiek individu. TSS is gebaseerd op de deviatie, het verschil
met het gemiddelde. Je ziet dat de voorspelling hier al beter klopt. We hebben dus het
gemiddelde dat is de baseline al maak je daar veel fouten mee. Door een regressielijn te
trekken maak je al een betere voorspelling dan door alleen puur het gemiddelde te nemen. Bij
het RSS
-3-
, Reductie in error is het weg verklaren van de spreiding. Praktisch geeft aan hoeveel van het
verschil je kunt verklaren. Als r2 de waarde 0 is dan heeft de regressie geen enkele
toegevoegde waarde, je kunt geen enkele betere voorspelling met de extra variabele. De
waarde 1 komt ook haast niet voor omdat je dan met 100% zekerheid gaat voorspellen. Als je
de correlatie uitrekent tussen twee variabelen en deze kwadrateert heb je de sterkte van de
verklaarde varaiantie, r2. Dit is een eenvoudige methode om achter de sterkte van de regressie
te komen.
Als je de verklaarde variantie weet moet je hier de wortel van trekken om te weten wat de
correlatie is. De verklaarde variantie is onafhankelijk van de meeteenheden net als de
correlatie. Voor het doen van onderzoek is dit makkelijk omdat je verschillende variabelen te
gebruiken. De slope is wel afhankelijk van de meeteenheden. Je kunt hem ook standaardiseren
en dan kom je ook weer bij een correlatiecoëfficiënt uit. Tot zover gaat het om het verklaren
van Y, hoe goed kunnen we Y voorspellen, dit wegverklaren?
Het derde punt is:
Is er een invloed van X op Y? Significantie testen van de slopes (de effecten van X-en op Y).
Dit doen we door hypothese te toetsen en dan met name de hypothesetoets van de slope, is er
een significant effect van de x?
We moeten de B toetsen in dit geval. We toetsen of de B
significant coëfficiënt afwijkt van 0 omdat we willen
weten op basis van de steekproef of er ook een effect is
in de populatie. Is het toeval of is er sprake van een
duidelijk verband? We gaan het verband van de
populatie onderzoeken.
-4-