Samenvatting van het boek van Agresti voor het eerste deeltentamen van Statistiek 2. De samenvatting is aangevuld met de collegestof en is geschreven in het Nederlands. Ik heb zelf een 7 gehaald op het tentamen.
Samenvatting Statistiek 2
Deeltentamen 1
Hoe werken lineaire regressie en correlatie? – Chapter 9
9.1 Wat zijn lineaire verbanden?
Regressieanalyse is het onderzoeken van verbanden tussen kwantitatieve
responsvariabelen (y of afhankelijke variabele) en verklarende variabelen (x of
onafhankelijke variabele).
Regressieanalyse heeft drie aspecten:
Onderzoeken of er een verband bestaat tussen variabelen
Bepalen wat de sterkte en/of richting is van dit verband
Een regressieformule maken om zo de waarde van de responsvariabele te kunnen
voorspellen aan de hand van de verklarende variabele
Een lineaire functie houdt in dat er een rechte lijn is door de datapunten in een grafiek. Deze
functie heeft de vorm: y = α + β(x). Hierbij is de Griekse letter alpha (α) de intercept, en de
Griekse letter bèta (β) de hellingscoëfficiënt.
De y-intercept is de waarde van y wanneer x = 0. De y-intercept is het punt waarop de lijn op
de y-as begint.
De hellingscoëfficiënt geeft de verandering aan in y, bij een toename van 1 punt bij x. De
hellingscoëfficiënt geeft dus letterlijk aan hoe steil de helling is. Over het algemeen is het zo
dat hoe groter β, hoe steiler de regressielijn.
De hellingscoëfficiënt geeft naast de steilheid van de helling ook aan of het verband positief
of negatief is. Het geeft echter niet aan hoe sterk het verband tussen twee variabelen is.
β > 0 stijgende lijn, dus een positieve relatie tussen x en y
β = 0 horizontale lijn, dus geen relatie tussen x en y. Dit is het geval wanneer de
twee variabelen onafhankelijk van elkaar zijn
β < 0 dalende lijn, dus een negatieve relatie tussen x en y
Een lineaire functie is een voorbeeld van een model; een versimpelde benadering van het
verband tussen variabelen in de populatie. Een model is dus niet de werkelijkheid maar een
versimpelde weergave ervan. Met een regressiemodel wordt meestal een complexer model
bedoeld dan een lineaire functie.
9.2 Hoe vind je de voorspellingsvergelijking met de kleinste-kwadratenmethode?
Bij regressieanalyse worden α en β als onbekende parameters beschouwd, waarvan met de
beschikbare data een inschatting wordt gemaakt. De eerste stap hierbij is het plotten van de
data in een puntgrafiek. Hierbij wordt voor elke y-waarde een punt aangegeven in de grafiek.
Dit punt heeft de coördinaten (x, y). Zo kun je zien of het wel logisch is om een lineaire
formule te maken.
De variabele y wordt geschat met ŷ. De vergelijking wordt benaderd door
de voorspellingsvergelijking (prediction equation): E(y) of ŷ = a + b(x). Deze lijn zal de ‘beste’
lijn weergeven, in de zin dat deze het dichtste ligt bij alle datapunten. In de
voorspellingsvergelijking kunnen a en b als volgt worden berekend:
Er zijn twee aannames waaraan de voorspellingsvergelijking moet voldoen:
Gegeven x, moeten de y-waarden normaal verdeeld zijn
, 2
De spreiding van de y-waarden moet hetzelfde zijn voor conditionele verdelingen
(dezelfde σ) (zie 9.3)) (zie 9.3)
Door in de voorspellingsvergelijking het verschil tussen de daadwerkelijke (geobserveerde)
y-waarden en de voorspelde ŷ-waarden te bekijken, wordt duidelijk hoe goed de
voorspellingsvergelijking is. Dit verschil wordt ook wel een residu genoemd, dit is y – ŷ.
De beste voorspellingsvergelijking is die met de kleinste residuen. Om die te vinden, worden
de residuen van de datapunten gekwadrateerd en opgeteld. Dit heet SSE (sum of squared
errors). SSE geeft dus aan hoe goed of slecht ŷ is in het inschatten van y. De formule voor
de SSE is: Σ(y – ŷ)2.
De kleinste-kwadratenmethode houdt in dat a en b in de formule ŷ = a + b(x) de waarden
hebben waarbij de SSE zo klein mogelijk is. De lijn die ontstaat heet de kleinste-
kwadratenlijn, dit is de beste lijn van alle mogelijke lijnen. In de meeste software heet de SSE
de residual sum of squares.
Een regressie-uitschieter is een datapunt dat ver buiten de trend van de andere datapunten
valt. Zo’n datapunt wordt invloedrijk genoemd wanneer het verwijderen ervan een grote
verandering teweeg brengt in de voorspellingsvergelijking. Dit effect is kleiner bij een grote
dataset. Het is soms beter om een uitschieter (outlier) buiten de voorspellingsvergelijking te
laten en erbij te vermelden bij het rapporteren van de resultaten.
9.3 Wat houdt het lineaire regressiemodel in?
Bij een regressieformule y = a + b(x) hoort bij elke x-waarde eenzelfde y-waarde. Dit heet
een deterministisch model. Soms is een probabilistisch model beter: een model waarin er
variabiliteit is in de waarde van y. Er kan dan gebruik worden gemaakt van een conditionele
verdeling, een verdeling waarbij er een extra conditie geldt, namelijk dat x een bepaalde
waarde heeft.
Een probabilistisch model geeft het gemiddelde van de y-waarden weer (niet de
daadwerkelijke waarde van y). De formule van een conditionele verdeling is E(y) = α + β(x).
Het symbool E staat voor de verwachte waarde.
Het lineaire regressiemodel kent naast α en β nog een parameter, namelijk σ oftewel de
conditionele standaarddeviatie. Deze beschrijft de standaarddeviatie van een conditionele
verdeling. Deze parameter meet de variabiliteit van de y-waarden voor alle personen met die
bepaalde x-waarde. De formule voor de conditionele variantie (in software ook wel RMSE
genoemd) is:
De vrijheidsgraden van een regressievergelijking zijn df = n – p,
waarbij p het aantal onbekende parameters is. Bij E(y) = α + β(x)
zijn er twee onbekende parameters (α en β) dus is df = n – 2.) dus is df = n – 2.
De standaarddeviatie van een conditionele verdeling hangt zowel van y als van x af en wordt
genoteerd als σ) (zie 9.3)y|x (voor de populatie) en sy|x (voor de steekproef), dit wordt meestal afgekort
tot σ) (zie 9.3) en s. Bij een marginale verdeling hangt de standaarddeviatie echter alleen van y af,
ongeacht de x. Daarom wordt hierbij de standaarddeviatie genoteerd als σ) (zie 9.3)y (voor de
populatie) en sy (voor de steekproef).
Σ(y – ȳ))2 wordt de totale som van kwadraten genoemd.
9.4 Hoe meet je de correlatie van een lineair verband?
Het verband tussen x en y wordt gemeten met de correlatie, genoteerd als r. De correlatie is
een gestandaardiseerde versie van de hellingscoëfficiënt en wordt ook wel de
gestandaardiseerde regressiecoëfficiënt (of Pearson correlatie) genoemd. De correlatie
wordt als volgt berekend:
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper lottekalk02. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €5,49. Je zit daarna nergens aan vast.