Statistiek 2 samenvatting
Week 1 – H9.1 t/m 9.3: Enkelvoudige lineaire regressie
Enkelvoudige regressie
y is een lineaire functie van x. De formule y = 𝛼 + 𝛽x drukt de observaties van y als een lineaire
functie van de observaties van x uit. De formule heeft een rechte lijn als grafiek met regressie
coëfficiënten: helling 𝛽 (beta) en intercept 𝛼 (alpha). De horizontale as (x-as) laat de mogelijke
waarden van x zien. De verticale as (y-as) laat de mogelijke waarden van y zien. De assen kruizen op
het punt waar x en y = 0.
Als x = 0 laat de formule y = 𝛼 + 𝛽x zien dat y = 𝛼 + 𝛽(0). Dus dan is y = 𝛼. De helling 𝛽 staat gelijk
aan de verandering in y als x met 1 eenheid omhoog gaat. Dus als de x-waarde van x = 0 naar x =1
gaat, gaat de y-waarde met β omhoog/omlaag.
Een model is een simpele benadering van de relatie tussen variabelen in de populatie. Voor een
gegeven waarde van x, verwacht het model y = 𝛼 + 𝛽x een waarde voor y. Hoe beter deze
verwachtingen zijn, des te beter het model. De eerste stap tot ‘model fitting’ is het plotten van de
data. Om te laten zien of het model met een ‘rechte-lijn’ trend past. Kan door middel van een
spreidingsdiagram. Als deze suggereert dat de model y = 𝛼 + 𝛽x zou passen, gebruiken we de data
om de lijn te schatten. Dus; spreidingsdiagram > Rechte lijn lijkt goed te passen maar blijft een
vereenvoudiging van de werkelijkheid (in de populatie) > Waarden van de constante 𝛼 en de helling
𝛽 moeten geschat worden.
Regressie uitbijter (regression outlier) = als een data punt verder van de lijn lijkt te vallen dan de rest
van de data. Dit data punt/observatie is influential als het verwijderen er van resulteert in een grote
verandering in de verwachte vergelijking.
Marginale gemiddelde van y = onconditioneel, dit betekent y zonder invloed x. Dit geef je aan als
bijvb. y = 26,7. De afstand van elk punt tot de lijn ( y = 26,7) geeft de voorspelfout.
Formule y = 𝛼 + 𝛽x
Geschatte formule ^y = a + bx
Intercept 𝛼 vs. a Coefficents > B > constant
Helling 𝛽 vs. b Coefficents > B > variabele
naam
Gemiddelde vd steekproef y
Residual (e = y- ^y ): het verschil tussen geobserveerde en verwachte waarde. Bijvb: Massachusetts
heeft poverty rate x = 10.7 en y = 3.9. Volgens de verwachte vergelijking wordt het dan ^y = -0,86 +
0,58(10,7). ^y = 5.4. Dus 3.9 – 5.4 = -1.5.
Least squares principe
Least squares estimates = a en b. Bij deze waardes is de SSE = (y- Ŷ)2, het minimum.
Least squares line ( ^y = a + bx): de lijn met de kleinste SSE.
ANOVA
1
,Heeft als doel het splitsen van de marginale variantie van y in een verklaard (het model) en
onverklaard (de fouten) deel. Het verklaarde deel vind je onder regression. Het onverklaarde deel
vind je onder residual.
Sum of squared errors onverklaarde variantie
SSE (SSE = (y- ^y )2): van elke observatie is de residual uitgerekend, gekwadrateerd en dan bij elkaar
op geteld. Als de residuals kleiner zijn dan is de SSE ook kleiner en de verwachte vergelijking dus
beter. De SSE beschrijft de variatie van de data rondom de verwachte lijn. In SPSS: ANOVA tabel >
sum of squares > residuals.
Total sum of squared errors totale/marginale variantie
De TSS (TSS = (y- y )2) is de totale/marginale variantie. Dus de verklaarde en onverklaarde variantie
bij elkaar opgeteld.
Conditionele standaarddeviatie op basis van SSE
De lineaire regressievergelijking heeft ook een standaarddeviatie van elke conditionele verdeling. De
𝜎 is de conditionele SD = geeft de spreiding van de 𝑦-waarden rond hun (conditionele) gemiddelde
gegeven x. Dat wil zeggen, 𝜎 is de spreiding van de 𝑦-waarden rond de regressielijn. Er wordt
aangenomen dat de conditionele verdeling van 𝑦 een normale verdeling is.
De assumptie is dat 𝜎 constant is: dat wil zeggen, 𝜎 is voor elke waarde van x gelijk. Om 𝜎 te
schatten gebruik je de SSE. De conditionele standaarddeviatie geeft immers de spreiding aan van de
y-waarden rondom de regressielijn. Dat is eigenlijk het zelfde als residuen (= afstand van elk punt tot
de regressielijn > afstand van elk punt tot het conditionele gemiddelde van y).
SSE ( y −Ŷ ) 2
Dus de onverklaarde standaarddeviatie van de residuen is 𝑠 =
model summary > standard error of the estimate.
√ n−2
=
√n−2
. In SPSS: tabel
De onverklaarde variantie is s2. In SPSS: ANOVA tabel > mean square > residuals.
Degrees of freedom (df) = als een regressievergelijking k aantal onbekende parameters heeft (in dit
geval twee want E(y) = 𝛼 + 𝛽x) is de df = n – k. In SPSS: ANOVA tabel > df.
Marginale standaarddeviatie op basis TSS
Je hebt ook een standaarddeviatie voor de marginale verdeling van y (hierbij gebruik je alleen de y-
waarden omdat het een marginale verdeling is dus x er niet bij komt te kijken). Dit wordt aangegeven
als een sy in een steekproef en een 𝜎y in de populatie. Bij een conditionele verdeling is het s y|x in een
steekproef en een 𝜎y|x in de populatie.
TSS ( y −Ῡ ) 2
Om de marginale standaarddeviatie uit te rekenen gebruik je 𝑠y =
√ n−2
=
√ n−1
.
Root MSE
Root MSE is de wortel uit de MSE (Mean Square Error), wat een schatting van de onverklaarde
variantie is. De Root MSE is dus de onverklaarde SD, of wel de SD van de residuen (de spreiding van
de punten rond de regressielijn).
2
, Lineair regressie model
Deterministisch model = bij het lineaire model y = 𝛼 + 𝛽x komt elke waarde van x overeen met één
waarde van y. Dit is onrealistisch want niet iedereen met dezelfde x-score heeft dezelfde y-score.
Voor elke x-groep is er een (kans) verdeling van y-scores. Bijvb: x = aantal jaar educatie en y = jaarlijks
inkomen. De respondenten met x =12 hebben niet allemaal dezelfde y. Want y hangt niet compleet
af van x.
Probabilistisch model = dit model beschrijft hoe scores op y kunnen variëren voor elke waarde van x.
Dus in plaats van het deterministische model, beschrijft het probabilistische model een (kans)
verdeling voor het jaarlijkse inkomen voor individuen met x = 12. Dit is de conditionele verdeling van
de y-waarden bij x = 12. Er is dan bijvoorbeeld ook een andere conditionele verdeling voor de y-
waarden bij x = 13.
Dit model gebruikt 𝛼 + 𝛽x om de gemiddelde van de y-waardes te representeren. Voor een gegeven
waarde van x, representeert 𝛼 + 𝛽x de gemiddelde van de conditionele verdeling van y (E(y)) voor
observaties gegeven die waarde van x.
E(y) = 𝛼 + 𝛽x is dan de lineaire enkelvoudige regressievergelijking. Dit is de analyse van de
samenhang tussen een afhankelijke variabele en een onafhankelijke variabele met behulp van een
lineair model. De regressie coëfficiënten 𝛼 en 𝛽 weet je niet dus schat je volgens het least squares
principe: gebruik de least squares estimates a en b en vorm je de verwachte vergelijking ^y = a + bx.
Bij elke waarde van x, schat ^y = a + bx de gemiddelde voor y voor alle observaties in de populatie
met die waarde van x.
Week 2 – H9.4 + H9.5: Inferentie voor lineaire regressie 1
Correlatie enkelvoudig dus kleine r
Van twee kwantitatieve variabelen, kan je de samenhang meten. De helling b van de verwachte
vergelijking vertelt ons de richting van de samenhang (of de verwachte lijn omhoog of omlaag loopt
als x groter wordt, dus of de samenhang positief of negatief is). De helling vertelt ons echter niet hoe
sterk de samenhang is. Dit komt omdat de helling intrinsiek gelinkt is aan maat eenheden. De helling
b laat ons niet direct zien of de samenhang sterk of zwak is, omdat we b zo groot of klein kunnen
maken als we willen. Correlatie hangt niet af van maat eenheden en kan dus wel de samenhang
berekenen. De correlatie is de gestandaardiseerde versie van de helling.
Sx
De correlatie tussen variabelen x en y wordt aangegeven door correlatiecoëfficiënt r = ( ). Deze
Sy
hangt samen met de helling volgens de verwachte vergelijking y = 𝛼 + 𝛽x. Als de steekproeven
standaarddeviaties gelijk zijn (sx=sy) dan is r gelijk aan b.
Kenmerken van r:
Relatie tussen twee continue variabelen en geeft richting sterkte van lineair verband aan
r is tussen -1 en 1 & r= 0 als b = 0
r > 0 als de variabelen positief samenhangen & r < 0 als de variabelen negatief samenhangen
Hoe groter de absolute waarde van r, hoe groter de lineaire samenhang
Gevoelig voor uitbijters
In SPSS: tabel model summary > R
In SPSS R-square = correlatie in het kwadraat
3
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper nadiaschadenberg. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €7,98. Je zit daarna nergens aan vast.