Statistiek II
Hoorcollege 1
Enkelvoudige lineaire regressie
Type variabelen die voorkomen in enkelvoudige lineaire regressie zijn:
- Een continue voorspeller; de onafhankelijke variabele (x)
- Een continue uitkomst; de afhankelijke variabele (y)
De belangrijkste aspecten van regressieanalyses:
- Onderzoeken het bestaan van een lineaire relatie tussen voorspeller en uitkomstvariabelen
- Bestuderen deze relatie op bijvoorbeeld richting en sterkte
- Voorspellen waardes van de uitkomstvariabele uit waardes van de voorspeller
De algemene formule voor enkelvoudige lineaire regressie is 𝑦 = 𝛼 + 𝛽𝑥. Hierin is 𝛼 het intercept en
𝛽 de helling. Het teken van de helling 𝛽 bepaalt de richting van de regressielijn:
- 𝛽>0 → Een toenemende lijn (positieve relatie tussen x en y)
- 𝛽=0 → Een horizontale lijn (geen relatie tussen x en y)
- 𝛽<0 → Een afnemende lijn (negatieve relatie tussen x en y)
Een steekproef kan gebruikt worden om de gehele populatie te schatten. De formule 𝑦 = 𝛼 + 𝛽𝑥
(populatie) kan omgeschreven worden naar 𝑦 = 𝑎 + 𝑏𝑥 (steekproef).
Kleinste kwadraten methode
Met behulp van de kleinste kwadratenmethode wordt gezocht naar de regressielijn waar de som van
de gekwadrateerde residuen het kleinst is. Een residu kan berekend worden met 𝑒/ = 𝑦/ − 𝑦/ . Het
doel is de regressielijn met de 𝑚𝑖𝑛 / 𝑒/4 = 𝑚𝑖𝑛 / 𝑦/ − 𝑦/ 4 = 𝑚𝑖𝑛 /[𝑦/ − (𝑎 + 𝑏𝑥/ )]4 te vinden.
<=
De wiskundige oplossing hiervoor is 𝑏 = 𝑟:; en 𝑎 = 𝑦 − 𝑏𝑥. Hierbij geldt dat:
<>
- 𝑟:; = de steekproefcorrelatie tussen x en y
- 𝑠: , 𝑠; = de steekproefstandaarddeviatie van x, y
- 𝑥, 𝑦 = het steekproefgemiddelde van x, y
Two-sample t-test
In een two-sample t-test bestaan er twee populaties: 𝑦A ∼ 𝒩(𝜇A , 𝜎) en 𝑦4 ∼ 𝒩(𝜇4 , 𝜎), waarbij de
parameters 𝜇A en 𝜇4 onbekend zijn en dezelfde standaarddeviatie toegekend hebben gekregen. De
toets die wordt gedaan heeft de hypotheses:
- ΗG : 𝜇A = 𝜇4
- ΗI : 𝜇A ≠ 𝜇4
Enkelvoudig lineair regressiemodel
De populatie regressievergelijking is 𝐸 𝑦 = 𝛼 + 𝛽𝑥, waarbij 𝐸 𝑦 de gemiddelde conditionele score
van y op x in de populatie is. Enkelvoudige lineaire regressie gaat uit van een lineaire relatie tussen x
en 𝐸 𝑦 in de populatie.
De aannames zijn:
- Gegeven x zijn de y-waardes normaal verdeeld
- De spreiding van de y-waardes is hetzelfde voor conditionele verdelingen
Individuele y-scores liggen verspreid rondom het gemiddelde 𝐸 𝑦 volgens de waarde van 𝜎. Bij een
individuele score hoort de formule 𝑦/ = 𝑎 + 𝑏𝑥/ + 𝜀/ . De 𝜀/ is niet gerelateerd aan x.
1
,Het statistische model 𝑦/ = 𝑎 + 𝑏𝑥/ + 𝜀/ staat voor data = model + error. De schatter voor 𝜎 4 is 𝑠 4
en wordt in een tabel weergegeven door root mean square error (RMSE). Het is een schatter voor de
variabiliteit van de populatie regressielijn.
Regressieanalyse versus correlatie
Enkelvoudige lineaire regressie probeert een lineaire relatie tussen x en y te modelleren en lijkt
<= <
daarmee veel op correlatie. Dit is ook zichtbaar in de formules: 𝑏 = 𝑟:; ↔ 𝑟:; = 𝑏 > .
<> <=
NOP(:,;) R(:R S:)(;R S;)
De correlatie wordt weergegeven door de formule 𝑟 = = T T
.
<Q : <Q(;) R(:R S:) R(;R S;)
- 𝑟 is gestandaardiseerd (−1 ≤ 𝑟 ≤ 1)
- 𝑟 geeft de richting en de sterkte van de lineaire relatie aan
𝑟 = 1 | een perfecte positieve lineaire relatie
𝑟 = 0 | geen lineaire relatie
𝑟 = −1| een perfecte negatieve relatie
- Als 𝑟 positief/negatief is, is b ook positief/negatief
- 𝑟 is gevoelig voor outliers
Regressie naar het gemiddelde
Als x met een standaarddeviatie toeneemt, neemt y toe met 𝑏𝑠: eenheden. Dit is zichtbaar in de
<=
volgende formule: 𝑦:W<> = 𝑎 + 𝑏(𝑥 + 𝑠: ). Omdat 𝑏 = 𝑟:; , zal 𝑏𝑠: = 𝑟:; 𝑠; overblijven.
<>
Wanneer x met een standaarddeviatie toeneemt, zal y enkel met 𝑟:; 𝑠; toenemen en dit is minder
dan een standaarddeviatie.
Regressie naar het gemiddelde wil zeggen dat hoe dichter 𝑟:; bij 0 ligt, hoe:
- Dichter de helling b bij 0 ligt
- Horizontaler de regressielijn loopt
- Dichter de y-waardes bij 𝑦 liggen
2
, Hoorcollege 2
Inferentie in regressie
Inferentie is het generaliseren van waarnemingen, kenmerken en eigenschappen uit steekproeven
naar de gehele populatie. Inferentie in regressiemodellen is afhankelijk van belangrijke aannames:
- De residuen zijn normaal verdeeld met gelijke standaarddeviaties
- De residuen zijn onafhankelijk van x
Als aan deze aannames voldaan is, kan laten zien worden dat de steekproevenverdelingen van a en b
ook normale verdelingen zijn: : 𝑎 ∼ 𝒩(𝛼, 𝜎I ) en 𝑏 ∼ 𝒩(𝛽, 𝜎X ). 𝜎I en 𝜎X zijn onbekend, omdat ze
afhankelijk zijn van 𝜎. Dit wordt opgelost door 𝑠 te gebruiken in plaats van 𝜎.
<
De standaardfout van de helling wordt gegeven door de formule: 𝜎X ≃ 𝑆𝐸X = . 𝑆𝐸X wordt
(:S:)T
kleiner wanneer:
- 𝑠 afneemt; de residuen rondom de regressielijn nemen af
- (𝑥 − 𝑥)4 toeneemt; dit kan door de steekproefgrootte te vergroten
We zijn vaak het meest geïnteresseerd om inferentie toe te passen op 𝛽.
Inferentie in correlatie
Net als a en b, zal ook de schatter 𝑟 van 𝜌 varieren. Bij correlatie worden de hypotheses ΗG : 𝜌 = 0
] ^S4
en ΗI : 𝜌 ≠ 0 getoetst. De test statistic die hierbij hoort is 𝑡 = .
AS] T
Onder ΗG heeft t een t n – 2 verdeling. Deze toets werkt alleen voor ΗG : 𝜌 = 𝜌G als 𝜌G = 0.
Een betrouwbaarheidsinterval heeft altijd de vorm 𝑠𝑐ℎ𝑎𝑡𝑡𝑒𝑟 ± 𝑘𝑟𝑖𝑡𝑖𝑒𝑘𝑒 𝑤𝑎𝑎𝑟𝑑𝑒 𝑥 𝑠𝑡𝑎𝑛𝑑𝑎𝑎𝑟𝑑𝑓𝑜𝑢𝑡.
Bij correlatie is de steekproevenverdeling van 𝑟 anders dan bij enkelvoudige regressie, niet normaal;
zelfs niet symmetrisch. Een interval in de vorm 𝑟 ± 𝑖𝑒𝑡𝑠 𝑥 𝑠𝑡𝑎𝑛𝑑𝑎𝑎𝑟𝑑𝑓𝑜𝑢𝑡] is dan ook niet geschikt.
Wanneer 𝜌 = 0, dan is de steekproevenverdeling van 𝑟 ongeveer normaal. Dit is dan ook de reden
dat een t-toets voor ΗG : 𝜌 = 0 mogelijk is. De steekproevenverdeling is niet symmetrisch als 𝜌 ≠ 0;
er zal een scheve verdeling zijn, omdat de correlatie een beperkt bereik heeft (−1 ≤ 𝑟 ≤ 1).
Fisher z-transformatie
Wanneer er geen sprake is van een normale verdeling, kan de verdeling getransformeerd worden
zodat deze ongeveer normaal wordt. 𝑟 moet zo getransformeerd worden dat de getransformeerde
correlatie 𝑟h ongeveer normaal is.
A AW]
De Fisher z-transformatie is: 𝑟h = log . Met ‘log’ wordt het natuurlijk logaritme (ln) bedoeld.
4 AS]
De getransformeerde 𝑟h is ongeveer normaal, met de volgende waarden:
- Gemiddelde = 𝜌h
- Standaarddeviatie = 1/ 𝑛 − 3
3
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper lise0. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €5,49. Je zit daarna nergens aan vast.