Statistiek II
Hoorcollege 1
Enkelvoudige lineaire regressie
Type variabelen die voorkomen in enkelvoudige lineaire regressie zijn:
- Een continue voorspeller; de onafhankelijke variabele (x)
- Een continue uitkomst; de afhankelijke variabele (y)
De belangrijkste aspecten van regressieanalyses:
- Onderzoeken het bestaan van een lineaire relatie tussen voorspeller en uitkomstvariabelen
- Bestuderen deze relatie op bijvoorbeeld richting en sterkte
- Voorspellen waardes van de uitkomstvariabele uit waardes van de voorspeller
De algemene formule voor enkelvoudige lineaire regressie is 𝑦 = 𝛼 + 𝛽𝑥. Hierin is 𝛼 het intercept en
𝛽 de helling. Het teken van de helling 𝛽 bepaalt de richting van de regressielijn:
- 𝛽>0 → Een toenemende lijn (positieve relatie tussen x en y)
- 𝛽=0 → Een horizontale lijn (geen relatie tussen x en y)
- 𝛽<0 → Een afnemende lijn (negatieve relatie tussen x en y)
Een steekproef kan gebruikt worden om de gehele populatie te schatten. De formule 𝑦 = 𝛼 + 𝛽𝑥
(populatie) kan omgeschreven worden naar 𝑦 = 𝑎 + 𝑏𝑥 (steekproef).
Kleinste kwadraten methode
Met behulp van de kleinste kwadratenmethode wordt gezocht naar de regressielijn waar de som van
de gekwadrateerde residuen het kleinst is. Een residu kan berekend worden met 𝑒/ = 𝑦/ − 𝑦/ . Het
doel is de regressielijn met de 𝑚𝑖𝑛 / 𝑒/4 = 𝑚𝑖𝑛 / 𝑦/ − 𝑦/ 4 = 𝑚𝑖𝑛 /[𝑦/ − (𝑎 + 𝑏𝑥/ )]4 te vinden.
<=
De wiskundige oplossing hiervoor is 𝑏 = 𝑟:; en 𝑎 = 𝑦 − 𝑏𝑥. Hierbij geldt dat:
<>
- 𝑟:; = de steekproefcorrelatie tussen x en y
- 𝑠: , 𝑠; = de steekproefstandaarddeviatie van x, y
- 𝑥, 𝑦 = het steekproefgemiddelde van x, y
Two-sample t-test
In een two-sample t-test bestaan er twee populaties: 𝑦A ∼ 𝒩(𝜇A , 𝜎) en 𝑦4 ∼ 𝒩(𝜇4 , 𝜎), waarbij de
parameters 𝜇A en 𝜇4 onbekend zijn en dezelfde standaarddeviatie toegekend hebben gekregen. De
toets die wordt gedaan heeft de hypotheses:
- ΗG : 𝜇A = 𝜇4
- ΗI : 𝜇A ≠ 𝜇4
Enkelvoudig lineair regressiemodel
De populatie regressievergelijking is 𝐸 𝑦 = 𝛼 + 𝛽𝑥, waarbij 𝐸 𝑦 de gemiddelde conditionele score
van y op x in de populatie is. Enkelvoudige lineaire regressie gaat uit van een lineaire relatie tussen x
en 𝐸 𝑦 in de populatie.
De aannames zijn:
- Gegeven x zijn de y-waardes normaal verdeeld
- De spreiding van de y-waardes is hetzelfde voor conditionele verdelingen
Individuele y-scores liggen verspreid rondom het gemiddelde 𝐸 𝑦 volgens de waarde van 𝜎. Bij een
individuele score hoort de formule 𝑦/ = 𝑎 + 𝑏𝑥/ + 𝜀/ . De 𝜀/ is niet gerelateerd aan x.
1
,Het statistische model 𝑦/ = 𝑎 + 𝑏𝑥/ + 𝜀/ staat voor data = model + error. De schatter voor 𝜎 4 is 𝑠 4
en wordt in een tabel weergegeven door root mean square error (RMSE). Het is een schatter voor de
variabiliteit van de populatie regressielijn.
Regressieanalyse versus correlatie
Enkelvoudige lineaire regressie probeert een lineaire relatie tussen x en y te modelleren en lijkt
<= <
daarmee veel op correlatie. Dit is ook zichtbaar in de formules: 𝑏 = 𝑟:; ↔ 𝑟:; = 𝑏 > .
<> <=
NOP(:,;) R(:R S:)(;R S;)
De correlatie wordt weergegeven door de formule 𝑟 = = T T
.
<Q : <Q(;) R(:R S:) R(;R S;)
- 𝑟 is gestandaardiseerd (−1 ≤ 𝑟 ≤ 1)
- 𝑟 geeft de richting en de sterkte van de lineaire relatie aan
𝑟 = 1 | een perfecte positieve lineaire relatie
𝑟 = 0 | geen lineaire relatie
𝑟 = −1| een perfecte negatieve relatie
- Als 𝑟 positief/negatief is, is b ook positief/negatief
- 𝑟 is gevoelig voor outliers
Regressie naar het gemiddelde
Als x met een standaarddeviatie toeneemt, neemt y toe met 𝑏𝑠: eenheden. Dit is zichtbaar in de
<=
volgende formule: 𝑦:W<> = 𝑎 + 𝑏(𝑥 + 𝑠: ). Omdat 𝑏 = 𝑟:; , zal 𝑏𝑠: = 𝑟:; 𝑠; overblijven.
<>
Wanneer x met een standaarddeviatie toeneemt, zal y enkel met 𝑟:; 𝑠; toenemen en dit is minder
dan een standaarddeviatie.
Regressie naar het gemiddelde wil zeggen dat hoe dichter 𝑟:; bij 0 ligt, hoe:
- Dichter de helling b bij 0 ligt
- Horizontaler de regressielijn loopt
- Dichter de y-waardes bij 𝑦 liggen
2
, Hoorcollege 2
Inferentie in regressie
Inferentie is het generaliseren van waarnemingen, kenmerken en eigenschappen uit steekproeven
naar de gehele populatie. Inferentie in regressiemodellen is afhankelijk van belangrijke aannames:
- De residuen zijn normaal verdeeld met gelijke standaarddeviaties
- De residuen zijn onafhankelijk van x
Als aan deze aannames voldaan is, kan laten zien worden dat de steekproevenverdelingen van a en b
ook normale verdelingen zijn: : 𝑎 ∼ 𝒩(𝛼, 𝜎I ) en 𝑏 ∼ 𝒩(𝛽, 𝜎X ). 𝜎I en 𝜎X zijn onbekend, omdat ze
afhankelijk zijn van 𝜎. Dit wordt opgelost door 𝑠 te gebruiken in plaats van 𝜎.
<
De standaardfout van de helling wordt gegeven door de formule: 𝜎X ≃ 𝑆𝐸X = . 𝑆𝐸X wordt
(:S:)T
kleiner wanneer:
- 𝑠 afneemt; de residuen rondom de regressielijn nemen af
- (𝑥 − 𝑥)4 toeneemt; dit kan door de steekproefgrootte te vergroten
We zijn vaak het meest geïnteresseerd om inferentie toe te passen op 𝛽.
Inferentie in correlatie
Net als a en b, zal ook de schatter 𝑟 van 𝜌 varieren. Bij correlatie worden de hypotheses ΗG : 𝜌 = 0
] ^S4
en ΗI : 𝜌 ≠ 0 getoetst. De test statistic die hierbij hoort is 𝑡 = .
AS] T
Onder ΗG heeft t een t n – 2 verdeling. Deze toets werkt alleen voor ΗG : 𝜌 = 𝜌G als 𝜌G = 0.
Een betrouwbaarheidsinterval heeft altijd de vorm 𝑠𝑐ℎ𝑎𝑡𝑡𝑒𝑟 ± 𝑘𝑟𝑖𝑡𝑖𝑒𝑘𝑒 𝑤𝑎𝑎𝑟𝑑𝑒 𝑥 𝑠𝑡𝑎𝑛𝑑𝑎𝑎𝑟𝑑𝑓𝑜𝑢𝑡.
Bij correlatie is de steekproevenverdeling van 𝑟 anders dan bij enkelvoudige regressie, niet normaal;
zelfs niet symmetrisch. Een interval in de vorm 𝑟 ± 𝑖𝑒𝑡𝑠 𝑥 𝑠𝑡𝑎𝑛𝑑𝑎𝑎𝑟𝑑𝑓𝑜𝑢𝑡] is dan ook niet geschikt.
Wanneer 𝜌 = 0, dan is de steekproevenverdeling van 𝑟 ongeveer normaal. Dit is dan ook de reden
dat een t-toets voor ΗG : 𝜌 = 0 mogelijk is. De steekproevenverdeling is niet symmetrisch als 𝜌 ≠ 0;
er zal een scheve verdeling zijn, omdat de correlatie een beperkt bereik heeft (−1 ≤ 𝑟 ≤ 1).
Fisher z-transformatie
Wanneer er geen sprake is van een normale verdeling, kan de verdeling getransformeerd worden
zodat deze ongeveer normaal wordt. 𝑟 moet zo getransformeerd worden dat de getransformeerde
correlatie 𝑟h ongeveer normaal is.
A AW]
De Fisher z-transformatie is: 𝑟h = log . Met ‘log’ wordt het natuurlijk logaritme (ln) bedoeld.
4 AS]
De getransformeerde 𝑟h is ongeveer normaal, met de volgende waarden:
- Gemiddelde = 𝜌h
- Standaarddeviatie = 1/ 𝑛 − 3
3
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller lise0. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $5.89. You're not tied to anything after your purchase.