100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached 4.6 TrustPilot
logo-home
Summary

Statistiek 3 - Complete samenvatting a.d.h.v. leerdoelen

Rating
-
Sold
1
Pages
26
Uploaded on
30-05-2021
Written in
2020/2021

Deze samenvatting is opgebouwd aan de hand van de leerdoelen die zijn opgesteld voor het vak. Enkele aanvullende informatie uit de colleges is toegevoegd.

Institution
Course

Content preview

STATISTIEK III
LEERDOELEN

,MULTIPLE REGRESSIE MET MEER DAN 2 IV’S
Begrijpen wanneer regressie handig en zinvol kan zijn.
Regressie = Een eenvoudige benadering van de relatie tussen variabelen. Enkele kenmerken:
- Het is een eenvoudige weergave van onze populatie.
- Er zijn alleen continue variabelen.
- Verband tussen 𝑥 en 𝑦.
- Relatie wordt onderzocht aan de hand van een lineair model.
- De helling wordt gerapporteerd. Indien deze helling groter is dan 0, is er een verschil.
- Een regressie zegt niets over causaliteit.

Een regressieanalyse wordt gebruikt om een voorspelling te maken. De afhankelijke variabele, ook wel respons
(𝑦), die moeilijk te voorspellen is, wordt voorspelt aan de hand van de onafhankelijke variabele (𝑥).
→ Associatie ≠ causaliteit.

Enkelvoudig lineair regressiemodel = Afhankelijke variabele wordt voorspelt aan de hand van een
onafhankelijke variabele. Dit is het meest eenvoudige regressiemodel, waarbij er een voorspelling gedaan
wordt aan de hand van een rechte lijn.
𝑦 = 𝛼 + 𝛽𝑥 + 𝜀 → 𝑦 = 𝑎 + 𝑏𝑥 + 𝑒 → 𝑦̂ = 𝑎 + 𝑏𝑥
𝑦̂ = De voorspelde 𝑦. Hier hoeft dus geen residu toegevoegd worden aan de formule.

Het residu (𝑒) is de mate waarin de observaties afwijken van de geschatte regressielijn. Deze wordt
meegenomen bij het model van de geobserveerde waarde van 𝑦, maar niet voor de geschatte waarde van 𝑦.
Bij de geschatte waarde van 𝑦 ga je er namelijk vanuit dat het residu 0 is.

Bepalen degrees of freedom (df)
𝐻𝑒𝑡 𝑎𝑎𝑛𝑡𝑎𝑙 (𝑛) – ℎ𝑒𝑡 𝑎𝑎𝑛𝑡𝑎𝑙 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑒𝑟𝑠 (𝑝)
→ In een enkelvoudige lineaire regressie zijn dit er altijd twee (𝛼 en 𝛽).

De multiple lineaire regressie maakt gebruik van meerdere predictoren. Hierbij wordt eveneens een lineair
verband gebruikt.
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 +. . . +𝛽𝑝 𝑥𝑖𝑝 + 𝜀𝑖

Geschatte multiple regressielijn
𝑦 = 𝛼 + 𝛽1 𝑥1 + 𝛽2 𝑥2

Hierbij zijn 𝛽1 en 𝛽2 partiële regressiecoëfficiënten. De waarden zijn afhankelijk van de andere voorspellers in
het model.
- 𝛽1 = Partiële regressiecoëfficiënt voor 𝑦 op 𝑥1 , waarbij 𝑥2 ook aanwezig is in het model.
- 𝛼 = Geschatte waarde van 𝑦̂ bij 𝑥1 = 𝑥2 = 0. Dit wordt soms ook genoteerd als 𝛽0 .

De gestandaardiseerde regressiecoëfficiënt (𝑏1∗ )
𝑟 −𝑟 𝑟
𝑏1∗ = 𝑦1 𝑦22 12
1−𝑟12


Indien we enkel de beschikking hebben over een
correlatiematrix, kunnen we dus wel de
regressiecoëfficiënten uitrekenen. Eerst kunnen
de gestandaardiseerde regressiecoëfficiënten
uitgerekend worden, waarna de 𝑏𝑖 en 𝑎
uitgerekend kunnen worden.
𝑠
- 𝑏𝑖 = 𝑏𝑖∗ 𝑦
𝑠𝑥𝑖
- 𝑎 = 𝑦̅ − 𝑏1 𝑥̅1 − 𝑏2 𝑥̅2

Begrijpen wat het concept ordinary least squared betekent.
Bij een Ordinairy Least Square (OLS) is er voor elke waarde van x een voorspelde waarde van 𝑦 (𝑦̂) en een
waargenomen 𝑦. Het verschil tussen deze waarden is het residu: 𝑒 = 𝑦𝑖 − 𝑦̂𝑖 .

, Bij een OLS worden de residuen gekwadrateerd en wordt er gezocht naar de kleinst mogelijke residuen.
Het wordt gekwadrateerd zodat negatieve residuen wegvallen tegen positieve residuen.

Optimale richtingscoëfficiënt en intercept voor een OLS
𝑠
𝑏=𝑟 𝑦 𝑎 = 𝑦̅ − 𝑏𝑥̅
𝑠𝑥


Een OLS is altijd uit te voeren, maar levert niet altijd zinvolle uitkomsten op. Indien het voldoet aan de
volgende voorwaarden, levert het wél zinvolle uitkomsten.
- Lineariteit.
- Homoscedasticiteit = Spreiding van de residuen. Alle subpopulaties voor elke waarde van x zijn
normaal verdeeld met gelijke variantie. Dit is bv. niet het geval met een u-vormige puntenwolk in een
spreidingsdiagram.
- Onafhankelijkheid van de residuen. Ze zijn onafhankelijk van x. Ofwel, het moet niet uitmaken welke
waarde van x er is, hoe hoog of laag de waarde van de residuen zijn.

Inferentie = Zorgt ervoor dat je uitspraken kan doen over je voorspellingsmodel.
- Standaardfout van de residuen. Als de SE heel klein is, dan betekent dat dat de spreiding van de
residuen heel klein is, dus dan heb je een goede fit van je regressiemodel.
∑(𝑦𝑖 −𝑦̂𝑖 )²
𝑆𝐸𝑦−𝑦̂ = √
𝑛−2
- Betrouwbaarheidsinterval = Zegt iets over hoe goed de schatter is.
- Hypothesetoets
Voor de BHI en hypothesetoetsen wordt een t-verdeling gebruikt voor de parameters a, b en y. Voor r wordt
1
daarentegen een normaalverdeling gebruikt, waarbij 𝑆𝐸 = .
√𝑛−3


De assumpties van regressie kennen
Er moet altijd gecontroleerd worden of er wordt voldaan aan de aannames van regressie. Indien er niet aan
voldaan wordt, zeggen de resultaten eigenlijk niks.

Assumpties enkelvoudige lineaire regressie
1. Lineariteit = Er wordt verondersteld dat er een lineaire relatie is tussen 𝑥 en het gemiddelde van 𝑦. Als
je iets weet over de onafhankelijke variabele, dan kan deze kennis gebruikt worden bij de voorspelling
van de afhankelijke variabele. Residuen zijn normaal verdeeld met een gemiddelde van 0.
o Gevolgen indien geschonden
▪ Slechte fit van het model.
▪ Bias resultaten.
▪ Misinterpretaties = De schatter is structureel te hoog of te laag.
o Controleren: Door middel van een residual plot. Er mag geen patroon te herkennen zijn.
o Oplossing: Data transformeren of een non-lineaire regressie gebruiken.
2. Homoscedasticiteit = Alle subpopulaties voor elke waarde van 𝑥 zijn normaal verdeeld, met een
gelijke variantie (𝜎).
o Heteroscedasticiteit = Indien er geen normaalverdeling is. Er is een scheve verdeling.
o Gevolg indien geschonden: Er zijn systematisch te hoge of te lage schattingen.
o Controleren: Residual plot. De spreiding moet gelijk zijn. (Dus niet bij het ene punt smaller
dan bij het andere punt).
o Oplossingen
▪ Verwijderen van outliers. Hierbij is het belangrijk dat je erop let dat je geen
informatie verliest. Kijk goed naar de oorzaak van outliers.
▪ Data transformeren.
▪ Schattingsmethode gebruiken.

Connected book

Written for

Institution
Study
Course

Document information

Summarized whole book?
No
Which chapters are summarized?
Hoofdstuk 11 t/m 15
Uploaded on
May 30, 2021
Number of pages
26
Written in
2020/2021
Type
SUMMARY

Subjects

$7.67
Get access to the full document:

100% satisfaction guarantee
Immediately available after payment
Both online and in PDF
No strings attached

Get to know the seller
Seller avatar
mylenenijp
4.0
(1)

Also available in package deal

Get to know the seller

Seller avatar
mylenenijp Saxion Hogeschool
Follow You need to be logged in order to follow users or courses
Sold
10
Member since
11 year
Number of followers
9
Documents
4
Last sold
2 year ago

4.0

1 reviews

5
0
4
1
3
0
2
0
1
0

Trending documents

Recently viewed by you

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their tests and reviewed by others who've used these notes.

Didn't get what you expected? Choose another document

No worries! You can instantly pick a different document that better fits what you're looking for.

Pay as you like, start learning right away

No subscription, no commitments. Pay the way you're used to via credit card and download your PDF document instantly.

Student with book image

“Bought, downloaded, and aced it. It really can be that simple.”

Alisha Student

Frequently asked questions