100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached
logo-home
Statistiek 3 - Complete samenvatting a.d.h.v. leerdoelen $6.47
Add to cart

Summary

Statistiek 3 - Complete samenvatting a.d.h.v. leerdoelen

 1 purchase
  • Course
  • Institution
  • Book

Deze samenvatting is opgebouwd aan de hand van de leerdoelen die zijn opgesteld voor het vak. Enkele aanvullende informatie uit de colleges is toegevoegd.

Preview 3 out of 26  pages

  • No
  • Hoofdstuk 11 t/m 15
  • May 30, 2021
  • 26
  • 2020/2021
  • Summary
avatar-seller
STATISTIEK III
LEERDOELEN

,MULTIPLE REGRESSIE MET MEER DAN 2 IV’S
Begrijpen wanneer regressie handig en zinvol kan zijn.
Regressie = Een eenvoudige benadering van de relatie tussen variabelen. Enkele kenmerken:
- Het is een eenvoudige weergave van onze populatie.
- Er zijn alleen continue variabelen.
- Verband tussen 𝑥 en 𝑦.
- Relatie wordt onderzocht aan de hand van een lineair model.
- De helling wordt gerapporteerd. Indien deze helling groter is dan 0, is er een verschil.
- Een regressie zegt niets over causaliteit.

Een regressieanalyse wordt gebruikt om een voorspelling te maken. De afhankelijke variabele, ook wel respons
(𝑦), die moeilijk te voorspellen is, wordt voorspelt aan de hand van de onafhankelijke variabele (𝑥).
→ Associatie ≠ causaliteit.

Enkelvoudig lineair regressiemodel = Afhankelijke variabele wordt voorspelt aan de hand van een
onafhankelijke variabele. Dit is het meest eenvoudige regressiemodel, waarbij er een voorspelling gedaan
wordt aan de hand van een rechte lijn.
𝑦 = 𝛼 + 𝛽𝑥 + 𝜀 → 𝑦 = 𝑎 + 𝑏𝑥 + 𝑒 → 𝑦̂ = 𝑎 + 𝑏𝑥
𝑦̂ = De voorspelde 𝑦. Hier hoeft dus geen residu toegevoegd worden aan de formule.

Het residu (𝑒) is de mate waarin de observaties afwijken van de geschatte regressielijn. Deze wordt
meegenomen bij het model van de geobserveerde waarde van 𝑦, maar niet voor de geschatte waarde van 𝑦.
Bij de geschatte waarde van 𝑦 ga je er namelijk vanuit dat het residu 0 is.

Bepalen degrees of freedom (df)
𝐻𝑒𝑡 𝑎𝑎𝑛𝑡𝑎𝑙 (𝑛) – ℎ𝑒𝑡 𝑎𝑎𝑛𝑡𝑎𝑙 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑒𝑟𝑠 (𝑝)
→ In een enkelvoudige lineaire regressie zijn dit er altijd twee (𝛼 en 𝛽).

De multiple lineaire regressie maakt gebruik van meerdere predictoren. Hierbij wordt eveneens een lineair
verband gebruikt.
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 +. . . +𝛽𝑝 𝑥𝑖𝑝 + 𝜀𝑖

Geschatte multiple regressielijn
𝑦 = 𝛼 + 𝛽1 𝑥1 + 𝛽2 𝑥2

Hierbij zijn 𝛽1 en 𝛽2 partiële regressiecoëfficiënten. De waarden zijn afhankelijk van de andere voorspellers in
het model.
- 𝛽1 = Partiële regressiecoëfficiënt voor 𝑦 op 𝑥1 , waarbij 𝑥2 ook aanwezig is in het model.
- 𝛼 = Geschatte waarde van 𝑦̂ bij 𝑥1 = 𝑥2 = 0. Dit wordt soms ook genoteerd als 𝛽0 .

De gestandaardiseerde regressiecoëfficiënt (𝑏1∗ )
𝑟 −𝑟 𝑟
𝑏1∗ = 𝑦1 𝑦22 12
1−𝑟12


Indien we enkel de beschikking hebben over een
correlatiematrix, kunnen we dus wel de
regressiecoëfficiënten uitrekenen. Eerst kunnen
de gestandaardiseerde regressiecoëfficiënten
uitgerekend worden, waarna de 𝑏𝑖 en 𝑎
uitgerekend kunnen worden.
𝑠
- 𝑏𝑖 = 𝑏𝑖∗ 𝑦
𝑠𝑥𝑖
- 𝑎 = 𝑦̅ − 𝑏1 𝑥̅1 − 𝑏2 𝑥̅2

Begrijpen wat het concept ordinary least squared betekent.
Bij een Ordinairy Least Square (OLS) is er voor elke waarde van x een voorspelde waarde van 𝑦 (𝑦̂) en een
waargenomen 𝑦. Het verschil tussen deze waarden is het residu: 𝑒 = 𝑦𝑖 − 𝑦̂𝑖 .

, Bij een OLS worden de residuen gekwadrateerd en wordt er gezocht naar de kleinst mogelijke residuen.
Het wordt gekwadrateerd zodat negatieve residuen wegvallen tegen positieve residuen.

Optimale richtingscoëfficiënt en intercept voor een OLS
𝑠
𝑏=𝑟 𝑦 𝑎 = 𝑦̅ − 𝑏𝑥̅
𝑠𝑥


Een OLS is altijd uit te voeren, maar levert niet altijd zinvolle uitkomsten op. Indien het voldoet aan de
volgende voorwaarden, levert het wél zinvolle uitkomsten.
- Lineariteit.
- Homoscedasticiteit = Spreiding van de residuen. Alle subpopulaties voor elke waarde van x zijn
normaal verdeeld met gelijke variantie. Dit is bv. niet het geval met een u-vormige puntenwolk in een
spreidingsdiagram.
- Onafhankelijkheid van de residuen. Ze zijn onafhankelijk van x. Ofwel, het moet niet uitmaken welke
waarde van x er is, hoe hoog of laag de waarde van de residuen zijn.

Inferentie = Zorgt ervoor dat je uitspraken kan doen over je voorspellingsmodel.
- Standaardfout van de residuen. Als de SE heel klein is, dan betekent dat dat de spreiding van de
residuen heel klein is, dus dan heb je een goede fit van je regressiemodel.
∑(𝑦𝑖 −𝑦̂𝑖 )²
𝑆𝐸𝑦−𝑦̂ = √
𝑛−2
- Betrouwbaarheidsinterval = Zegt iets over hoe goed de schatter is.
- Hypothesetoets
Voor de BHI en hypothesetoetsen wordt een t-verdeling gebruikt voor de parameters a, b en y. Voor r wordt
1
daarentegen een normaalverdeling gebruikt, waarbij 𝑆𝐸 = .
√𝑛−3


De assumpties van regressie kennen
Er moet altijd gecontroleerd worden of er wordt voldaan aan de aannames van regressie. Indien er niet aan
voldaan wordt, zeggen de resultaten eigenlijk niks.

Assumpties enkelvoudige lineaire regressie
1. Lineariteit = Er wordt verondersteld dat er een lineaire relatie is tussen 𝑥 en het gemiddelde van 𝑦. Als
je iets weet over de onafhankelijke variabele, dan kan deze kennis gebruikt worden bij de voorspelling
van de afhankelijke variabele. Residuen zijn normaal verdeeld met een gemiddelde van 0.
o Gevolgen indien geschonden
▪ Slechte fit van het model.
▪ Bias resultaten.
▪ Misinterpretaties = De schatter is structureel te hoog of te laag.
o Controleren: Door middel van een residual plot. Er mag geen patroon te herkennen zijn.
o Oplossing: Data transformeren of een non-lineaire regressie gebruiken.
2. Homoscedasticiteit = Alle subpopulaties voor elke waarde van 𝑥 zijn normaal verdeeld, met een
gelijke variantie (𝜎).
o Heteroscedasticiteit = Indien er geen normaalverdeling is. Er is een scheve verdeling.
o Gevolg indien geschonden: Er zijn systematisch te hoge of te lage schattingen.
o Controleren: Residual plot. De spreiding moet gelijk zijn. (Dus niet bij het ene punt smaller
dan bij het andere punt).
o Oplossingen
▪ Verwijderen van outliers. Hierbij is het belangrijk dat je erop let dat je geen
informatie verliest. Kijk goed naar de oorzaak van outliers.
▪ Data transformeren.
▪ Schattingsmethode gebruiken.

The benefits of buying summaries with Stuvia:

Guaranteed quality through customer reviews

Guaranteed quality through customer reviews

Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.

Quick and easy check-out

Quick and easy check-out

You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.

Focus on what matters

Focus on what matters

Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller mylenenijp. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $6.47. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews)

69252 documents were sold in the last 30 days

Founded in 2010, the go-to place to buy study notes for 15 years now

Start selling
$6.47  1x  sold
  • (0)
Add to cart
Added