100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached 4.2 TrustPilot
logo-home
Summary

Samenvatting Aantekeningen Multivariate Analyse

Rating
3.0
(1)
Sold
7
Pages
98
Uploaded on
14-03-2019
Written in
2018/2019

Een uitgebreide samenvatting van alle hoorcolleges (1-12) van Multivariate Analyse, Master Communicatiewetenschap. Alles wat je moet weten voor het tentamen staat in deze samenvatting, incl. voorbeelden zoals besproken in de hoorcolleges.

Show more Read less
Institution
Course











Whoops! We can’t load your doc right now. Try again or contact support.

Connected book

Written for

Institution
Study
Course

Document information

Summarized whole book?
No
Which chapters are summarized?
Hoofdstuk 6, 9, 11, 12, 13, 15, 16 en17
Uploaded on
March 14, 2019
File latest updated on
March 19, 2019
Number of pages
98
Written in
2018/2019
Type
Summary

Subjects

Content preview

Week 1 -3: Observationele methoden (lineaire regressie)
Week 4-6: Experimentele methoden

COLLEGE 1: LINEAIRE REGRESSIE EN MODELLEN VERGELIJKING
Hoofdstuk 9 – Andy Field

Regressie | 4 Vragen:
à Waarom hebben we een multipele regressie nodig?
à Wat meten we met regressie?
à Hebben we de afhankelijke variabele voldoende ‘verklaard’?
à Mogen we conclusies trekken over de populatie?
o We analyseren altijd data uit een steekproef

WAAROM HEBBEN WE EEN MULTIPELE REGRESSIE NODIG?
Doel: Het bestuderen van de (causale) relatie tussen een continue variabele en een of meerdere
andere variabelen (dit kan van alles zijn: continue of categorische variabele).

De afhankelijke variabele van een multiple lineaire regressie is een continue variabele of een
tenminste een variabele die beschouwd kan worden als continue (bijvoorbeeld ordinaal).
à Als de afhankelijke 0/1 is, kan er geen lineaire regressie gebruikt worden.
à Bijvoorbeeld een logistische regressie à dit is geen onderdeel van dit vak. Bijvoorbeeld,
getrouwd of niet getrouwd.

Eisen voor causaliteit X à Y:
1. Er moet een correlatie zijn tussen X en Y
2. X (=oorzaak) gebeurt eerder in de tijd dan Y (=gevolg)
3. Alle alternatieve verklaringen van Y zijn uitgesloten

Wat we (tot nu toe) geleerd hebben in voorgaande vakken:
à Correlatie ≠ causaliteit: correlatie betekent niet per se causatie; waar een correlatie is, is
sprake van een causatie maar niet perse tussen x en y.
à Eis (3) het moeilijkst te voldaan is (alternatieve verklaringen van Y zijn uitgesloten)

Met multipele regressie kunnen we kijken of eis 3 klopt.
à Het uitsluiten van alternatieve verklaringen door het meenemen van/controleren voor
meerdere variabelen

ß X2 is wel een ‘alternatieve/ook’ verklaring van Y…maar is
niet belangrijk voor het bepalen van een causaal effect van X1
op Y. Wat betekent alternatief? Betekent dat het ipv X1, X2
erbij komt. X2 is ook een belangrijke verklaring van Y, maar
dat heeft geen invloed op de causale relatie tussen X1 en Y.

à X2 is wel een ‘alternatieve’ verklaring van Y…maar is wel
belangrijk voor het bepalen van het causaal effect van X1 op
Y. Er is hier sprake van iets anders. X2 wat bedoeld is met 3e eis van causaliteit, hier is X2 een
alternatieve verklaring; hier moeten we rekening mee houden. De multipele regressie kan je wel
rekening houden met de alternatieve verklaringen van de Y. Om vast te stellen dat er geen
alternatieve verklaringen voor Y zijn, gebruiken we een multipele regressie.




1

,WAT METEN WE MET EEN REGRESSIE?
à Het verband tussen een continue afhankelijke variabele (Y) en een of
meerdere andere, onafhankelijke variabelen (X)
à De onafhankelijke variabele hoeft niet per se continue te zijn
à De afhankelijke moet altijd continue zijn
à Bijvoorbeeld: Wat is het verband tussen experience (werkervaring) en
income (inkomen)?
à Dit kunnen we in een scatterplot zetten
o Bijvoorbeeld iemand die 14 jaar werkervaring heeft een
inkomen van 105.

Met een regressie wordt gemeten: Welke lijn verklaart het verband tussen onze onafhankelijke
variabele (Y) en onze onafhankelijke variabele (X) het beste? Ofwel: welke waarden voor a en b
passen het best voor onze data?

We willen de scatterplot vervangen door een lijn, die ongeveer of zoveel mogelijk informatie levert
als een scatterplot. In de scatterplot zien we een toenemende relatie: hoe langer je werkt, hoe hoger
je inkomen is. Het voordeel van de lijn in tegenstelling tot de scatterplot, is dat de lijn duidelijker af
te lezen.




We verwachten dat het verband tussen experience en income lineair is:
à Als de onafhankelijke variabele (X) met 1 toeneemt, met hoeveel neemt de afhankelijke
variabele (Y) dan toe (of af)?

In formulevorm lineaire regressie 𝑦" = 𝑎 + 𝑏 ∙ 𝑥
à a = snijpunt van lijn met y-as (constante)
à b = hellingsgraad (slope) van de lijn: met hoeveel neemt y toe als x met 1 toeneemt?
o Het effect van de onafhankelijke variabele!

Welke lijn past het best?
à De lijn die het minst ‘verschilt van de werkelijkheid’, oftewel: de lijn die het minst verschil
van onze observaties
à Welke lijn minimaliseert de residuen?

De verschillen tussen de regressielijn (Y – Y (hat)) en onze observaties noemen we residuen
Voor iedere persoon in de steekproef maken we een ‘fout’, een residu.

Regressie: (Ordinary) Least Squares Estimates | Residu-berekening
à Least squares estimates (kleinste kwadraten methode)
à OLS is een manier om de lijn te berekenen die het minst verschilt van de werkelijkheid: a & b
berekenen op basis van de minimum van y en y geschat.
à Formele definitie:
à OLS a en b zijn waarden voor de regressievergelijking 𝒚+ = a + b*x waarmee de som (alles bij
elkaar opgeteld) van de gekwadrateerde residuen geminimaliseerd is 𝚺 (𝒚 − 𝒚 /)𝟐 = 𝚺 𝜺𝟐



2

,De som voor alle gekwadrateerde residuen = de OLS-berekening

Regressiecoëfficiënten
Slope
/)5(𝒚5 𝒚
∑(𝒙5 𝒙 /)
𝑏= ∑ (𝒙5𝒙
/)𝟐


Intercept
𝑎 = 𝑦6 − 𝑏 ∙ 𝑥̅
Bij multipele regressie:
à Meer dan een b (onafhankelijke variabele)
à Formule 𝑦=𝑎+𝑏1·𝑥+𝑏2·𝑥+𝑏3·𝑥3...+𝑏k·𝑥k
à Dit maakt het plotten wel iets lastiger!
à Het principe blijft hetzelfde

a (constant) = Het gemiddelde uurloon als
iemand 0 scoort op experience en 0 scoort
op tenure (16,045)
b experience = hoeveel het uurloon
toeneemt, als experience met 1
toeneemt, gegeven tenure (0,471)
b tenure = hoeveel het uurloon toeneemt,
als tenure met 1 toeneemt, gegeven
experience (0,058)
uurloon formule = 16,045 + 0,471*experience + 0,058*tenure

Wat betekent gegeven? = rekening houden met
alternatieve verklaringen
Afhankelijk = uurloon

In model 1 wordt aangenomen dat alle vrouwen
hetzelfde zijn. Een vrouw verdient -4,123 minder,
gemiddeld gezien.

Het effect van geslacht wordt kleiner als we controleren
voor burgerlijke staat.

In model 2 wordt rekening gehouden met verschillen
tussen vrouwen: voor getrouwde vrouwen is de gender
pay gap groter dan voor ongetrouwde vrouwen. Bij niet-
getrouwde mensen, vrouwen 1.066 minder. Bij
sgetrouwde mensen, vrouwen verdienen -5.066 minder.
De verschillen zijn dus groter bij getrouwde mensen.

-3.537 = gewogen gemiddelde (steekproef) van effect
van geslacht voor ongetrouwde vrouwen (-1,006) en
effect van geslacht voor getrouwde vrouwen (-5.086).




3

, HEBBEN WE DE AFHANKELIJKE VARIABELE VOLDOENDE ‘VERKLAARD’?
We willen het uurloon verklaren; Hoe goed verklaren we uurloon?
R2: Vergelijking van onze regressielijn 𝒚
+ = a + b*x met de simpelste voorspeller van y: het gemiddelde
𝑦6
Het gemiddelde is gebruikt om het uurloon te verklaren.

R2 (formele definitie): de proportionele reductie van de fout
R2 interpretatie: Hoe beter is de regressielijn dan de lijn waar het gemiddelde wordt gebruikt, in de
voorspelling van het uurloon?




Hoeveel % kleiner is E2 ten opzichte van E1, een procentuele verbetering. Dit wordt de SST genoemd
(total) – Residual Sum of Squares (SSR)




4
$7.24
Get access to the full document:

100% satisfaction guarantee
Immediately available after payment
Both online and in PDF
No strings attached


Also available in package deal

Reviews from verified buyers

Showing all reviews
6 year ago

3.0

1 reviews

5
0
4
0
3
1
2
0
1
0
Trustworthy reviews on Stuvia

All reviews are made by real Stuvia users after verified purchases.

Get to know the seller

Seller avatar
Reputation scores are based on the amount of documents a seller has sold for a fee and the reviews they have received for those documents. There are three levels: Bronze, Silver and Gold. The better the reputation, the more your can rely on the quality of the sellers work.
1082580 Vrije Universiteit Amsterdam
Follow You need to be logged in order to follow users or courses
Sold
141
Member since
11 year
Number of followers
121
Documents
14
Last sold
1 year ago

3.7

25 reviews

5
2
4
16
3
6
2
0
1
1

Recently viewed by you

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their tests and reviewed by others who've used these notes.

Didn't get what you expected? Choose another document

No worries! You can instantly pick a different document that better fits what you're looking for.

Pay as you like, start learning right away

No subscription, no commitments. Pay the way you're used to via credit card and download your PDF document instantly.

Student with book image

“Bought, downloaded, and aced it. It really can be that simple.”

Alisha Student

Frequently asked questions