Hierbij een samenvatting van alle hoofdstukken uit het boek van Field die je moet kennen voor het midterm examen. De samenvatting is in het nederlands.
Hoofdstuk 11.5 – dummy variabelen
In een lineair model kunnen er ook categorische voorspellers toegevoegd worden. Deze worden dan
gecodeerd met 0 en/of 1. Dus bijvoorbeeld: man = 0 en vrouw = 1. Echter wanneer er sprake is van
een variabele (bv religie) die verschillende categorieën bevat, dan moet er gebruik worden gemaakt
van dummy variabelen. Dat is een manier om groepen mensen te representeren aan de hand van het
gebruik van nullen en enen. Het aantal variabelen die we dan creëren is één minder dan de aantal
categorieën (groepen).
Er zijn acht basis stappen hiervoor:
1. Tel het aantal groepen en doe dat aantal min één.
2. Creëer het aantal nieuwe variabelen uit stap 1. Dit zijn je dummy variabelen.
3. Kies één groep als baseline waarmee al je andere groepen mee worden vergeleken. Denk
daarbij aan de groep die de meeste mensen bv vertegenwoordigd.
4. Wanneer je een baseline groep hebt gekozen dan krijgen die waarden uit die groep de
waarde 0.
5. Voor de eerste dummy variabele die je wilt vergelijken met de baseline stel je waarde 1 in.
Alle andere groepen zijn voor deze variabele dan 0.
6. De tweede dummy variabele die je daarna wilt vergelijken met de baseline krijgt ook waarde
1; de rest waarde 0.
7. Herhaal het proces totdat al je dummy variabelen gebruikt zijn.
8. Plaats alle dummy variabelen in het lineaire model in hetzelfde blok.
Voorbeeld waarin ‘’no affilliation’’ de baseline is:
Output
De niet gestandaardiseerde b-waarde vertelt ons iets over de verandering in uitkomst doordat er één
unit verandering is van de voorspeller.
Voor dummy variabelen betekent dat dus een verandering van 0 1.
Voor dummy variabelen geeft deze b waarde dus aan wat het verschil is in gemiddelde
van een bepaalde groep en de baseline groep.
,Hoofdstuk 9 – het lineaire regressie model
b0 en b1
- De linker grafiek is een grafiek waarbij de lijnen dezelfde intercept (b0), maar een andere
slope (b1).
- De rechter grafiek is een grafiek waarbij de lijnen een andere intercept (b0) hebben, maar
wel dezelfde slope (b1) hebben.
- B1 geeft bovendien de richting van de lijn aan (positief/negatief).
Regressie analyse
Een regressie analyse is een term voor de ‘’fitting’’ van een lineair model met de data, die gebruikt
wordt om waarden van de uitkomst variabelen te voorspellen (afhankelijke variabele) vanuit één of
meerdere voorspel variabelen (onafhankelijke variabelen). Met één voorspellen wordt het een
simpele regressie genoemd en met meerdere voorspellers wordt het een multiple regressie
genoemd.
- Residuen (residuals): het verschil tussen wat het model voorspelt en de geobserveerde data.
Deze som moet gekwadrateerd worden zodat de waarden elkaar niet wegspelen. Je krijgt
dan de residual sum of squares (SSr).
- SSr: geeft aan hoe goed het lineaire model de data fits. Als de gekwadrateerde verschillen
groot zijn, dan is het model niet representatief voor de data (er is veel error in de
voorspelling). Als de gekwadrateerde verschillen klein zijn is de lijn wél representatief.
Bias in lineaire modellen
Uitschieters (outliers)
Een uitschieter is een waarde die erg verschilt van alle andere waardes. Een uitschieter heeft zowel
invloed op b0 als op b1 en een uitschieter maakt de lijn vlakker. Om uitschieters te identificeren
moeten we naar cases kijken die het model onnauwkeurig voorspelt. Dus we kijken naar de
resisduals. Als die klein zijn dan zijn alle waarden rondom de lijn, wat goed is, want dan is het model
de perfecte fit voor de data.
Residuen laten de meetfout (errors) in het model zien. De ongestandaardiseerde residuen (de
normale residuen) zijn in dezelfde schaal als de uitkomstvariabele gemeten en zijn dus moeilijk te
gebruiken in andere modellen. Gestandaardiseerde residuen zijn residuen die tot z-scores zijn
getransformeerd en kunnen bij meerdere modellen gebruikt worden als standaard. Het voordeel is
dat er voor deze gestandaardiseerde residuen richtlijnen zijn over welke residuen acceptabel zijn en
welke niet.
De studentized residu varieert van punt tot punt. Ze hebben dezelfde proporties als de
gestandaardiseerde residuen alleen geven ze een iets preciezere schatting van de
meetfout in een specifiek geval.
, Invloedrijke gevallen
- Cook’s distance: deze kijkt naar de algemene invloed van één case op het model. Cook en
Weisberg geven dan ook aan dat waarden groter dan 1 reden voor bezorgdheid zouden
moeten zijn.
- Mahalanobis distance: deze meet de afstand van de scores tot het gemiddelde van de
predictorvariabele. Je kijkt naar de gevallen met de hoogste waardes. Hier hebben de
afstanden een chi-square distributie waarbij het aantal vrijheidsgraden gelijk is aan het
aantal voorspellende variabelen.
Het generaliseren van het model
In de sociale wetenschappen wil men graag de bevindingen kunnen generaliseren naar een hele
populatie. Hiervoor is het belangrijk dat aan alle assumpties voor regressieanalyse is voldaan.
De belangrijkste assumpties van een lineair model zijn al besproken in een eerder hoofdstuk.
Hieronder nogmaals de belangrijkste op een rijtje:
Lineariteit en optelbaarheid (additivity and linearity): De uitkomstvariabele moet in
werkelijkheid lineair samenhangen met alle predictors, en als je meerdere
predictorvariabelen hebt, moet hun gecombineerde effect het best beschreven worden door
het optellen van hun effecten.
Onafhankelijke meetfouten (independent errors): Voor elke twee observaties moet het residu
ongecorreleerd zijn. Dit wordt ook beschreven als gebrek aan autocorrelatie. Het kan getest
worden met de Durbin-Watson toets. Deze toets test seriële correlaties tussen meetfouten.
De waardes liggen tussen de 0 en de 4 en de waarde 2 betekent dat de residuen
ongecorreleerd zijn. Een waarde groter dan 2 betekent een negatieve correlatie en lager dan
2 een positieve correlatie.
Homoscedasticiteit (homoscedasticity): De residuen moeten op elk niveau dezelfde variantie
hebben. Wanneer de varianties niet gelijk zijn wordt dit heteroscedasticiteit genoemd.
Normaal verdeelde meetfouten (normally distributed errors): De residuen zijn random,
normaal verdeelde variabelen en hebben een gemiddelde van 0.
Voorspellers moeten ongecorreleerd zijn met externe variabelen (predictors are
uncorrelated with external variables): Externe variabelen zijn variabelen die wel invloed
hebben op de uitkomstvariabele, maar niet in de regressieanalyse opgenomen zijn. Dit lijkt
op het ‘derde variabele probleem’ bij de correlatie. Als er wel een correlatie is worden de
conclusies minder betrouwbaar.
De type variabelen (variable types): Alle voorspellervariabelen moeten kwantitatief (op
intervalniveau) of categorisch (met twee categorieën) zijn. De uitkomstvariabele moet
kwantitatief, continu en onbegrensd zijn.
Geen perfecte multicollineariteit (no perfect multicollinearity): Er mag geen perfect lineaire
relatie tussen twee of meer predictors zijn. De predictors mogen dus niet sterk correleren.
Geen variantie van 0 (non zero variance): De predictorvariabelen moeten variantie hebben.
Als het model aan de assumpties voldoet, dan is het regressiemodel van de steekproef gemiddeld
hetzelfde als het model van de populatie. Het kan nog steeds dat het model van de steekproef
afwijkt van die van de populatie, maar de kans dat de modellen overeenkomen, is een stuk groter
wanneer aan de assumpties is voldaan.
Cross validatie van het model
Cross-validatie is de nauwkeurigheid van een model bepalen bij verschillende steekproeven.
Wanneer een model gegeneraliseerd kan worden, zou het ook op andere steekproeven dezelfde
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper Emm1002. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €3,89. Je zit daarna nergens aan vast.