College 1 (2-2-2021)
Multipele regressie:
- Doel van het model: het geven van een duidelijk en goed te interpreteren overzicht van de
populatie
o Je wilt graag een grote R² (goede omschrijving populatie), R² geeft informatie over de
model fit (hoe goed het past bij de populatie)
o Een zo eenvoudig mogelijk model dus zo min mogelijk variabelen (maar dit kan ten
koste gaan van de R²)
Model B heeft een betere model fit dan model A, maar is veel lastiger te
interpreteren vanwege de vele variabelen en hun onderlinge relaties.
- Er is dus een wisselwerking tussen het aantal variabelen in het model en de verklaarde
variantie.
o Kijk of de toename in R² significant is, of het model ook daadwerkelijk beter wordt
door het ingewikkelder te maken.
Voorbeeld: een dataset met Y (jaarsalaris van medewerkers aan de uni) die we willen voorspellen
met X1 (jaren werkervaring), X2 (aantal wetenschappelijke publicaties), X3 (of iemand man of vrouw
is) en X4 (het aantal keren dat er geciteerd wordt uit zijn/haar publicaties). We willen Y voorspellen,
maar zo slim en efficiënt mogelijk. (Zo eenvoudig mogelijk maar wel met een goede model fit).
Onafhankelijke variabelen:
Wat ga je als eerste doen? Kijk naar de correlatiematrix (zie hierboven). Wat we als eerste gaan doen
om de sterkste voorspeller er uit te pikken, is kijken naar de bivariate correlaties die er zijn tussen de
afhankelijke variabele Y en de onafhankelijke variabele. Kijk dus naar de laatste rij (blauw) of de
onderste kolom (ze zijn gelijk aan elkaar). De hoogste correlatie hier is tussen werkervaring en salaris,
dit lijkt dus een sterke variabele om op te nemen in het model. Maar het aantal publicaties en aantal
citaten zouden ook kunnen overlappen. Hoe weten we dan of er sprake is van een sterke correlatie?
Kijk naar de correlatie tussen deze twee. Hier zie je dat dit 0,333 is. Dat is een vrij sterke onderlinge
correlatie. Dus als we publicaties zouden op nemen in het model, en daarna ook citaties toevoegen,
dan zouden we geen optimale informatie meer toevoegen omdat een deel van de informatie van
citaties al in publicaties zit. Hetzelfde zie je terugkomen bij werktijd en publicaties (0,651), ook hier is
multicollineariteit. De vraag is nu dus welke van de variabelen het slimst is om op te nemen in het
model.
, In dit geval heeft werktijd een grotere correlatie met Y (salaris) en is deze dus het handigst om als
eerste op te nemen. Daarna zou je kunnen overwegen of het wat extra’s oplevert om ook publicatie
toe te voegen.
Alle variabelen, behalve FEMALE (geslacht), hebben een significantie correlatie met Y. Maar vanwege
de multicollineariteit (onderlinge samenhang tussen de IV’s) is het waarschijnlijk niet nodig om alle
onafhankelijke variabelen op te nemen in het model.
Multicollineariteit = wanneer een aantal verklarende variabelen in het model sterk met elkaar
gecorreleerd zijn.
3 verschillende regressie-analyses voor het interpreteren van verschillen tussen verschillende
modellen:
De eerste heeft alle variabelen. De R² is iets meer dan 50%. Maar bij de tweede laten we geslacht
buiten beschouwing en we zien een afname van deze waarde. Maar dit is niet heel veel, want
geslacht had geen sterke samenhang met salaris. Je moet de afname toetsen om te kijken of het een
significante afname is. Als het significant is, kun je geslacht namelijk beter wel in het model laten.
De derde heeft maar twee onafhankelijke variabelen, publicaties is er deze keer ook uitgelaten. Ook
hier is R² afgenomen. Iets grotere afname, maar nog steeds niet erg veel.
Je kunt ook kijken naar het plaatje. In de bovenstaande afbeelding zie je Ŷ (schatting van Y op basis
van het model) op de y-as en Y op de x-as. Als de punten op exact 45 graden zouden liggen, zou het
een perfecte schatting zijn. De groene punten staan voor het model met alle vier de variabelen, en de
rode punten staan voor het model met drie onafhankelijke variabelen. Je ziet dat de afwijkingen erg
klein zijn, want R² is nauwelijks afgenomen.
Semi-partiële correlaties vertellen ons wat de unieke bijdragen zijn van een bepaalde onafhankelijke
variabele, als de andere variabelen in het model zitten.
Hiërarchische regressie-analyse = een model stap-voor-stap opbouwen of uitkleden om uit te komen
bij het optimale model.
Onderscheid tussen een niet-lineaire relatie (curvy linear relationship) en een niet-lineair model. Een
curvy linear relationship kan in sommige gevallen nog steeds aangepakt worden met een lineair
regressiemodel, bijvoorbeeld door de onafhankelijke variabele te transformeren (logaritme,
kwadraat of wortel van X in plaats van gewoon X). De getransformeerde onafhankelijke variabele kan
dan opgenomen worden in het lineaire regressiemodel.
Soms hebben we te maken met een niet-lineair model, bijvoorbeeld als de afhankelijke variabele Y
niet continue is maar een 0-1 variabele. We kunnen dan geen lineair model gebruiken omdat we dan
tegen allemaal problemen aanlopen, vooral het schenden van assumpties. We moeten dus gebruik
maken van een niet-lineair model, zoals een logistisch regressiemodel.
Niet-lineaire regressie:
- Kwadratische regressie
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper femkebvanrijn. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €0,00. Je zit daarna nergens aan vast.