100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached
logo-home

Class notes

Statistiek III - College 1

 13 views  3 purchases
  • Course
  • Institution

Uitgebreide aantekeningen college 1 statistiek 3 (jaar 2 bachelor psychologie Groningen)

Preview 2 out of 8  pages

  • March 18, 2021
  • 8
  • 2020/2021
  • Class notes
  • Edith van krimpen
  • College 1
avatar-seller
College 1 (2-2-2021)
Multipele regressie:
- Doel van het model: het geven van een duidelijk en goed te interpreteren overzicht van de
populatie
o Je wilt graag een grote R² (goede omschrijving populatie), R² geeft informatie over de
model fit (hoe goed het past bij de populatie)
o Een zo eenvoudig mogelijk model dus zo min mogelijk variabelen (maar dit kan ten
koste gaan van de R²)



Model B heeft een betere model fit dan model A, maar is veel lastiger te
interpreteren vanwege de vele variabelen en hun onderlinge relaties.
- Er is dus een wisselwerking tussen het aantal variabelen in het model en de verklaarde
variantie.
o Kijk of de toename in R² significant is, of het model ook daadwerkelijk beter wordt
door het ingewikkelder te maken.
Voorbeeld: een dataset met Y (jaarsalaris van medewerkers aan de uni) die we willen voorspellen
met X1 (jaren werkervaring), X2 (aantal wetenschappelijke publicaties), X3 (of iemand man of vrouw
is) en X4 (het aantal keren dat er geciteerd wordt uit zijn/haar publicaties). We willen Y voorspellen,
maar zo slim en efficiënt mogelijk. (Zo eenvoudig mogelijk maar wel met een goede model fit).
Onafhankelijke variabelen:




Wat ga je als eerste doen? Kijk naar de correlatiematrix (zie hierboven). Wat we als eerste gaan doen
om de sterkste voorspeller er uit te pikken, is kijken naar de bivariate correlaties die er zijn tussen de
afhankelijke variabele Y en de onafhankelijke variabele. Kijk dus naar de laatste rij (blauw) of de
onderste kolom (ze zijn gelijk aan elkaar). De hoogste correlatie hier is tussen werkervaring en salaris,
dit lijkt dus een sterke variabele om op te nemen in het model. Maar het aantal publicaties en aantal
citaten zouden ook kunnen overlappen. Hoe weten we dan of er sprake is van een sterke correlatie?
Kijk naar de correlatie tussen deze twee. Hier zie je dat dit 0,333 is. Dat is een vrij sterke onderlinge
correlatie. Dus als we publicaties zouden op nemen in het model, en daarna ook citaties toevoegen,
dan zouden we geen optimale informatie meer toevoegen omdat een deel van de informatie van
citaties al in publicaties zit. Hetzelfde zie je terugkomen bij werktijd en publicaties (0,651), ook hier is
multicollineariteit. De vraag is nu dus welke van de variabelen het slimst is om op te nemen in het
model.

, In dit geval heeft werktijd een grotere correlatie met Y (salaris) en is deze dus het handigst om als
eerste op te nemen. Daarna zou je kunnen overwegen of het wat extra’s oplevert om ook publicatie
toe te voegen.

Alle variabelen, behalve FEMALE (geslacht), hebben een significantie correlatie met Y. Maar vanwege
de multicollineariteit (onderlinge samenhang tussen de IV’s) is het waarschijnlijk niet nodig om alle
onafhankelijke variabelen op te nemen in het model.
Multicollineariteit = wanneer een aantal verklarende variabelen in het model sterk met elkaar
gecorreleerd zijn.
3 verschillende regressie-analyses voor het interpreteren van verschillen tussen verschillende
modellen:




De eerste heeft alle variabelen. De R² is iets meer dan 50%. Maar bij de tweede laten we geslacht
buiten beschouwing en we zien een afname van deze waarde. Maar dit is niet heel veel, want
geslacht had geen sterke samenhang met salaris. Je moet de afname toetsen om te kijken of het een
significante afname is. Als het significant is, kun je geslacht namelijk beter wel in het model laten.
De derde heeft maar twee onafhankelijke variabelen, publicaties is er deze keer ook uitgelaten. Ook
hier is R² afgenomen. Iets grotere afname, maar nog steeds niet erg veel.
Je kunt ook kijken naar het plaatje. In de bovenstaande afbeelding zie je Ŷ (schatting van Y op basis
van het model) op de y-as en Y op de x-as. Als de punten op exact 45 graden zouden liggen, zou het
een perfecte schatting zijn. De groene punten staan voor het model met alle vier de variabelen, en de
rode punten staan voor het model met drie onafhankelijke variabelen. Je ziet dat de afwijkingen erg
klein zijn, want R² is nauwelijks afgenomen.
Semi-partiële correlaties vertellen ons wat de unieke bijdragen zijn van een bepaalde onafhankelijke
variabele, als de andere variabelen in het model zitten.
Hiërarchische regressie-analyse = een model stap-voor-stap opbouwen of uitkleden om uit te komen
bij het optimale model.

Onderscheid tussen een niet-lineaire relatie (curvy linear relationship) en een niet-lineair model. Een
curvy linear relationship kan in sommige gevallen nog steeds aangepakt worden met een lineair
regressiemodel, bijvoorbeeld door de onafhankelijke variabele te transformeren (logaritme,
kwadraat of wortel van X in plaats van gewoon X). De getransformeerde onafhankelijke variabele kan
dan opgenomen worden in het lineaire regressiemodel.
Soms hebben we te maken met een niet-lineair model, bijvoorbeeld als de afhankelijke variabele Y
niet continue is maar een 0-1 variabele. We kunnen dan geen lineair model gebruiken omdat we dan
tegen allemaal problemen aanlopen, vooral het schenden van assumpties. We moeten dus gebruik
maken van een niet-lineair model, zoals een logistisch regressiemodel.
Niet-lineaire regressie:
- Kwadratische regressie

The benefits of buying summaries with Stuvia:

Guaranteed quality through customer reviews

Guaranteed quality through customer reviews

Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.

Quick and easy check-out

Quick and easy check-out

You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.

Focus on what matters

Focus on what matters

Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller femkebvanrijn. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $0.00. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews)

53068 documents were sold in the last 30 days

Founded in 2010, the go-to place to buy study notes for 14 years now

Start selling
Free  3x  sold
  • (0)