Dit zijn de college aantekeningen van het vak "Statistische Modellen 2" uit het tweede jaar van de bachelor Pedagogische Wetenschappen. Het bevat de colleges 1 t/m 6.
Statistische Modellen 2
College 1 - Regressieanalyse
Welk model?
Onafh. Afh.
X1 X2 Y Model
DUM INT t-toets voor onafhankelijke groepen
NOM INT éénwegvariantieanalyse (ANOVA)
NOM NOM INT tweewegvariantieanalyse (ANOVA)
INT INT enkelvoudige regressieanalyse
INT INT INT multipele regressieanalyse
INT NOM INT covariantieanalyse
INT DUM DUM logistische regressieanalyse
Lineaire relaties
Relatie tussen intervalvariabelen
In veel onderzoekssituaties zijn er intervalvariabelen (INT). Voorbeelden:
- Lengte, gewicht, leeftijd
- Schaalscores voor introversie, depressie, coping, attitude
- Vaardigheidsscores voor taal, rekenen
Vanuit een wetenschappelijk theorie hebben we vaak verwachtingen over hoe variabelen
gerelateerd zijn. Twee dingen meten en kijken hoe ze aan elkaar zijn gerelateerd.
Hoe kan je relatie uitdrukken?
Twee manieren onderzoeken:
- Data verzameld en dan voor de steekproef onderzoeken.
- Voor de populatie onderzoeken. Doel is om iets te zeggen over een grotere groep. Is
dan de vraag of steekproef representatief genoeg is voor de populatie.
Voorbeeld
Onderzoek naar depressie en coping. Steekproef van N = 84 random geselecteerde RUG-
studenten.
Twee variabelen:
- BDI (Beck Depression Inventory)
0 − 9 weinig, 10 − 18 mild, 19 − 29 matig, 30 − 63 zware depressie
- Coping score
0 = geen coping, 10 = goed kunnen omgaan met tegenslag
Onderzoeksvraag: is er een relatie tussen BDI en
coping (in de populatie)?
Spreidingsdiagram
Van links naar rechts -> hogere scores op coping,
gaan samen met lagere scores van depressie.
Dus bepaalde richting is duidelijk -> negatief
verband.
Veronderstel relatie is lineair -> toename in
coping is proportioneel t.o.v. afname BDI. Een
,lineair model werkt goed in de praktijk. Heel veel relaties zien er zo uit en die worden dan
goed beschreven door een lineaire lijn.
Lineaire relatie
Een lineair model werkt goed in de praktijk
- Het blijkt dat veel relaties tussen twee intervalvariabelen met een lineair verband zijn
samen te vatten.
Een lijn wordt beschreven door een helling. Dit getal (=paramater) geeft:
- Richting van relatie weer
- Interpretatie aan relatie
Verschillende lijnen mogelijk. Welke? -> eentje die ook
een maat voor sterkte relatie geeft.
Kleinste kwadratensom residuen
Welke lijn?
- Berekenen alle residuen (=afstanden punten tot
lijn)
- Kwadrateer alle residuen
- Tel alle gekwadrateerde residuen op
- Lijn kiezen zodat deze soms zo klein mogelijk is
Kleinste kwadratensom van residuen is uniek -> unieke
lijn
Voorbeeld
Met kleinste kwadratenlijn kunnen we nu een aantal
vragen beantwoorden:
1. Is er een lineaire relatie tussen BDI en coping in de populatie?
2. Hoe sterk is de lineaire relatie tussen BDI en coping?
1 en 2 beantwoorden met Pearson correlatie.
3. Kan BDI voorspeld worden door coping?
Enkelvoudige regressieanalyse (=regressieanalyse met één voorspeller)
Onderzoeksvraag 1: Is er een relatie tussen BDI en coping in de
populatie?
Pearson correlatie
- Maat voor sterkte lineaire relatie
- Nulhypothese bij t-toets
H0: r=0 (geen relatie)
- p < 0.001 significante relatie tussen BDI en coping.
, - Relatie negatief: hoe meer coping, hoe minder depressie
- -0,880 -> dus negatieve relatie
Onderzoeksvraag 2: Hoe sterk is de relatie tussen BDI en coping?
Pearson correlatie
- Maat voor sterkte van een lineaire relatie
- Kwadraat van de correlatie is de gemeenschappelijke variantie tussen variabelen
- (–0.88)2 = 0.774 BDI en coping hebben dus 77% variantie gemeenschappelijk
- Hoe sterk de relatie is, is dus kwadraat van de correlatie.
Onderzoeksvraag 3: kan BDI voorspeld worden door coping?
Afhankelijke variabele (Y)
• BDI (Beck Depression Inventory)
0 − 9 weinig, 10 − 18 mild, 19 − 29 matig, 30 − 63 zware depressie
Onafhankelijke variabele (X) (= voorspeller)
• Coping score
0 = geen coping, 10 = goed kunnen omgaan met tegenslag
Statistisch model
Relatie tussen variabelen in de populatie:
yi = β0 + β1xi + i
- yi = score op afhankelijke variabele y voor persoon i
- xi = score onafhankelijke variabele x voor persoon i
- i = residu (error, afwijking)
Iedere score y van individu i is te beschrijven door drie termen
- Algemeen gemiddelde
- Regressie gewicht wat je geeft en enige voorspeller die je hebt
Regressiecoëfficiënten:
- β0 = intercept
- β1 = helling (slope)
De regressiecoëfficiënten moeten geschat worden (uit de steekproef) -> schattingen voor
hoe ze in de populatie zouden zijn
Statistisch model heeft de vorm van: data = model + error. Waarbij:
- data = yi
- model = β0 + β1xi (regressielijn)
- error = I (normaal verdeeld met gemiddelde 0)
Geschatte regressielijn
Coëfficiënten:
- β0 = intercept
- β1 = helling (slope)
zijn niet direct observeerbaar (populatielijn)
moeten geschat worden
gebeurt met kleinste kwadratenmethode
geschatte regressielijn is dan
- b0 = schatter van β0
- b1 = schatter van β1
- Voor gemak schrijven we: BDI = b0 + b1*coping
Vergelijking lijn
, Y = ax + b, waarbij b = intercept waarde van y als x = 0 (snijpunt y-as). a=helling (slope) geeft
steilheid van de lijn.
Geschatte regressielijn
BDI = b0 + b1*coping
b0 = intercept
waarde van BDI als coping = 0
b1 = helling (slope)
geeft steilheid van de lijn
b1 = –5.2 (dalend)
Model staat spreiding rond lijn toe
Het is niet nodig dat alle punten op de regressielijn liggen.
Restrictie: homoscedasticiteit = verticale spreiding (van onder naar
boven) is voor ongeveer alle waarden van X gelijk -> van links naar
rechts over de lijn gelijk zijn. Een afhankelijke variabele, en dan naar
scatterplot kijken en dan kijken of er sprake is van lineairiteit, of het
op een lijn is. Homoscedasticiteit als het allemaal rond de lijn ligt.
Dit plaatje is alleen geschikt als we maar een X hebben.
Constant = intercept. B = ruwe waarde. Standaardfout = onzekerheidsmarge. Exacte getal =
B. en standaardfout laat zien hoe goed dit geschat is. Als je B en standaardfout met elkaar
deelt, krijg je t0toets.
Unstandardized coefficients:
• waarde van b0 (= 54.3) bij Constant
• waarde van b1 (= – 5.2) bij coping
Invullen in BDI = b0 + b1*coping
geeft de geschatte regressievergelijking: BDI = 54.3 – 5.2*coping
Populatie-intercept
Coëfficëntentabel
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper karlijnvanesch1. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €3,99. Je zit daarna nergens aan vast.