Samenvatting van (multiple) logistische regressie o.b.v. het vak Statistiek & Epidemiologie (STEP) (Biomedische Wetenschappen, Universiteit Utrecht) in 2018/2019. De samenvatting bevat figuren en voorbeelden.
(Multipele) logistische regressie – Statistiek
VOORBEELD 1: Keuze van het model
Onderzoeksvraag: Wat is de relatie tussen leeftijd van
de moeder en laag geboortegewicht? Men gaat kijken
of de leeftijd van de moeder een voorspellende factor
is voor een laag geboortegewicht.
De afhankelijke variabele is dichotoom. Er zijn
namelijk twee categorieën m.b.t. geboortegewicht:
laag en hoog. De onafhankelijke variabele is continu.
De data is weergegeven is het figuur hiernaast. Op de
Y-as staat de kans op een kind met een laag
geboortegewicht. Op de X-as staat de leeftijd van de
moeder.
Keuze van het model
Er wordt geen gebruik gemaakt van lineaire regressieanalyse, omdat:
• De data heeft een S-vormige curve.
Er wordt bij lineaire regressieanalyse aangenomen dat het verband tussen de leeftijd van de
moeder en de kans op het krijgen van een kind met een laag geboortegewicht lineair is.
• De kans op een kind met een laag geboortegewicht kan niet kleiner dan 0 zijn.
Bij lineaire regressieanalyse zou de kans op het krijgen van een kind met een laag
geboortegewicht bij een bepaalde leeftijd (24 jaar) lager worden dan 0.
• Er niet aan de voorwaarden van
lineaire regressieanalyse wordt
voldaan.
De varianties zijn niet gelijk voor
iedere waarde van de verklarende
variabele. De residuenplot toont een
patroon. Daarnaast zijn de residuen
niet normaal verdeeld.
Het model van lineaire regressie past dus niet goed bij deze data.
Logistische regressie
Bij logistische regressie is er sprake van een dichotome (= er zijn twee categorieën (Y=0 of Y=1))
afhankelijke variabele (Y) en meerdere continue en/of categorische onafhankelijke/verklarende variabelen
(= determinanten). De kans op Y=1 wordt gemodelleerd.
Aanname voor logistische regressie
• De frequentie van Y=1 is binominaal verdeeld.
Dit betekent dat de waarnemingen niet alle waarden tussen -∞ en +∞ kunnen aannemen.
Het model
Men wil de kans op Y=1 modelleren als een lineaire functie van X, maar wel zodanig dat de schattingen
voor die kans altijd tussen 0 en 1 liggen. Een elegante manier om de kans () te transformeren naar een
waarde tussen -∞ en +∞ is om de logaritme van de odds te nemen. Dit is de logit transformatie:
1
, 𝜋
𝑙𝑜𝑔𝑖𝑡(𝜋) = ln
(1 − 𝜋)
Vervolgens modelleert men dit in een lineair model:
𝑙𝑜𝑔𝑖𝑡(𝜋𝑖 ) = + ∗ 𝑋𝑖
Men modelleert dus de logit/In(odds) van de kans op Y=1. 𝐿𝑜𝑔𝑖𝑡(𝜋𝑖 ) kan alle waarden tussen -∞ en +∞
aannemen.
De logit/In(odds) kan weer worden getransformeerd naar een kans () m.b.v. onderstaande formule:
1
𝜋(𝑋𝑖 ) = P(𝑌 = 1|𝑋𝑖 ) =
1 + 𝑒 −(+∗𝑋𝑖 )
De kans neemt een waarde aan tussen 0 en 1.
Interpretatie van
is gelijk aan het verschil tussen 𝑙𝑜𝑔𝑖𝑡(𝜋) = + ∗ 𝑋 en 𝑙𝑜𝑔𝑖𝑡(𝜋) = + ∗ (𝑋 + 1) indien de
verklarende variabele continu is en gelijk aan het verschil tussen 𝑙𝑜𝑔𝑖𝑡(𝜋) = + en 𝑙𝑜𝑔𝑖𝑡(𝜋) = indien
de verklarende variabele dichotoom is. Daarnaast is gelijk aan de ln(OR). Er geldt:
𝑂𝑅 = 𝑒
Dit is de odds ratio voor het effect dat X toeneemt met één:
• De odds op een Y=1 verandert (vermindert/vergroot (afhankelijk van het teken voor )) met een
factor e voor iedere keer dat X toeneemt met één.
• De odds X+1 is e keer de odds van X.
Er zijn twee mogelijkheden:
• is negatief.
• De odds (Y) neemt af, naarmate X toeneemt.
• De odds ratio is kleiner dan 1.
• is positief.
• De odds (Y) neemt toe, naarmate X toeneemt.
• De odds ratio is groter dan 1.
Likelihood methode
De parameters van het logistische model worden geschat volgens de likelihood methode en niet, zoals bij
lineaire regressie het geval is, volgens de kleinste kwadratenmethode. Bij de kleinste kwadratenmethode
veronderstelt men o.a. dat de variantie van de residuen gelijk zijn voor elke waarde van X. Echter is dit niet
het geval bij een binominale verdeling. Hierbij hangt de variantie van de residuen af van de kans. Daarom
maakt men gebruik van de likelihood methode om de parameters en te schatten. De likelihood van een
model geeft aan hoe aannemelijk de waargenomen observatie zijn bij dit model. M.a.w. wat is de kans dat
we met dit model exact de waargenomen observaties krijgen?
Door log(likelihood) te maximaliseren krijg je de maximum likelihood schatters voor en .
2
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper anoukbmw. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €2,99. Je zit daarna nergens aan vast.