Samenvatting Gevorderde multivariate data-analyse: Deel 1
H.1 Inleiding
Logistische regressie:
- afhankelijke var. = dummy (0/1)
- 1 level/niveau waarop analyse gedaan word
1.1 Inleiding survival analyse
afhankelijke var.
= duur tot het optreden van bepaalde gebeurtenis
= gebeurtenis/tijd
altijd doorheen de tijd opvolgen en kijken of gebeurtenis optreedt
Welbepaalde gebeurtenis kan sterfte, diabetes,…
o Clearcut: 0/1 = wel of niet = afgelijnd gegeven met duidelijke breuk en overgang tussen
toestanden
o Wederzijds exclusieve gebeurtenissen = niet overlappende gebeurtenis
vb. Sterfte: wel of niet sterven, kan maar 1 van 2 zijn
o Wederzijds exhaustief = alle mogelijke toestanden worden gedekt
vb. Sterven: alle mogelijke toestanden van sterven aanwezig (hier 2 toestanden)
Noodzakelijk:
o Een goed gedefinieerd ‘event’
o Een duidelijk begin van de tijd
o Een betekenisvolle matrix om de tijd te meten
Tijd/duur:
o Bij start van tijd mag nog niemand gebeurtenis hebben meegemaakt
Vb. Echtscheidingsrisico: start met enkel samenwonende mensen en dan kijken naar
vervolg
o Discrete of continue tijdsmeting bepaalt analyse:
Discrete: te tellen => intervallen van tijd
Continu: oneindig klein => doorlopend => geen intervallen
vb. Relatieduur voor samenwonen – scheidingsrisico: hoe langer men in relatie is voor het
samenwonen, hoe stabieler relatie en hoe langer scheidingsrisico.
! Realiteit wordt vereenvoudigd tot 2 duidelijke toestanden, tot dummy
Levels, lagen in data door onderzoeksvraag
Onderzoeksvraag gaat specifiek over verschillende niveaus
Moet niet altijd ~ criteria
Belang van context omdat sociale processen + fenomenen zich afspelen in bepaalde context
=> variabiliteit op verschillende niveaus
Clustering in groepen
Vb. Uitstel 1e kind: invloed door individuele kenmerken vrouw (1), kenmerken studierichting (2)
mbt attitude tov familie, gendercompositie in richting,…, eigenschappen land (3)
<-> Regressie-analyse: kenmerken meegenomen ter controle of interactie-effecten zijn
kenmerken van respondent (level 1 in voorbeeld)
H.2 Herhaling
2.1 Demografische cijfers: rates (breuk)
= occurence-exposure rate
= # gebeurtenissen in pop./# persoonsjaren at risk (gebeurtenis + overblijvende van populatie)
Noemer rekening houden met aantal personen EN hoelang ze at risk zijn
=> persoon met gebeurtenis verdwijnt uit noemer want exclusieve gebeurtenissen, in teller
gaan = verdwijnen uit noemer
Persoonsjaren = som van eenheden van tijd dat elk individu at risk was + geobserveerd was
Cijfer houdt rekening met feit dat occurrence hoger is bij grotere pop.
Cijfer moet referentieperiode hebben
Uitgedrukt in %° = promille
Period rate = crude rate:
(crude = bruto)
= # gebeurtenissen tss 0 en T/persoonsjaren at risk in pop. tss 0 en T
o Periode gebruiken om te berekenen
o Meestal 1 jaar want makkelijk want elke persoon draagt 1 persoonsjaar bij als ze niet
sterven per jaar
o Vaak uitgedrukt per 1000 personen
o Eigenlijk conditionele kans want voorwaarden stellen = at risk om gebeurtenis mee
te maken, # gebeurtenissen gegeven at persoon at risk is
Link met survival analyse: occurence-exposure rate = afhankelijke var.
2
,Vb. N = 10 gevolgd gedurende 5 jaar, 3 sterven gedurende 5 jaar (na 1.5j., na 3j, na 4j.)
Rate = 3 sterfgevallen/(7 overlevende*5 jaren levend) + (1 sterft*1.25 tot sterfte) + (1
sterfte*3 jaar geleegd) + (1 sterfte*4 jaar geleefd)
Vb. Crude death rates in Ghana (6.6%°) vs. België (9.8%°):
- In België sterfte 9.8 personen per 1000 inwoners per jaar
- In Ghana sterft 6.6 personen per 1000 inwoners per jaar
- Hoger in België want Ghana jongere leeftijdsstructuur want rate ~ leeftijdsstructuur
=> brutocijfers soms vreemde uitkomsten
=> standaardisatie nodig om verschillen door leeftijd weg te filteren en te kunnen vgl
2.2 Veralgemeende lineaire modellen
Gemeenschappelijk kader voor dependentietechnieken want asymmetrie ( = afh. var. Y en
verschillende onafh. var. X) -
Klassiek lineair model: Y lineaire functie van X
-> kan enkel bij voldoen aan criteria MAAR vaak Y geen lin. Functie van X
=> Y transformeren zodat getransformeerde versie van Y als lineaire functie van X’en
geschreven kan worden
=> van Y = a + bx -> t(Y) = a + b 1 x 1 + b 2 x 2 + …
! Soort variabele bepaalt transformatie
DUS Als t(Y) een lineaire functie is van X => methoden uit lineaire modellen toepassen om
parameters van niet-lineaire model te schatten
=> bruikbaarheid statistische dependentie-technieken voor sociale wetenschappen verhoogd
Veronderstelling: onderliggend lineair model: geen lineaire relatie tss af. Var. Y en onafh. var.
X => afh. var. U transformeren zodat Y wel als lineaire functie van X’en kan bekeken worden
Gemeenschappelijke schattingsmethode: maximum likelihood estimation
Voordeel:
o geldt voor lineaire regressie + survival + multilevel
o idem schattingsmethode
o dezelfde testen om te kijken of het veralgemeenbaar is naar pop. of niet
dezelfde technieken, toetsen, indicatoren te gebruiken voor verschillende
dependentietechnieken
Stappenplan:
o Stap 1: is geen lineaire functie
Y = a + bx
o Stap 2: y transformeren => (! B0 = a = intercept)
3
, Z = bx + a
! Natuurlijk logaritme = ln(y) = omgekeerde bewerking van machten = tot welke macht grondtal
verheffen om tot y te komen
- Log = ln met grondtal 10
- Ln = Natuurlijk logaritme
- Naperiaanse logaritme met grondtal e
Vb. ln(brutomaandloon) = b 0 + b 1*actuele werkduur
o Stap 3: beide delen van vgl expotentiëren om makkelijker te berekenen
e ln ( x )=e b 0 +b 1 actuele werkduur
MAAR e en ln heffen elkaar op => afh. var = verwachte waarde van X = E(X)
= e b 0+ b 1actuele werkduur
= e b 0∗eb 1 actuele werkduur
(exp = e)
Y = e bx e a
Vb. e ln (brutomaandloon )=e b 0+ b1 actuele werkduur
¿ E(brutomaandloon) = e b 0+ b 1actuele werkduur = e b 0∗eb 1 actuele werkduur
3 componenten:
1. Stochastische component = Y
o Afh. var. = geobserveerde stochast = toevalsvariabele = niet vastliggende var.
o Bepaalt alles
o Varieert
o Heeft een gemiddelde en kansverdeling
o Volgens model verwacht waarde = gemiddelde waarde gegeven X
µ = E(y|X) = verwachte waarde van Y gegeven X (conditionele kansverdeling)
3. Linkfunctie: verbinding tss E(y) en lineaire predictor
o Aard afh. var bepaalt linkfunctie
o Lineaire regressie: identiteitsfunctie => geen transformatie dus linkfunctie nodig
o Linkfunctie = natuurlijk logaritme =
4
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller ruthvanderfaeillie. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $12.29. You're not tied to anything after your purchase.