Statistiek samenvatting, KGW Methodologie en Statistiek (M&S)
64 views 10 purchases
Course
Statistiek (KGWG01022MENS)
Institution
Universiteit Utrecht (UU)
Samenvatting van alle hoorcolleges statistiek van masterjaar 1 2023/2024 (Methodologie & Statistiek - Klinische Gezondheidswetenschappen - Universiteit Utrecht). Inclusief veel afbeeldingen: tabellen, grafieken en SPSS output met uitleg. Te gebruiken tijdens het open boek tentamen.
HC 1: Multiple Regressie
Categorische variabele Kwalitatieve variabele kan een beperkt aantal
waardes/categorieën aannemen zoals
baby/kind/volwassen.
Dichotoom = 2 categorieën zoals man/vrouw.
Numerieke variabele Kwantitatieve metingen zoals leeftijd, aantal broers en
zussen, inkomen.
Continue variabele Variabelen als lengte, gewicht, tijd. Kunnen allerlei
tussenwaarden aannemen.
Verklarende/explanatory variabele Is de variabele die je manipuleert zoals lengte of
leeftijd. Verklaart de verandering.
Respons variabele Verwachte gevolg, de uitkomst.
Bijv. het drinken van meer eenheden bier
(verklarende) leidt tot een hoger alcoholpercentage in
het bloed (response).
Afhankelijke/dependent variabele Deze reageert op de verklarende variabele b.v. zijn
altijd numeriek zoals gewicht.
Onafhankelijke/independent variabele De variabele waarvan je denkt dat deze de oorzaak
is.
Bijv. De response variable depends on the
explanatory variable en explanatory var. zijn vaak
independent en response var. zijn vaak dependent
variables.
Afhankelijke variabele Onafhankelijke variabele(n) Statistische methode
1 Continu 1 factor met 2 T test for 2 independent samples
niveaus/groepen
2 Continu 1 factor met ³ 2 niveaus Oneway ANOVA
3 Continu 2 factoren Twoway ANOVA
4 Continu 1 covariaat (lineair effect) Linear regression
5 Continu ³ 2 covariaten (lineair effect) Multiple (linear) regression
6 Continu ³ 1 factor(en) en ³ 1 covariaten Analysis of covariance (ANCOVA)
7 Continu 2 gepaarde/herhaalde Paired T test
metingen
8 Continu ³ 2 gepaarde/herhaalde Rep Measures ANOVA of Linear Mixed
metingen (Effects) Model (LMM/LME)
9 Dichotoom/Categorisch 1 factor met ³ 2 niveaus Pearson’s Chi-square
10 Dichotoom ³ 1 factor(en) en /of Logistic regression
³ 1 covariaten
11 Tijd met censurering 1 factor met ³ 2 niveaus Survival analysis: Log-rank test
12 Tijd met censurering ³ 1 factor(en) en /of Survival analysis: Cox (proportional
³ 1 covariaten hazards) regression
13 Meerdere, continu n.v.t. Factor analysis, principal components
analysis (PCA)
N.B. Voor een continue afhankelijke variabelen gebruiken we verschillende namen voor situaties 3 t/m
6; bij een dichotome uitkomst en een (mogelijk gecensureerde) overlevingstijd als uitkomst worden al
deze situaties samengevat in slechts 1 methode, logistische regressie, resp. Cox regressie.
Wanneer kies je wat? Je gaat kijken naar de variabelen en kijken naar het meetniveau.
1. Is je afhankelijke variabele dichotoom of numeriek?
- Dichtoom = logistische regressie
- Numeriek = naar stap 2.
2. Wat is de onafhankelijke variabel e
- Categorisch = ANOVA.
- Numeriek of continue = Regressie. Bij meerdere onafhankelijke variabelen = meervoudige
regressie.
- Wordt er iets gezegd over een co-variaat of rekening houden met mogelijke extra variabele?
Dan stap 3.
3. ANCOVA.
Overzicht toetsen:
• De Wilcoxon signed rank toets is een niet-parametrische toets voor het vergelijken van een
(semi-)continue variabele tussen twee gepaarde groepen.
• Wilcoxon Rank Sum toets is een niet-parametrische toets voor het vergelijken van een
(semi-)continue variabele tussen twee onafhankelijke (ongepaarde) groepen.
• Mann-Whitney toets: wordt vaak gebruikt als alternatief voor de ongepaarde t-toets, omdat
de Mann-Whitney geen normaal verdeelde data veronderstelt.
• One Way ANOVA: One-way ANOVA gebruikt één onafhankelijke variabele om te toetsen of
de groepsgemiddelden van twee of meer groepen significant verschillen.
• Two Way ANOVA: variantie analyse met als verschil dat er naast de verschillende groepen
meerdere onafhankelijke (gerelateerde) variabelen getoetst kunnen worden op basis van
groepsgemiddelden.
• Gepaarde T-Toets: veronderstelt dat het verschil tussen twee gepaarde metingen normaal
verdeeld is.
Regressieanalyse: om het effect te verklaren of voorspellen van een (of meerdere) verklarende
variabele(n) op een afhankelijke variabele.
Regressieanalyses:
1. Enkelvoudige regressie
2. Multiple regressie
3. Logistische regressie
1. Enkelvoudige Regressie
Een lineair verband geeft de volgende formule: y = a + bx.
- a = intercept (as-afsnede) = waarde van y bij x = 0.
- b = slope (richtingscoëfficiënt) = verschil in y-waarde bij een toe-/afname van 1x (zegt dus iets
over de helling van een lijn)
Waarde van afhankelijke variabele = intercept + regressiecoëfficiënt ß x waarde van onafhankelijke variabele
De least-squares regression line is de lijn die precies loopt tussen de punten in een scatterplot (som
van de verticale afstand tussen punten en deze lijn is nul).
Deze lijn laat dus een lineair verband zien à formule y (met dakje) = a + bx.
Slope (b) bereken je door correlatiecoefficient (r) * (standaarddeviatie y / standaarddeviatie x).
Intercept (a) bereken je door a = y(gem) – bx(gem).
Terwijl men met correlatie aangeeft hoe sterk het verband is tussen variabelen, probeert men met
regressie te achterhalen hoe binnen dat verband de waarde van een afhankelijke variabele
gemiddeld zal toenemen of afnemen wanneer de waarde van één of meerdere onafhankelijke (of
voorspellende of verklarende) variabelen toeneemt of afneemt.
Correlatie gebruik je om te kijken in welke mate er een lineair verband bestaat tussen numerieke
variabelen. De Pearson’s correlatiecoefficient:
- Kwantificeert lineair verband
- Geeft zowel richting als sterkte aan -1 en +1
- Dimensieloos
- Als x en y onafhankelijk zijn, dan is r gelijk aan 0; als r gelijk is aan 0, dan zijn x en y niet altijd
onafhankelijk
- Toets op correlatie (ρ=0) gaat uit van normaal verdeelde data
H0: r = 0 (wil zeggen dat H0 is dat de correlatiewaarde 0 is en er dus geen lineair verband is, normaal
verdeelde data)
H1: r > 0 (wil zeggen: H1 is dat er een lineaire component is, want correlatie is > 0).
Soms heb je in een studie twee quantitative variables (bijv. in het
voorbeeld van bier drinken à hoger alcoholpercentage in bloed). Je
praat dan over een bivariate analyse. Deze kun je weergeven in een
scatterplot (spreidingsdiagram). In een scatterplot staat de explanatory
variabele op de x-as en de response variabele op de y-as. De puntjes
staan ieder voor een individu.
Twee variabelen zijn positively associated als toename van de ene ook
leidt tot toename van de andere variabele (bijv. voorbeeld hiernaast,
stijgende lijn in scatterplot), negatively associated als toename leidt tot
afname.
In een scatterplot kan je ook twee of meer relaties uitdrukken. Zelfs
categorical variables kan je toevoegen, dit doe je dan in een andere kleur
of met een ander symbool.
Bijvoorbeeld in scatterplot hiernaast: seksueel actieve fruitvliegjes zijn
groen, seksueel inactieve zijn roze / er wordt gekeken naar de levensduur
t.o.v. lichaamslengte.
De correlatiecoëfficiënt (r) laat de direction en de strength zien van de
relatie tussen twee quantitative variables. Correlation bereken je met een
formule:
Dus: voor de twee variabelen reken je eerst apart uit: een
waarneming – het gemiddelde delen door de
standaarddeviatie van die variabele. Dan vermenigvuldig je
alle uitkomsten van de ene variabele met de andere. Dit doe je voor iedere waarde en tel je bij elkaar
op. Aan het eind delen door n (sample size) – 1.
Correlatiecoëfficient negatief als x groter wordt, wordt y kleiner (en andersom).
Het maakt voor de correlatiecoëfficiënt niet uit welke waarde op de x-/y-as staat, de r blijft gelijk. r
heeft geen eenheid.
- R is altijd een waarde tussen -1 en +1. Hoe dichter r bij 0 zit, hoe
zwakker het verband (zegt iets over de strength). R -1 of r +1 is dus een
heel sterk verband.
- R kan negatief zijn of positief: bij een – waarde neemt de ene variabele
af als de andere toeneemt, bij een + waarde neemt de ene waarde toe
als de andere ook toeneemt.
De correlatiecoëfficiënt wordt erg beïnvloed door uitbijters. Als één punt een stuk
lager ligt dan de rest, wordt de r door dat ene punt naar beneden getrokken.
2. Met multipele regressie doe je een schatting onder de aanname dat er sprake is van een
lineair verband. Dit hoeft niet altijd een zuiver lineair verband te zijn, misschien vlakt de curve
uiteindelijk af bijvoorbeeld. We zijn geïnteresseerd in het tegelijkertijd modelleren van twee of
meer onafhankelijke variabelen.
Verschil correlatie/ regressie, voorbeelden:
1. Bestaat er een (lineair) verband tussen vetpercentage en BMI? → Correlatie
2. Kan vetpercentage worden voorspeld adhv BMI? → Regressie
Voor regressie veronderstel je dat er een lineair verband is en dat y normaal verdeeld is met
gemiddelde b0 + b1x (a + bx) en variantie s2.
H0: b1 = 0 (richtingscoëfficiënt van de regressielijn = 0 dus horizontaal)
H1: b1 ≠ 0 (richtingscoëfficiënt van de regressielijn ≠ 0 dus loopt schuin)
4
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller tarabroos. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $7.51. You're not tied to anything after your purchase.