Samenvatting Methodologie En Biostatistiek 2 (MTBII)
34 vues 3 fois vendu
Cours
Methodologie En Biostatistiek 2
Établissement
Vrije Universiteit Amsterdam (VU)
Deze samenvatting bevat alle 5 de hoorcolleges van het vak, plus aanvullende informatie uit de kennisclips en tekst. Inclusief veel voorbeelden om de stof beter te begrijpen.
Hoorcollege 1: Continue uitkomstmaten: t-toets, ANOVA, correlatie
Lineaire Regressie
Continue uitkomstmaat
• T-toetsen
o Vergelijking van twee groepsgemiddelden
o Determinant: dichotoom
• ANOVA
o Vergelijking van meer dan twee groepgemiddelden
o Determinant: categoriaal
• Regressie
o Een universele oplossing voor al onze (toetsings-)problemen
o Determinant: dichotoom, categoriaal, continu
• Correlatie
o Verband tussen twee variabelen
o Determinant/Uitkomst: continu
Voorbeeld: T-toets voor onafhankelijke groepen
Is er een verschil in de gemiddelde BMI van mannen en vrouwen?
H0: Er is geen verschil in de gemiddelde BMI van mannen en vrouwen.
H1: Er is een verschil in de gemiddelde BMI van mannen en vrouwen.
Als p<0,05 mogen we H0 verwerpen.
• Oordeel: H0 kan niet worden afgewezen, want p > α, of p > 0.05
• De gemiddelde BMI van mannen en vrouwen verschilt niet significant van elkaar.
• Of: Het gevonden verschil tussen de gemiddelden van de twee groepen in onze steekproef
bestaat waarschijnlijk niet in de populatie
T-toets voor onafhankelijke steekproeven
Determinant
• Dichotome variabele = de steekproeven/groepen
Uitkomst
• Min. op interval meetniveau gemeten variabele
Hypothesen gaan over een verschil tussen de gemiddelden: Bestaat dit verschil ook in de populatie?
Dezelfde hypothese kan met lineaire regressie getoetst worden (indiv. werkgroepopgave)
Assumpties bij een t-toets:
• De uitkomstvariabele is normaal verdeeld
o Wat als dit niet het geval is?
o Log transformatie?
, o Non-parametrische toetsen
• Varianties binnen de twee groepen zijn ongeveer gelijk
o Levene’s test for equality of variance
o Aanpassing van Welch (‘Equal variances not assumed’)
ANOVA: ANalysis Of VAriance
Wordt gebruikt om >2 groepen (in één analyse) met elkaar te vergelijken. Je kunt dit zien als
uitbreiding van een t-toets voor twee onafhankelijke steekproeven. Hypothese gaat (in eerste
instantie) over of er verschil zit tussen de groepen. Dezelfde hypothese kunnen we met lineaire
regressie toetsen (voorkeur!) of met meerdere t-toetsen (bezwaar hiertegen!)
Vergelijking > 2 groepen met t-toetsen? Bijv. 3 groepen. Dan
ook 3 contrasten. 3 afzonderlijke t-toetsen niet efficiënt. Per
test gebruik je info van slechts twee groepen. Dat kost power.
Bezwaren tegen meervoudige t-toetsen:
• Kans op Type-I fout verandert. Aanpassing mogelijk:
Bonferroni correctie. Maar: power voor elke individuele
toets nadelig beïnvloed; toename kans op Type II fout.
• Onvolledig gebruik informatie per vergelijking.
Toetsingsgrootheid t-toets gebaseerd op standaardfout, berekend over 2 steekproeven.
Maar: alle steekproeven leveren informatie over toevalsspreiding. Daarom: op deze manier
maakt t-toets niet optimaal gebruik van beschikbare informatie.
Vergelijking > 2 groepen met ANOVA? ANOVA maakt gebruik van schattingen van spreiding.
Variantie van de gemiddelden tussen de groepen, afgezet tegen varianties binnen de groepen.
Variantie - sum of squares
Total sum of squares is de totale variantie in de uitkomstmaat.
• We kennen dit als de Kwadraatsom (berekenen variantie en sd).
TSS willen we verklaren door de variantie op te splitsen in:
• Between group sum of squares (tussen groepen).
• Within groep sum of squares (binnen de groepen)
Total sum of squares: is de som van de gekwadrateerde afwijkingen van ieder punt tot het algemeen
(total) gemiddelde, ofwel de totale variantie in de uitkomstmaat Y.
,Between group sum of squares (Tussen groepen): is de som van alle naar groepsgrootte gewogen
gekwadrateerde afwijkingen van elk groepsgemiddelde tot het algemeen (total) gemiddelde.
Within group sum of squares (Binnen groepen): is de som van de gekwadrateerde afwijkingen van
ieder punt tot het groepsgemiddelde.
Variantie analyse – F-test
F-toets:
• Ratio van ssb tussengroepsvariantie en ssw binnengroepsvariantie
• Als ssb veel groter wordt dan ssw dan zullen er daadwerkelijke verschillen zijn tussen
groepen (populatiegemiddelden), i.p.v. dat het toevalsspreiding (ssw) is
Gebruik F-verdeling:
• Wordt gebruikt om te bepalen of een groep variabelen gezamenlijk ‘significant’ zijn
• Vrijheidsgraden voor between groups (hier: 3-1=2) én within groups (hier: 18-3=15)
Interpretatie p-waarde:
• Een van de groepen verschilt significant van minimaal een van de andere
Voorbeeld ANOVA
Verschilt BMI afhankelijk van fysieke activiteit? Fysieke activiteit, 6 categorieën: very low, low, under
average, average, above average, high.
Verschilt BMI afhankelijk van fysieke activiteit?
Ja, (ergens) is er een significant verschil tussen de groepen (p<0,05). Minimaal één van de groepen
verschilt significant van minimaal één van de andere groepen.
Between= k – 1
Within = n – k
Total = n – 1
K= aantal groepen
ANOVA: Post-hoc toets
De tweede stap is een post-hoc toets om te achterhalen waar het verschil zit. Welke groepen
verschillen van elkaar? Hier: 15 vergelijkingen!
, • BMI verschilt significant voor de groepen met zeer lage en bovengemiddelde fysieke
activiteit (Diff = -0.94; p<0.05)
• BMI verschilt significant voor de groepen met zeer lage en hoge fysieke activiteit (Diff = -1.51;
p<0.05)
Assumpties ANOVA
1. Normale verdeling (van residuen)
2. Homogeniteit van varianties (zoals bij t-toets, maar hier niet direct een ‘aanpassing’ bij schending)
3. Waarnemingen onafhankelijk (volgt uit design)
Samenvatting ANOVA
• T-toets niet bruikbaar bij > 2 groepen
• ANOVA als alternatief
• Geeft alleen beperkte informatie (F-toets): één van de gemiddelden is anders dan (één van)
de andere
• Post-hoc analyse (Tukey) om erachter te komen wat van wat verschilt
• Dit kunnen we ook met regressieanalyse doen (volgende week: dummy-regressie)
Lineaire regressie
• Uitkomst (‘afhankelijke variabele’)
o Minimaal interval meetniveau
• Determinant (‘onafhankelijke variabele’):
o Alle meetniveau’s:
▪ dichotoom (t-toets),
▪ categoriaal (‘dummy’; ANOVA),
▪ continu (ook: correlatie)
Zoals de naam al zegt: we schatten een lineair verband. Met bivariate regressie schatten we het
verband tussen twee variabelen (X en Y). We schatten Y als lineaire functie van X. Met de
determinant X proberen we variantie in de uitkomst Y te verklaren.
Lineaire regressie: voorspelling
• Hoeveel neemt een variabele (Y) gemiddeld toe / af als een andere variabele toeneemt (X).
, • We maken op basis van de onafhankelijke X-variabele een voorspelling voor de waarde op de
afhankelijke Y-variabele.
o Vandaag bivariate regressie: het voorspellen van Y op basis van X
o Volgende week multiple (‘multivariabele’) regressie: het voorspellen van Y op basis
van meerdere onafhankelijke variabelen (X1, X2, X3, etc.)
Voorbeeld
We willen de variantie in Y (hier: systolische bloeddruk) verklaren met behulp van X (hier: BMI). Hoe
doe je dat?
De manier waarop een lineaire regressie tot stand komt heet ‘Ordinary Least Squares’. Voor elke
observatie wordt de kleinste gekwadrateerde afstand gezocht tussen geobserveerde en door de
regressie voorspelde waarde. Klinkt bekend? Gekwadrateerde afwijkingen / Sum of Squares... daar
gaan we weer!
De meest eenvoudige voorspelling voor Y is het gemiddelde:
Maar dan maken we een best grote voorspellingsfout, dit noemen we: TSS = Total Sum of Squares:
Betere voorspelling dan
... krijgen we (hopelijk) nadat we determinant(en) toevoegen om de variantie in Y te voorspellen.
D.m.v. voor ieder observatie de kleinste gekwadrateerde afstand tot de regressielijn zoeken (OLS)
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur stuv19. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €12,49. Vous n'êtes lié à rien après votre achat.