Deze samenvatting bevat stof afkomstig uit de colleges, werkgroepen, vragenuurtjes en sommige delen uit het boek van Twisk. Ideaal voor studenten van de premaster health sciences aan de VU!
Blok 1 de analyse van continue uitkomstvariabelen (lineaire regressie
analyse en ANOVA)
HOORCOLLEGE
Je gebruikt een steekproef om de hypothese over de populatie te toetsen. Toetsen is om te kijken of
je hypothese juist of onjuist is en schatten doe je om aan te geven hoeveel onzekerheid er is in de
data van je steekproef.
DUS:
toetsen berekenen van de kans op het gevonden resultaat als eigenlijk de H0 waar zou zijn. (dus
hoe groot is de kans dat de gevonden waarde voorkomt in de populatie.
Schatten hoeveel onzekerheid is er in je steekproefresultaat (wordt vaak gerapporteerd met het
betrouwbaarheidsinterval).
Als de 0 in de independent T-test BINNEN het betrouwbaarheidsinterval valt, kun je de H0 NIET
verwerpen. Dit komt doordat de H0 van een independent T-test is ‘’’dat het verschil tussen de twee
gemiddelden niet van elkaar verschillen.’’ Valt de 0 IN het betrouwbaarheidsinterval, dan verschillen
de gemiddelden dus inderdaad niet (significant) van elkaar. Natuurlijk blijf je wel kijken naar het
significantieniveau (2 tailed) die vermeld wordt in de independent T-test output. Als dit HOGER is dan
0.05 kan H0 NIET worden verworpen.
Als je continue data analyseert kun je verschillende technieken gebruiken. Welke je gebruikt is
afhankelijk van hoeveel groepen er zijn. Bij twee groepen kun je de independent sample T-test
gebruiken, maar als er meerdere groepen zijn, kun je de ANOVA gebruiken (ANOVA = analyses of
normal variances). Dit gebruik je dus als je met meer dan 2 groepen te maken hebt die je wilt
vergelijken/analyseren. Een independent T-test meerdere keren achter elkaar gebruiken is niet aan
te raden omdat je dan elke keer opnieuw een 5% onzekerheid accepteert waardoor het totaal
minder betrouwbaar wordt (er komt steeds meer kans op een type 1 fout als je zomaar meerdere
independent T testen achter elkaar uitvoert). Meer info in de dia’s van hoorcollege 1 (30 oktober).
- Sum of squares TUSSEN de groepen (between groups)
- Sum of squares BINNEN de groepen (within groups)
Aannames voor een ANOVA toets te kunnen /(mogen) uitvoeren:
- Data moet normaal verdeeld zijn
- Varianties van de residuen moet gelijk zijn (varianties zijn homogeen)
o Kun je doen d.m.v. een boxplot op te vragen
o De kleinste en grootste variantie mogen niet meer dan een factor van 2 verschillen
- Waarnemingen zijn onafhankelijk van elkaar
In een regressie analyse bepaal je je onafhankelijke en afhankelijk variabele en kun je met een
regressie analyse testen in hoeverre de uitkomst (afhankelijke variabele), beïnvloedt wordt door de
determinant (onafhankelijke variabele).
1
,Lineaire regressie hoeveel neemt Y (de uitkomst) toe of af als X (de determinant) toeneemt.
Een lineaire regressie KAN NIET aangeven WAAROM er een verband is. het geeft alleen aan of er een
verband is en hoe dit zich verhoudt.
Bivariate regressie doe je als je maar 2 variabele hebt (bijvoorbeeld BMI = onafhankelijke
variabele/determinant en bloeddruk is afhankelijke variabele/uitkomst).
Bij een lineaire regressie kijk je hoe de observatie liggen t.o.v. van de regressie lijn. De observaties die
afwijken van de lijn zijn residuen. Dit wordt ook wel de voorspellingsfout genoemd.
De waarde van de uitkomst als de onafhankelijke waarde (determinant) 0 is, wordt de intercept of
constante genoemd (dus welke uitkomst heb je als de determinant een waarde van 0 is). Dit is B0.
B1 is de richtingscoëfficiënt B2 richtingscoeffecient/hellingscoefficient verschil in de
uitkomstvariabele, als de determinant 1 - eenheid verschilt (bij ieder toename in BMI punt, dus als je
BMI van 24 naar 25 gaat, dan neemt de bloeddruk toe met B1).
DUS: De b0 is de geschatte waarde van de uitkomst als de determinant 0 is. En de b1 is de
hoeveelheid verschil in uitkomst, als de determinant met 1 eenheid stijgt.
Formule voor regressievergelijking: voorspelde Y^ = B0 + B1 * Y
Je H0 in een lineaire regressie analyse is dat er geen (lineair) verband is tussen de variabelen. H1 is
dan dus dat er wel een verband is tussen de variabelen. Als het significantieniveau (dat SPSS toont in
de output van een lineaire regressie analyse) lager is dan 0.05, dan verwerp je H0 en heb je dus
aangetoond dat er wel een verband is tussen de variabelen (in het voorbeeld uit het hoorcollege is er
dus wel een verband tussen BMI en bloeddruk).
Bij een dichotome variabele en continue uitkomstmaat is de interpretatie van B0 wat anders dan bij
continue variabele. Omdat er maar 2 opties zijn bij dichotoom (bijv. man/vrouw), moet je B0
interpreteren als volgt: als de determinant 0 is, kijk je naar het gemiddelde van deze groep. Als 0
bijvoorbeeld ‘man’ betekent, is B0 de gemiddelde waarde van ‘man’. M.a.w. is dit de gemiddelde
waarde als de determinant 0 is.
Als er een categoriale determinant is, kun je ook een regressie analyse gebruiken, maar dit wordt dan
meer een multipele regressie analyse. Dit komt volgende week pas aan bod.
Verklaarde variantie dit is hetgene waar je naar op zoek bent. Het geeft antwoord op de vraag:
hoeveel variantie in je uitkomst wordt er bepaald door je determinant. In SPSS is dit R2. In het
voorbeeld van het hoorcollege is dit dus: hoeveel procent variantie in de bloeddruk (bloeddruk is de
uitkomst), is te verklaren door BMI (BMI = determinant). Verklaarde variantie bereken je door (de
totale sum of squares – sum of squares within groups/residuals) te delen door de totale sum of
squares (TSS – SSW)/TSS = (TSS – residuals)/TSS
Belangrijkste aanname voor een lineaire regressie analyse is dat de data (min of meer) normaal
verdeeld is. Dit is van belang omdat een lineaire regressie analyse uitspraken doet over gemiddelden.
Als de data niet normaal verdeeld is, geeft het gemiddelde geen goed beeld. Als de data positief
2
, scheef verdeeld is, voer je een logtransformatie uit zodat de data wat normaler verdeeld wordt.
O.b.v. van de gelogtransformeerde data ga je de lineaire regressie analyse uitvoeren.
TIJDENS HET MAKEN VAN DE WERKGROEPOPDRACHT
Als je een vóór- en nameting wilt vergelijken met een independent T-test (je wilt het verschil tussen
vóór en na bekijken voor twee groepen), moet je eerst een nieuwe variabele aanmaken. Doe
hiervoor de nameting – de voormeting (NA – VOOR).
SAMENVATTING
SSE = sum of square errors. Dit is de afwijking van een geobserveerde waarde t.o.v. de regressielijn.
Wordt hetzelfde berekend als de TSS, alleen wordt nu de geobserveerde waarde – de voorspelde
waarde (dus de waarde die de regressielijn aangeeft en die dus voorspeld wordt) gedaan. Deze
uitkomst wordt vervolgens, net zoals de TSS, gekwadrateerd. SSE zijn de residuals (dus de observaties
die afwijken van de regressielijn/verwachtingslijn).
Blok 2 multiple lineaire regressie
TWISK H7
Bij associatiemodellen gaat het om het zo zuiver mogelijk schatten van een verband tussen een
bepaalde uitkomstmaat en een centrale determinant.
Bij predictiemodellen gaat het om zo goed mogelijk voorspellen van een bepaalde uitkomstvariabele
aan de hand van een set mogelijke determinanten.
HOORCOLLEGE LINEAIRE REGRESSIE J.W. TWISK (vanaf begin t/m 1:08:00)
Dummyvariabele maak je als de geobserveerde waarden GEEN lineaire lijn volgen. Een
dummyvariabele vergelijkt de ene categorie (gecodeerd met 1), met de andere/overige
dummyvariabele(n) (gecodeerd met 0). Dit gebeurt voor elke aangemaakte dummyvariabele om de
relatie tussen de categorieën onderling te analyseren. De variabele worden dan vergeleken om een
verschil te krijgen tussen de variabele in kwestie t.o.v. de variabele die als 0 gecodeerd is in de
dataset (meer uitleg over dummyvariabelen en de interpretatie ervan in de hoorcollege van Twisk
vanaf minuut 50).
3
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper baetsenjoep. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €7,49. Je zit daarna nergens aan vast.