o Na afloop van de cursus is de student in staat met behulp van statistische
(regressie)technieken een antwoord te krijgen op
gezondheidswetenschappelijke vragen.
o De theoretische achtergrond bij de in de cursus behandelde statistische
technieken/modellen uitleggen;
o Uit de behandelde statistische technieken de best passende kiezen, gegeven
een onderzoeksvraag, het onderzoeksdesign en de gemeten variabelen;
o De resultaten van deze analyse(s) op juiste wijze kan interpreteren;
o Wanneer, waarom en hoe een Chi2-toets en bijbehorende associatiematen
o Kunnen berekenen en interpreteren van een OR, incl. BI;
o Opbouw van een logistisch model kunnen volgen
o Weten hoe je een determinant (ongeacht meetniveau) dient te analyseren met
een logistisch regressiemodel;
o Resultaten van een logistisch model uit kunnen leggen.
,HC 1 ANOVA en Lineaire Regressie
Regressie: universele oplossing voor (toetsings-)problemen.
ANOVA: vergelijking van meer dan 2 groepen
Correlatie: verband tussen twee variabelen
Determinant =
onafhankelijke variabele
X-variabele
X-as
Uitkomst =
afhankelijke variabele
Y-variabele
Y-as
Lineaire Regressie
Schatten van een lineair verband.
Onafhankelijke variabele (determinant):
alle meetniveau’s: dichotoom (t-toets), categoriaal (dummy = ANOVA), interval/ratio (correlatie)
Afhankelijke variabele (uitkomst):
minimaal interval meetniveau
Bivariate regressie = verband schatten tussen 2 variabelen X en Y
Y schatten als lineaire functie van X
Hoeveel neemt Y toe of af als X toeneemt?
Op basis van onafhankelijke X-variabele een voorspelling maken van Y-waarde.
Onmogelijkheiden van regressie
- geen antwoord op de waarom vraag, maar observeren van relatie
- theorie en eerder onderzoek moet leiden tot verklaring
- alleen verklaringen kunnen toetsen
Lineair verband
Voorbeeld: we willen de variantie Y verklaren met behulp
van X.
We maken een voorspelling van de gemiddelde bloeddruk
→ de lijn door de puntenwolk.
Bij X=0 Y = constante, of intercept, of a(lpha) of B0
Hoeveelheid voorspelde Y omhoog bij 1 eenheid X = de
richtingscoëfficiënt, slope, b(eta), of B1.
Met constante en ri.coefficient kun je voorspellingen Y doen met X.
d.m.v een regressievergelijking:
Ydakje is de voorspelde Y.
B0 = constante
B1 = coëfficiënt
,Constante te lezen onder unstandardized B(constant) en BMI (coëfficiënt).
P-waarde van constante p<0.05, zegt niks, want gaat over de constante, die zal vaak significant
verschillen van 0…
De toets is op basis van t-verdeling (zie t-waarde)
Richtingscoefficient heeft wel een hypothese! Als p<0.05 mogen we nulhypothese (geen verband)
afwijzen!
Er is altijd een voorspellingsfout, daarom dakje en niet Y. Waardes liggen om voorspelde lijn heen,
dus nooit werkelijke waarde, meer variatie.
Relatie tussen voorspelling en observatie
- voorspelde Y wijkt (bijna) altijd af van observatie.
- hebben dus te maken met (voorspellings)fout het residu.
Verklaarde variantie
Total sum of squares = som v gekwadrateerde afwijkingen van
iedere observatie tot gemiddelde (kwadraatsom van de
variantie!). Gemiddelde Y^ = Y-
SSE = residual (variantie zonder kwadraat)
R2 = TSS – SSE / TSS = hoeveel is er verklaard?
SPSS output: model summary
Doel van regressie is de variantie in variabele te verklaren!
“Hoeveel van de variantie in bloeddruk wordt verklaard door BMI?”
Kijk bij R square → 0.183 = 18%
Adjusted R square houdt rekening met aantal determinanten.
Hoe meer variabelen, hoe meer variantie, maar levert het iets
op?
, In een bivariate lineaire regressieanalyse zijn R en Beta de
correlatiecoefficient tussen X en Y.
Dus: als BMI met 1 standaarddeviatie toeneemt, neemt
voorspelde bloeddruk met 0.427 standaarddeviaties toe.
Dit zegt iets over de spreiding rondom de voorspelde waarden. Het
kwadraat van de standaarddeviatie is de variantie.
Dit betekent dat de onzekerheid groter wordt bij toename BMI. Ook het BI
verandert bij verandering van BMI, dit kun je berekenen met
Constante +/- 1.96 * regressie coëfficiënt.
Total sum of squares
De meest eenvoudige voorspelling Y^=Y- (het gemiddelde).
Maar dat is een grote voorspellingsfout.
TSS =
Som van alle gekwadrateerde afwijkingen van iedere observatie (Y) tot het gemiddelde Y-, ook wel
kwadraat van de variantie.
Bovenste SPSS rij, vervolgens residu zonder kwadratering, onderaan alles opgeteld.
Ordinary least squares regression: voor elke observatie wordt kleinst gekwadrateerde afstand tot
regressielijn gezocht.
Sum of Squared Errors = betere voorspelling, obv ordinary least
squares regressielijn.
SSE =
Som van gekwadrateerde afstand tussen voorspelde en geobserveerde
waarde, lijkt op TSS!
In SPSS: Residual Sum of Squares.
TSS = bestaande variantie in uitkomst Y
Maar om te verklaren is voorspelling niet perfect, daarom SSE.
Hoeveel variantie hebben we verklaard?