Samenvatting SPSS – Epidemiologie en Biostatistiek II
Inhoudsopgave
Continue uitkomstvariabelen:
Onafhankelijke t-toets p.
Spreidingsdiagram p.
Lineaire regressie analyse p.
Het vergelijken van meer dan 2 groepen p.
Variantieanalyse
Lineaire regressie analyse
Niet normaal verdeelde uitkomsten p.
Niet lineaire verbanden p.
Confounding en effectmodificatie p.
Voorspellende multiple lineaire regressieanalyse (continue uitkomst) p.
Dichotome uitkomstvariabelen:
Associatie met chi2 toets p.
Logistische regressie analyse p.
Continue determinanten bij logistische regressie analyse p.
Categoriale determinanten bij logistische regressie analyse p.
Onderzoek op lineariteit van het verband met continue determinant p.
Confounding en effectmodificatie p.
Voorspellende multiple lineaire regressieanalyse (dichotome uitkomst) p.
Dichotoom + tijd variabele:
Kaplan Meier procedure p.
Cox regressie analyse (survival analyse p.
Confounding en effectmodificatie p.
Voorspellende Cox regressie analyse p.
,Voor continue uitkomstvariabelen gebruiken we lineaire regressie analyse
Voor dichotome uitkomstvariabelen gebruiken we logistische regressie analyse
WALDtoets en 95%BI kunnen onbetrouwbaar zijn bij klein aantal waarnemingen -> dan kun je beter kijken
naar de LR toets kijken. In dit geval zijn er 420 waarnemingen dus is er nauwelijks verschil tussen de
WALDtoets en de LRtoets
Het bestuderen van confounding en effectmodificatie bij logistische regressie gaat op dezelfde manier als bij
lineaire regressie analyse
Om te onderzoeken of een variabele een confounder is van de relatie tussen de centrale determinant en de
uitkomst voegen we de potentiële confounder toe aan het regressie model en kijken we of het verband (dus
de regressie coëfficiënt van de centrale determinant) verandert door deze correctie (met arbitraire grens van
0,10)
Om te onderzoeken of een variabele een effect modificator is maken we een interactie term aan met de
centrale determinant en kijken we of de regressie coëfficiënt van deze interactie term significant is in een
model waarin zowel de centrale determinant als de effect modifier zijn opgenomen.
Let op: doordat er in sommige variabelen missings zijn, kunnen de regressiecoëfficiënten in het ruwe model
ook steeds net iets anders zijn, afhankelijk van welke confounder je toevoegt.
Bij hercoderen kan het teken gaan omslaan
Eliminatie van confounding en bestudering van effectmodificatie gaan bij Cox-regressie analyses op precies
dezelfde manier als bij lineaire en logistische regressie.
1
,Practicum 1: Analyse van continue uitkomstvariabelen – deel 1
Hoofdstuk 1.1: Onafhankelijke t-toets
Analyse -> Compare means -> Independent Samples T test
DATASET ACTIVATE DataSet1.
T-TEST GROUPS=smk(0 1)
/MISSING=ANALYSIS
/VARIABLES=sbp
/CRITERIA=CI(.95).
Vraag:
Wat is de conclusie van deze toets?
Antwoord:
Uit de onafhankelijke t-toets blijkt dat het verschil tussen rokers en niet rokers gelijk is aan 7,02 mmHg.
Verder blijkt dat het verschil tussen beide groepen niet statistisch significant is (p = 0,172).
Hoofdstuk 1.2: Spreidingsdiagram
Oftewel: scatterplots
Zodat je de relatie tussen twee continue variabelen grafisch zichtbaar maakt
Voorbeeld:
Kijken of iemands systolische bloeddruk kunnen voorspellen aan de hand van de leeftijd
o Bloeddruk = 100 + leeftijd in jaren
Graphs -> legacy dialogs -> scatter/dot; Simple scatter
DATASET ACTIVATE DataSet2.
GRAPH
/SCATTERPLOT(BIVAR)=age WITH sbp
/MISSING=LISTWISE.
Er is een redelijk lineair verband tussen beide variabelen + er is een uitbijter (outliner)
Je kan de relatie verder onderzoeken in een regressieanalyse
Hoofdstuk 1.3: Lineaire regressieanalyse
Voorbeeld:
We willen graag de relatie weten tussen leeftijd en bloeddruk
We hebben gezien dat de relatie lineair is. Nu voeren we een lineaire regressieanalyse uit.
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT sbp
/METHOD=ENTER age.
We willen graag bij het tabel (coefficients) de betrouwbaarheidsintervallen zichtbaar maken.
Dit doe je door:
Analyse -> regression --> lineair -> statistics -> confidence intervals
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI(95) R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
2
, /DEPENDENT sbp
/METHOD=ENTER age.
Interpretatie R square:
43% van de variantie in sbp (R Square = 0.432) wordt verklaard door de regressie met age
o De regressiecoefficient voor age is significant t = 4,618 en p<0,001)
Interpretatie regressiecoefficient (B) leeftijd:
Een verschil in leeftijd van 1 jaar tussen twee personen geeft een (gemiddeld) verschil in bloeddruk van
0.971 mmHg
Interpreatie regressiecoefficient (B) constant:
Een persoon van 0 jaar zou een geschatte bloeddruk moeten hebben van 98.715 mm Hg (= Constant =
intercept)
(overigens hypothetisch, want de leeftijd 0 komt niet bij onze proefpersonen voor)
Regressieformule wordt:
systolische bloeddruk = 98,715 + 0,971 x leeftijd
Vraag:
Wordt de vuistregel 'Bloeddruk = 100 + leeftijd in jaren' door dit onderzoek bevestigd?
Antwoord:
Ja, 98.715 (constante) is bijna 100 en 0,971 (leeftijd) is bijna 1
Opdracht 1.1:
Uitbijter verwijderen -> patient 2 met een bloeddruk van 220 is de uitbijter
Data -> select cases -> patient ID aanklikken -> IF -> ~= 2 invoeren -> paste
USE ALL.
COMPUTE filter_$=(pat_id ~= 2).
VARIABLE LABELS filter_$ 'pat_id ~= 2 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMATS filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE.
Eerst een grafiek om te kijken of de uitbijter is verdwenen:
Graphs -> legacy dialogs -> scatter/dot -> simple scatter -> define -> x en y variabele invullen -> paste
GRAPH
/SCATTERPLOT(BIVAR)=age WITH sbp
/MISSING=LISTWISE.
Er na een lineaire regressie analyse:
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI(95) R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT sbp
/METHOD=ENTER age.
3
, Coe fficientsa
Unstandardiz ed Standardized
Coef f icients Coef f icients 95% Conf idence Interval f or B
Model B Std. Error Beta t Sig. Low er Bound Upper Bound
1 (Cons tant) 97,077 5,528 17,562 ,000 85,735 108,419
Leef tijd ,949 ,116 ,844 8,174 ,000 ,711 1,188
a. Dependent Variable: Sys t. bloeddruk
Vraag:
Hoe zit het nu met de vuistregel bloeddruk = 100 + leeftijd in jaren?
Antwoord:
De constante uit de regressievergelijking is 97,077, terwijl de regressie coëfficiënt voor leeftijd 0,949
Het gaat dus nog aardig op. Tevens is een mooi lineair verband en heeft dit een sterk significante p-
waarde.
Opdracht 1.2.a
Met behulp van lineaire regressie analyse de relatie onderzoeken van achtereenvolgens: BMI, AGE, SMK EN
SBP
Vraag:
Zijn er verbanden te ontdekken tussen bloeddruk en resp. BMI en leeftijd? En zijn deze verbanden
rechtlijnig te noemen?
Scatterplot van BMI en bloeddruk maken:
DATASET ACTIVATE DataSet3.
GRAPH
/SCATTERPLOT(BIVAR)=bmi WITH sbp
/MISSING=LISTWISE.
180
170
Systolische bloeddruk
160
150
140
130
120
20,00 25,00 30,00 35,00 40,00 45,00 50,00
bmi
Scatterplot van leeftijd en bloeddruk maken:
GRAPH
/SCATTERPLOT(BIVAR)=age WITH sbp
/MISSING=LISTWISE.
180
170
Systolische bloeddruk
160
150
140
130
120
40 45 50 55 60 65
age
Antwoord:
Ja er is een lineair (rechtlijnig) verband tussen bloeddruk en resp. BMI en leeftijd
4
, Opdracht 1.2.b
Bepaald nu de regressie van bloeddruk (als afhankelijke variabele) op leeftijd (als onafhankelijke variabele).
Vraag:
Is leeftijd als voorspeller van bloeddruk te beschouwen (met andere woorden, is leeftijd geassocieerd
met bloeddruk)?
Zo ja, wat voor consequenties heeft een verschil in leeftijd van 1 jaar voor de gemiddelde bloeddruk?
En een verschil van 10 jaar?
Analyse -> regression -> lineair ->
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI(95) R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT sbp
/METHOD=ENTER age.
Coe fficientsa
Unstandardiz ed Standardized
Coef f icients Coef f icients 95% Conf idence Interval f or B
Model B Std. Error Beta t Sig. Low er Bound Upper Bound
1 (Cons tant) 59,092 12,816 4,611 ,000 32,917 85,266
age 1,605 ,239 ,775 6,721 ,000 1,117 2,092
a. Dependent Variable: Sys tolische bloeddruk
Antwoord:
Ook in dit geval is leeftijd weer sterk geassocieerd met de systolische bloeddruk.
Een verschil van 1 jaar in leeftijd is geassocieerd met een verschil van 1.605 eenheden in systolische
bloeddruk.
Analoog hieraan is een verschil van 10 jaar geassocieerd met een verschil van 16.05 eenheden in
systolische bloeddruk.
Opdracht 1.2.c
Bepaal de regressie van bloeddruk op BMI
Vraag:
Is de BMI als voorspeller van bloeddruk te beschouwen?
Zo ja, wat doet een verschil van 1 eenheid in BMI op de gemiddelde bloeddruk?
Analyse -> regression -> lineair ->
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI(95) R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT sbp
/METHOD=ENTER bmi.
Coe fficientsa
Unstandardiz ed Standardized
Coef f icients Coef f icients 95% Conf idence Interval f or B
Model B Std. Error Beta t Sig. Low er Bound Upper Bound
1 (Cons tant) 70,576 12,322 5,728 ,000 45,412 95,741
bmi 2,149 ,355 ,742 6,062 ,000 1,425 2,873
a. Dependent Variable: Sys tolische bloeddruk
5