- BB – kennisclips lineaire modellen
Wc1 - Statistiekteksten – H1, H2
Voorbereiding
Bij regressie analyse gaat men uit van een lineair verband. Het gaat om een continue Lineaire modellen
variabele (y-as), die de afhankelijke variabele wordt genoemd. Een andere continue
variabele op de x-as is de onafhankelijke variabele.
De onafhankelijke variabele wordt gebruikt om de
afhankelijke variabele te beschrijven.
Een waarneming uit de populatie kan nu worden
beschreven als een punt op de lijn bij (in dit geval) een
bepaalde borstomvang + afwijking van de lijn (residu):
Yi = a + bxi + ϵ i.
Hierbij is yi normaal verdeeld met gemiddelde a+bxi en
een variantie σ 2. De residuen ϵ i hebben een normale
verdeling met gemiddelde 0 en variantie σ 2.
In de steekproef moet de lijn geschat worden. De lijn is
het best passend als de afstand van de punten tot de lijn
(in y-richting) (het residu) het kleinst is.
In de residu kwadraatsom worden de residuen
gekwadrateerd en gesommeerd. Een residu is de afstand van een punt tot de lijn → yi – (a+bxi). De residu
kwadraatsom is dan: SSres =∑ [ y i −( a+bxi ) ]
2
Als alle residuen in het kwadraat op zijn kleinst zijn, dan is de som van de residuen in het kwadraat ook het
kleinst.
De waarden voor a en b waarvoor geldt dat de residu kwadraatsom het kleinst is, geeft
waarden voor a en b. Deze worden uitgerekend met de formule rechts.
Als a en b zo worden uitgerekend, dan is de residu kwadraatsom het kleinst.
a en b zijn dan ook de kleinste kwadraten schatters.
De uit de steekproef geschatte lijn wordt nu: y i = a + bxi + ei.
Het aantal vrijheidsgraden (df) van de residu kwadraatsom is n-2. Als de residu kwadraatsom door het
aantal vrijheidsgraden wordt gedeeld, dan krijg je de residu
variantie. Dit geeft aan wat de variantie van de punten om de
lijn is.
Als er (in dit voorbeeld) niet wordt gelet op borstomvang, dan
vat je de gegevens samen als het gemiddelde. De afstand
tussen de meting en het gemiddelde is de totale afstand, welke
bestaat uit het residu + de regressie. De regressie is de afstand
tussen een punt en het gemiddelde.
De afwijking van de regressie heet de regressie afwijking, deze
geeft gekwadrateerd en gesommeerd de regressie
kwadraatsom: SSreg =∑ [ ( a+bxi )− y ] . Met df = 1.
2
Er geldt: SStotal = SSreg + SSres. Met df: n-1 = 1 + (n-2)
Als je kwadraatsommen deelt door vrijheidsgraden, dan krijg je varianties (MS; mean square).
,Een anova tabel is een tabel waarin de kwadraatsommen, vrijheidsgraden, en varianties staan.
Als de puntenwolk goed bij de lijn past, dan zijn de residuen klein vergeleken met de regressie.
F = MSreg/MSres zal dan ook groot zijn.
F is hier de toetsingsgrootheid. Om de p-waarde te bepalen gebruikt men dat de F een fisher verdeling
heeft met 1 en n-2 vrijheidsgraden.
De hypothesen H0: b=0 en H1: b≠0 kunnen ook met een t-toets getoetst worden. De
toetsingsgrootheid van de t-toets bepaalde afstand tussen datgene wat je vond in je
b−0
onderzoek (b) en de nulhypothese (b=0) uitgedrukt in standard errors: t = . Waarin:
se (b)
s2x is de variatie van de x-en. Deze t-toetsingsgrootheid heeft een student verdeling met df = n-2.
Het verband tussen de F- en t-toetsingsgrootheid is: t = √ F
Als de H0 wordt verworpen, dan is een lineair verband aangetoond.
Als de lijn goed bij de punten past, dan zullen de residuen klein zijn t.o.v. het totaal, en zullen de
regressiestukjes een groot deel vormen van het totaal. De
verhouding SSreg/SStotaal zal groot zijn, en dicht bij 1 Statistiekteksten H1
liggen.
r2 = SSreg/SStotaal is een maat voor hoe strak de punten om de lijn liggen.
De covariantie is een maat voor het lineaire verband →
Deze formule lijkt veel op die van de variantie (als je x
vervangt door y). In de populatie wordt deze aangegeven met σ xy.
Als x groter is dan het gemiddelde ( x ), en y ook groter is dan y , dan is (xi - x )(yi - y ) positief, en
dragen deze punten dus positief bij aan de covariantie.
Als x en y kleiner zijn dan resp. x & y , dan is de bijdrage ook positief.
Als x groter is dan x , en y kleiner is dan y (of vice versa) is de bijdrage negatief.
Als er meer positief bijdragende punten zijn, dan is er een stijgende puntenwolk en spreek je van een
positief verband. En als er meer negatief bijdragende punten zijn, dan spreek je van een dalende
puntenwolk, en een negatief verband.
Als de covariantie ongeveer 0 is, dan is er geen lineair verband.
De absolute grootte van de covariantie zegt niets, omdat deze afhangt van de eenheid waarin gemeten
wordt (dezelfde afstand in cm i.p.v. m geeft 100x grotere covariantie). Om hiervoor te corrigeren deel je de
covariantie door de standaard afwijking van x (sx), en y (sy). Deze schaal-onafhankelijke maat voor het
S xy
lineaire verband is de correlatiecoëfficiënt (r): r = . In de populatie wordt deze aangegeven met r.
Sx × S y
Bij r=-1 is er een volledig negatief lineair verband; bij r=1 een volledig positief lineair
verband; en bij r=0 is er geen lineair verband. Om het lineaire verband te toetsen,
toetst men: H0: r = 0 ; H1: r ≠ 0.
Hiervoor wordt een t-toets gebruikt, die dus kijkt naar de afstand tussen de
onderzoeksbevinding (r) en nulhypothese (r = 0) uitgedrukt in standard errors (se): t = Statistiekteksten H2
r −0
.
se (r )
Door se(r) in te vullen en om te schrijven volgt de uiteindelijke formule (test 10) → (df = n-2)
Bij regressie analyse wordt ervan uitgegaan dat de relatie lineair is.
Hierbij wordt de continue onafhankelijke variabele (x) gebruikt om
de continue afhankelijke variabele (y) te beschrijven.
,De rechte lijn wordt beschreven met: y = a + bx, waarbij y de afhankelijke variabele
is en x de onafhankelijke. a is het intercept (y-coördinaat waar de lijn de y-as snijdt). b is de
regressie coëfficiënt (helling v/d lijn).
Elke waarneming uit de populatie wordt beschreven als een punt op de lijn + een afwijking van
de lijn (residu) → yi = a + bxi + ϵ i.
Hierbij is yi normaal verdeeld met gemiddelde a+bxi & variantie s2. De residuen (ϵ i) hebben
een normale verdeling met een gemiddelde van 0 en een variantie van s2.
In een steekproef moet de lijn zo goed mogelijk geschat
worden → afstand van de punten tot de lijn (in y-richting) zo klein
mogelijk.
Deze afstanden heten residuen. Het residu wordt
gekwadrateerd, omdat het voor de afstand niet uitmaakt of het punt boven of onder de lijn
ligt. De som van de residuen in het kadraat moet het kleinst zijn. De residukwadraatsom (ssres) is het gevolg
van het kwadrateren & optellen van de residuen. Een residu is yi – (a + bxi), dus:
SSres = ∑ ¿¿ yi – (a + bxi)]2. Df = n-2.
De a en b waarden waarvoor SSres zo klein mogelijk is, worden berekend met →
De residuvariantie verkrijg je door de SSres door het aantal vrijheidsgraden (n-2) te delen.
De totale afstand is de afstand tussen een punt en het gemiddelde van alle waarnemingen (yi - y ).
De totale kwadraatsom (sstot) is SStot = ∑ ¿¿ yi – y )2. Door te delen door de vrijheidsgraden (Df = n-1) krijg
je de variantie van (in dit geval) de gewichten.
Het verschil tussen het residustuk en de totale afstand is de
regressie afwijking.
n
SSreg = ∑ ( ( a+ b xi ) − y ) . Df = 1.
2
i−1
Er geldt: SStot = SSreg + SSres. Df: n-1 = 1 + (n-2)
De kwadraatsommen gedeeld door de vrijheidsgraden geeft de varianties, ook wel
gemiddelde kwadraatsommen (mean square; MS) genoemd. Dit kan allemaal worden
samengevoegd in een anova tabel.
Als H1 (b≠ 0) klopt, dan zijn de residuen klein t.o.v. de regressiestukjes. De residuvariantie zal dus ook
kleiner zijn dan de regressievariantie. F = MSreg/MSres zal hierdoor groot zijn. F is de toetsingsgrootheid, en
heeft een Fisher verdeling met 1 en n-2 vrijheidsgraden.
Men kan ook een t-toets gebruiken, waarbij de afstand tussen de H 0 en de bevindingen uit het onderzoek
(b) wordt uitgedrukt in standard errors.
S2x is de variantie van de x-en. Df = n-2.
Het verband tussen F- en t-toetsingsgrootheid is t = √ F , mits het eerste aantal vrijheidsgraden voor de
noemer van de F-toetsingsgrootheid 1 is.
Als de lijn goed past, dan vormen de residustukjes een klein deel van de totale afstand. De regressie-
kwadraatsom is dan dus een groot deel van de totale kwadraatsom → SSreg/SStotaal is groot (nadert 1).
Andersom zal deze deling 0 naderen als de lijn slecht past.
Er blijkt een verband met de correlatiecoëfficiënt: R2 = SSreg/SStot.
R2 representeert ook de proportie van de totale variantie de wordt verklaard door de lineaire relatie et de
andere variabele.
, Werkcollege
De correlatie in een puntenwolk varieert van -1
(sterk negatief) tot 1 (sterk positief). Bij 0 is er
geen correlatie.
Als je het gemiddelde neemt want de x en van de
y, dan heb je het ‘zwaartepunt’ van de
puntenwolk. De correlatielijn loopt altijd door dit
zwaartepunt.
De correlatie wordt berekend met:
S xy
r=
Sx × S y
Hierbij geldt Sxy = ∑ (x i−x)( y i− y )
Griekse letters gaan over de populatie; romeinse letters gaan over de steekproef.
Opdracht 1.1
Men wil het verband vastleggen tussen het bloedvolume in geiten (n=30) en hun lichaamsgewicht. De
afhankelijke variabele is bloedvolume.
a. Zoek in het toetsingsoverzicht op welke analyse geschikt is voor deze
vraagstelling. Test 10 (correlatie)
b. Lees de dataset geit.txt in en stel de hypothesen voor dit model op.
H0: (richtingscoëfficiënt =) b = 0
H1: b ≠ 0
c. Bepaal de correlatiecoëfficiënt. cor.test(Lichaamsgewicht,Bloedvolume) → 0.978
d. Geef aan waar de correlatiecoëfficiënt een maat voor is. Een maat voor de
lineaire samenhang tussen 2 variabelen.
e. Is de correlatie significant? Doorloop de volgende stappen:
1) stel de hypothesen op, zie b
2) beoordeel het spreidingsdiagram, lijkt vrij lineair
3) geef de toetsingsgrootheid en de bijbehorende kansverdeling,
toetsingsgrootheid = t = r/se(r)
4) geef de uitkomst van de toetsingsgrootheid, t = 24,85
5) bepaal de p-waarde en trek de conclusie. P = 2,2×10-16 → H0 wordt wél verworpen.
f. Bereken de R2 en interpreteer deze. 0.97807092 = 0.9566227. 95,7% van de totale variatie in
bloedvolume wordt verklaard door de relatie met het gewicht.
g. Bepaal de regressielijn. Wat is de waarde van het intercept van de regressielijn. Heeft dit intercept een
(biologische) betekenis in dit onderzoek? Intercept = a = 0.081469. Dit is het bloedvolume bij een
gewicht van 0 kg. Dit is een onzinnig getal, want een gewicht van 0 kg ligt niet in het meetbereik.
h. Bepaal op basis van de computeruitvoer de waarde van de regressiecoëfficiënt en geef de betekenis
hiervan. Regressiecoëfficiënt = b = 0,0662. Het bloedvolume neemt met 0,0662 toe als het gewicht met
1 eenheid toeneemt.
i. Maak een scatterplot en zet de regressielijn daarin. Zie boven.
j. Geef de formule voor het berekenen van het 95% betrouwbaarheidsinterval voor de
Sres
regressiecoëfficiënt van bovenstaande gegevens. ± t0.05×se(b); met se(b) =
√ n−1 × Sx
k. Bepaal het 95% betrouwbaarheidsinterval van de regressiecoëfficiënt en geef hiervan een interpretatie.
0.06099175 tot 0.07143684. De kans dat de regressiecoëfficiënt binnen deze waarden ligt is 95%.
l. Bereken het verwachte bloedvolume bij een gewicht van 20, 40 en 85 kg lichaamsgewicht.
Bloedvolume= 0,0815 + 0,0662 × gewicht (y=ax+b)
20kg → 1,4055