MMC hoofdstuk 2
Relationships
Associated: Zodra alle participanten getest worden op beide variabelen. De variabelen zijn
geassocieerd zodra de waardes van de ene variabele je iets vertellen over de waardes van de andere
variabelen.
Bv. bij Starbucks, de kleine beker kost 4 euro, de medium 6 en de grote 8.
De meeste statistische associaties zijn niet zo sterk als hierboven. Er zijn vaak afwijkingen.
Dat een variabele als kwantitatief (bv. 14 mg hemoglobine) is gemeten, betekent het niet dat je het
ook als kwantitatief moet bestuderen. Je kan het bv. omzetten naar categorisch (bv. wel of niet
anemic). Example 2.4
Response variabele/independent: Meet een uitkomst van een studie.
Explanatory variabele/dependent: Verklaart of veroorzaakt de veranderingen in de response
variabele.
Als je geen response en explanatory variabele aan het begin bepaald hoeft dit er ook niet te
zijn. Example 2.7
In veel studies wil men een explanatory-response relatie aantonen, maar veel van deze relaties geven
geen directe causaliteit. Hoge cijfers op de middelbare voorspellen universiteitsprestaties, maar ze
veroorzaken de universiteitsprestaties niet.
Een dataset om een relatie tussen twee variabele te vinden met bevatten:
- Cases: Kijk hoeveel cases er zijn, bv. participanten.
- Categorical or quantitative: Classificeer elke variabele als categorisch of kwantitatief.
- Values: Bepaal de mogelijke waardes van elke variabele.
- Explanatory or response variabele?
- Label: Bepaal wat er wordt gebruikt als label variabele en of er een is. Label variabele
onderscheidt de verschillende cases binnen een variabele, bv. man en vrouw.
Scatterplots
Beste manier om een relatie tussen twee kwantitatieve variabelen, die getest zijn op
dezelfde cases, weer te geven. Example 2.9
Elke case is een punt i/h plot die wordt bepaalde door de waardes van de x-as én de y-as.
Explanatory variabele: Op de x-as.
Response variabele: Op de y-as.
Bij het analyseren van een scatterplot kijk je naar het algemene patroon en grote afwijkingen van het
patroon. Je kan het algemene patroon beschrijven aan de hand v/d vorm, richting en sterkte v/d
relatie. Example 2.10
Positief geassocieerd: Zodra boven gemiddelde waardes van de ene variabele samengaan met boven
gemiddelde waardes van de andere variabele. Dit geldt ook voor onder-gemiddelde waardes.
Negatief geassocieerd: Zodra boven gemiddelde waardes samengaan met onder gemiddelde
waardes en vice versa.
Sterkte v/d relatie: Afhankelijk van hoeveel de punten i/h scatterplot v/d lijn afwijken. Om te kijken
hoe sterkt de relatie is laten we computerprogramma’s een lijn trekken i/d scatterplot.
Curved relationship: Om een ongeveer lineaire relatie te vormen kan er transformation toegepast
worden. Originele waardes worden vervangen door de getransformeerde waardes en deze worden
voor de analyse gebruikt.
,The log transformation
De meest gebruikte, alleen bij positieve waardes. Zodra er een waarde van 0 is vervang je deze door
de helft v/d kleinste waarde i/d dataset.
Je kan de gevonden relatie niet buiten de data betrekken die je onderzocht hebt. Vraag jezelf
altijd af of de relatie die je ziet logisch is, anders zijn er meerdere analyses nodig.
Adding categorical variables to scatterplots
Om een nieuwe categorische variabele, bv. vloeibare of poeder wasmiddel, toe te voegen gebruik je
verschillende kleuren voor elke categorie. Example 2.15
Zodra we een kwantitatieve variabele willen toevoegen kan je deze verdelen in categorieën,
bv. hoog, middel of laag.
Scatterplot smoothers
Een manier om een curve te construeren. Examples 2.16. Er wordt gebruik gemaakt van een
smoothing parameter die bepaald in hoeverre de relaties gesmooth wordt. Hoe groter de waarde,
hoe smoother de curve. Example 2.17
Correlation
We gebruiken de numerieke meeting van correlatie aangezien onze ogen geen goede beoordelers
zijn v/d relatie.
The correlation r
Meet de richting en sterkte v/d lineaire relatie tussen twee kwantitatieve variabelen. De formule
voor r is niet handig om zelf uit te rekenen, laat dit door een computer doen.
De gestandaardiseerde waardes worden berekend. Deze zegt hoeveel STD’s boven of onder
het gemiddelde een persoon zit. Deze hebben geen units, dus bv. geen cm.
Properties of correlation
De formule van r kan ons laten zien of een associatie tussen twee variabelen positief of negatief is.
Stel x is negatief en y ook dan krijg je alsnog een pos. relatie. Stel x is positief en y positief, dan krijg je
ook een pos. relatie. Klein gewicht en kort zijn is dus pos. geassocieerd, maar groot gewicht en lang
zijn ook.
Maakt geen onderscheid tussen explanatory en response variabele.
Beide variabelen moeten kwantitatief zijn.
R heeft geen unit. Ook het veranderen v/d units, meetniveaus, veranderd niks aangezien de
waardes gestandaardiseerd zijn.
Positieve r is positieve relatie en vice versa.
R is altijd een waarde tussen -1 en 1. Waardes dicht bij 0 geven een zwakke relatie aan, hoe
verder van 0 hoe sterker de relatie. -1 en 1 geven een rechte lijn aan.
Geeft alleen lineaire relaties aan, dus geen curved relaties hoe sterk ze ook zijn.
R wordt sterk beïnvloed door outliers.
Geef ook altijd het gemiddelde en de STD, alleen de correlatie is niet voldoende.
Least-squares regression
Een regressie lijn vat de relatie tussen twee variabelen samen, maar alleen als de ene variabele de
andere voorspelt of verklaart. Een regressie beschrijft dus een relatie tussen een explanatory en
response variabele. Example 2.19
Rechte lijn die beschrijft hoe de response y verandert als de explanatory x verandert. Je
gebruikt regressie om een waarde y te voorspellen aan de hand van gegeven waarde x.
Fitting a line
, Trekken van een lijn die zo dicht mogelijk bij de punten i/d scatterplot komt.
Een rechte lijn waarbij y tot x gerelateerd wordt heeft de vorm van y = b0 + b1x. B1 is hier de slope,
hoeveel y verandert als x verhoogd met één unit. De slope geeft dus de gemiddelde verandering van
de response variabele. B0 is intercept, de waarde van y als x 0 is. Zo bepaal je dus de regressie lijn.
Example 2.20
Prediction
Je kan de regressie lijn gebruiken om de response y te voorspellen voor een specifieke waarde van de
explanatory x. Je kan de voorspelling interpreteren als: example 2.21
1. De gemiddelde waarde van y van een aantal cases bij een waarde van x.
2. Onze beste gok v/d waarde van y voor een individu met een specifieke waarde van x.
Hoe accuraat een voorspelling is hangt af van hoe ver de waardes v/d lineaire lijn liggen.
Extrapolation: Gebruiken van een regressielijn voor een voorspelling ver buiten de range van
waardes v/d explanatory variabele die gebruikt is om de lijn te krijgen. deze zijn vaak
inaccuraat en moeten vermeden worden.
Least-squares regression
We gebruiken de lijn om y te voorspellen van x, dus willen we een lijn die zo dichtbij mogelijk de
verticale richting is. Te voorspelling fouten die we maken zijn vaak y fouten, wat dus de verticale
richting is.
Positieve error: Als de geobserveerde response boven de lijn ligt.
Negatieve error: Als de geobserveerde response onder de lijn ligt.
We willen een regressie lijn die deze voorspelling errors zo klein mogelijk maakt. Figuur 2.18
laat de errors zien van de regressielijn. Om het zo klein mogelijk te maken gebruik je least-
squares regressielijn.
The least-squares regression line: De lijn die de som van de v/d squares v/d verticale afstanden v/h
datapunt tot de lijn zo klein mogelijk maakt. Example 2.23
We noteren y met een dakje i/d formule v/d regressielijn om te laten zien dat dit een
voorspelde waarde van y dakje geeft voor x. De voorspelling is meestal niet gelijk aan de
geobserveerde waarde.
The least-squares methode kiest de lijn die de kleinste som van errors geeft. Hiervoor
moeten we de waardes v/h intercept en de slope weten die de som van errors
minimaliseren. Dit bereken je met software.
Interpretatie: De slope en intercept v/d least-squares lijn hangen af v/d units van meten, bv.
in gram of in kilogram. De grootte van de b1 en b0 zegt dus niks.
Facts about least-squares regression
1. Er is een connectie tussen correlatie en de slope. De formule van de slope zegt dat een
verandering van 1 STD in x gelijk is aan de verandering van r STD’s in y. Als de variabelen
perfect correleren (1 of -1) dan is de verandering i/d voorspelde variabele y hetzelfde als de
verandering in x. Anders is de verandering in y kleiner dan de verandering in x. Hoe kleiner de
correlatie, hoe minder y verandert. Als de correlatie 0 is, is de slope ook 0.
2. The least-squares regressielijn gaat altijd door het punt (x met streepje, y met streepje).
3. Onderscheid tussen explanatory en response is essentieel bij regressie. Least-square
regressie kijkt alleen naar de afstand v/d lijn in the y directie, als je de variabelen dus
verwisseld verandert de regressielijn.
, Correlation and regression
R2 is de fractie v/d variatie in de waardes van y die verklaard worden door de least-squares regressie
van y op x. The square of the correlation r2 is the fraction of the variation in the values of y that is
explained by the least-squares regression of y on x. Example 2.25
R2 is bv. 0.6062, dan verklaart de rechte lijn de relatie die is gevonden voor 61%. Er zijn
natuurlijk allemaal afwijkende punten die de correlatie niet kan verklaren. R2 geeft aan hoe
succesvol de regressie de reactie verklaart.
Je kan R2 dus gebruiken om te zien hoe sterk de associatie is. Stel de correlatie is 1 of -1, dan
is r2 ook 1. Alle variabele van één variabele is dan meegenomen in de lineaire relatie. 0.7 is
ongeveer de helft zodra je in r2 termen gaat kijken van 0 en 1.
Another view of r2
Blz. 117 belangrijke formule.
Cautions about correlation and regression
Residual: Het verschil tussen een geobserveerde waarde en de verwachtte waarde v/d regressie lijn.
Je berekent deze door observed y – verwachte y te doen, of wel y – y dakje.
Deze geven aan hoe ver de data van de regressielijn ligt. Residuals kunnen dus helpen bij het
beschrijven van hoe goed de lijn bij de data past.
Least-square residual: Het gemiddelde van de lesat-squares residuals is altijd 0.
Residual plot: Een scatterplot van de regressie residuals tegenover de explanatory variabele.
Residual plots helpen om te bepalen hoe goed de regressielijn is.
Aangezien het gemiddelde 0 moet zijn gaat de residual plot lijn vanuit 0. Zo kan je goed de
deviaties bestuderen vanaf de regressielijn.
Als de regressielijn het algemene patroon goed weergeeft zal er geen patroon in de residuals
moeten zijn. Om de rechte lijn moeten de residuals dus random liggen. Example 2.26 laat dit
zien.
Bij example 2.27 is te zien dat figuur 2.24b een curved relatie laat zien. De regressielijn laat
dus niet goed het algemene patroon zien aangezien er bij de hoge x waardes alleen maar
positieve waardes zijn.
Outliers and influential observations
Example 2.28, participanten 15 en 18 lijken beide af te wijken. 15 wijkt af in de y richting, en 18 in de
x richting. In de residual plot valt af te lezen dat eigenlijk alleen participant 15 een hoge residual
heeft.
Een outlier in de x richting heeft grote invloed op de positie v/d regressielijn. Een extreme x
met weinig andere punten om zich heen trekt de lijn naar zichzelf toe.
Outlier: Observatie die buiten het algemene patroon ligt. Outliers in de y richting hebben grote
regressie residuals, maar in de x richting is dit niet noodzakelijk het geval.
Infuential: Zodra het verwijderen van een observatie opmerkelijke veranderingen in het resultaat
zou laten zien. Outliers in de x richting zijn vaak influential voor de least-squares regressielijn.
Hoe influential een x outlier is kan je bekijken door een regressielijn te maken met en zonder de x
waarde. Zodra de x waarde dicht bij de regressielijn ligt zonder de x waarde is er dus weinig invloed.
De invloed van een y outlier hangt af van de hoeveelheid waardes met dezelfde x waarde. Als dit er
veel zijn kunnen deze x-waardes de lijn op zijn plaats houden. Example 2.29
Aangezien influential observaties de regressielijn naar zichzelf toe trekken is het mogelijk dat we ze
niet eens zien.