MTS 4
Week 1
Hoorcollege 1: Introductie
Recap kwantitatief
Voorbeelddata:
Is de gemiddelde lengte 1.70 meter?
o One sample t-test
Wat is lengteverschil tussen jongens en meisjes?
o Independent sample t-test
Wat is het groeitempo per maand?
o Regressie
Wat is het lengteverschil?
o ANCOVA
Is het groeitempo hetzelfde voor jongens en meisjes?
o ANCOVA met interactieanalyse
GLM: alles in 1. Al bovenstaande vragen kun je met het general lineair model
doen. Alles is in feite een regressiemodel.
(1) T-toets voor 1 groep
1. Stel de testwaarde voor de populatiegemiddelden vast (nulhypothese)
2. Bereken verschil steekproefgemiddelde en testwaarde
3. Bereken t- en p-waarde van verschil
4. Als p < dan alfa, verwerp H0
H0: gelijk aan
H1: niet gelijk aan
T-waarde = verschil tussen steekproefgemiddelde en testwaarde, uitgedrukt in
standaardfouten van het steekproefgemiddelde
Hoe groter de afwijking van het gemiddelde, hoe kleiner de kans.
Verwerp H0 als de t-waarde de kritische grenzen overschrijdt; kritieke grenzen
voor alfa = 5%.
Mean difference = verschil tussen je mean en de geschatte waarde.
Standaardfout: fluctuatie steekproefgemiddelden.
Als p <.05, dan verwerp je H0: dan kun je concluderen dat het niet gelijk was.
Betrouwbaarheidsinterval: 95% van alle mogelijke steekproeven uit dezelfde
populatie heeft een 95% BTI dat het ware verschil in populatiegemiddelden
omvat. BTI heeft te maken met het feit dat je de toets steeds gaat herhalen. In
95% omvat het BTI het ware verschil.
1
,(2) Regressie
Een regressieanalyse kan je doen met het GLM. Je stopt er alleen een
afhankelijke variabele in. Uitkomst van deze analyse is een test of between-
subjects effects. Welke predictoren/afhankelijke variabelen zijn significant?
Nulhypothese: het intercept is gelijk aan 0
Alternatieve hypothese: het intercept is niet gelijk aan 0
Als de 0 niet in het BTI zit, is de toets significant en wordt H0 verworpen.
Als de 0 wel in het BTI zit, is de toets niet significant en wordt H0 aangenomen.
(3) Independent-samples t-test
1. Neem aan dat er geen verschil is
2. Bereken verschil steekproefgemiddelden
3. Bereken t- en p-waarde van verschil steekproefgemiddelden
4. Als p kleiner is dan alfa, verwerp je H0
Assumptie van de toets: de spreiding in de toets is gelijk.
Levene’s test: altijd twee rijen, equal variances assumed & equal variances not
assumed. Levene’s test gaat om de tweede rij; de varianties zijn niet gelijk. Je
verwerpt het als <.05. Als de eerste rij significant is, dan kijk je in de twee rij.
Anders blijf je in de eerste rij kijken.
T-waarde: mean difference gedeeld door de std. error difference.
(4) GLM
Regressie met een extra variabelen. Je mag alleen continu variabelen toevoegen.
Je maakt geslacht continu, door de ene categorie 0 te geven en de andere
categorie de waarde 1 te geven.
De afhankelijke variabele blijft hetzelfde, maar je kunt geslacht als fixed factor
toevoegen. Geslacht wordt een dummy variabele, jongen krijgt waarde 1, als het
geen jongen is krijg je waarde 0; meisje. Er wordt een variantieanalyse gedaan.
De predictor is er nu wel, namelijk geslacht. R squared = verklaarde variantie.
Test voor het intercept = of de werkelijke waarde verschilt van 0.
BTI = werkelijke waarde ligt tussen de lower bound en de upper bound.
(5) Regressie
1. Neem aan dat leeftijd geen effect heeft op lengte (nulhypothese)
2. Bereken de slope voor leeftijd
3. Bereken de t- en p-waarde van de slope
4. Als p < alfa, verwerp H0
Gebruik: lineair regression > afhankelijke variabele + predictor.
Je kijkt in de tabel coefficients, hieruit kun je de regressieformule opstellen.
R = correlatie, R squared = verklaarde variantie.
ANOVA-tabel: regressie is ook een variantieanalyse.
2
,Voorspellingsfouten representeren onverklaarde variantie. Zo ver zit je er dus
naast. Als je deze allemaal optelt, krijg je je verklaarde variantie.
Samenvatting tot dusver
One sample t-test is vergelijkbaar met regressie met intercept
o De nulhypothese verschilt, maar BTI i identiek
Independent sample t-test is gelijk aan de slope voor de dummy variabele
(6) ANCOVA
Je gebruikt univariatie in SPSS. Je kijkt nu ook naar de parameter estimates. De
traditionele manier is om te kijken naar de ANOVA tabel of het significant is >
test of between-subjects effects. Je kunt ook kijken naar de regressielijn.
(7) ANCOVA met interactie
Toets voor homogene regressielijnen. Als het significant is, lopen de lijnen niet
meer parallel. In SPSS gebruiken we weer univariatie en voeren we bij model de
waarden in. We krijgen weer het tests of between-subjects effects. Zo kunnen we
zien of de slope verschilt of niet.
Stof uit Field
Hoofdstuk 8: Regressie
8.1
Voorspellen is belangrijk in de statistiek. Met behulp van een regressieanalyse
kunnen we de toekomst voorspellen.
8.2
We kunnen een formule opstellen, waardoor we door een waarde voor x in te
vullen, de waarde van y kunnen verkrijgen. De letter b is de richtingscoëfficiënt
en is gestandaardiseerd. Je gebuikt gestandaardiseerde als de eenheden feitelijk
betekenisloos zijn. Je gebruikt ongestandaardiseerde als de eenheden van X en Y
inhoudelijk te interpreteren zijn. De formule is vaak als volgt: y = ax +b. Aan de
hand van de formule krijgen we verwachte waarden.
Met deze formule kunnen we inzicht krijgen in lineariteit; een rechte lijn.
Deze rechte lijn kan gedefinieerd worden door twee dingen:
- De helling (b1), vertelt ons hoe de vorm eruitziet
- Het punt waar de lijn de verticale as doorkruist; intercept (b0), vertelt ons
de locatie in de grafiek
o Deze twee waarden worden de regressie coëfficiënten genoemd
8.2.2
In de realiteit is het vaak zo dat er meerdere variabelen gerelateerd zijn aan een
bepaald verschijnsel. De formule wordt zo uitgebreid, aangezien er meerdere
factoren een rol spelen bij het voorspellen van de waarde van y. Visueel gezien is
het dan geen lijn meer, maar een ‘plane’. De bedoeling hiervan is om de best
voorspelling te geven voor de geobserveerde data. De verticale afstand tussen
de regressie ‘plane’ en elk data punt worden residuals genoemd. Het proces dat
we hier beschrijven wordt multiple regression genoemd, en kan gebruikt worden
voor drie, vier of zelfs 10 variabelen.
Samengevat gebruiken we een regressieanalyse dus voor het voorspellen
van data. We vergelijken de waarden van de outcome variable en de waarde
van de predictor variable. Wanneer er 1 variabele is, wordt het simple
3
, regression genoemd, wanneer er meerdere factoren betrokken zijn, wordt het
multiple regression genoemd.
8.2.3
We weten dat we bepaalde parameters nodig hebben, maar hoe komen we
hieraan? Dit gaat met behulp van de methode van Least squares. We kijken
naar de verticale afstand tussen wat het model verwachte, en wat er echt
geobserveerd is, de residuals. We kijken naar de afstanden die het kleinst zijn,
deze zijn namelijk representatief voor de lijn. Vervolgens krijgen we dan de
residual sum of squares. Kort gezegd wordt deze methode dus gebruikt om de
waarden van b te schatten die volgens het regressiemodel het best bij de data
passen.
8.2.4
Met alleen de waarden hierboven beschreven, kunnen we nog niet zoveel. We
moeten naar het totaal kijken, waardoor we de total sum of squares moeten
berekenen. Dit is de totale waarde van verschillen. Deze waarde representeert
hoe goed het gemiddelde een model is van de geobserveerde data. Uiteindelijk
komen we met een model sum of squares. Wanneer de waarde van SSm klein
is, is het beter dan gewoon het gemiddelde te gebruiken. Dit krijg je uiteindelijk
door R2. Deze waarde representeert de hoeveelheid variantie in de uitkomst
verklaard door het model (SSm), vergeleken met hoe veel variantie er was in de
eerste plaats (SSt).
Daarnaast kunnen we ook rekenen met de F-ratio. Deze is
gebaseerd op het verschil tussen het model (SSm) en het verschil
in de geobserveerde data (SSr). Bij een goed model zouden we een
hoge F-ratio moeten hebben (>1).
8.2.5
Bij regressie kunnen we ook kijken naar de t-toets. Deze gaat ervan uit dat bij
de nulhypothese, de waarde van b 0 is. Voor de alternatieve hypothese wordt
verwachte dat de waarde van b geen 0 is. Als regel gaan we ervan uit dat
wanneer de geobserveerde significantie <.05, dat dan H0 wordt verworpen, en
de waarde van b dus iets anders is dan 0.
Hoofdstuk 9: T-toets
Een onafhankelijke t-toets wordt gebruikt wanneer we één categorische variabele
met 2 groepen (dichotoom) willen vergelijken op een continue (interval/ratio)
variabele, we kijken dan naar het verschil tussen die twee gemiddelden. Een
(eenweg) ANOVA wordt gebruikt wanneer we één categorische
(nominaal/ordinaal) variabele met 3 of meer groepen willen vergelijken op een
continue (interval/ratio) variabele. We kijken dan naar de structuur van de
spreiding/variantie. Let hierbij op het verschil tussen het aantal variabele en het
aantal groepen. Een tweeweg ANOVA wordt gebruikt wanneer we 2 categorische
4