Statistiek III aantekeningen
College 1: Introductie
Statistiek: altijd kijken naar de associatie die bestaat tussen de verschillende variabelen.
Vandaag
1. Opbouw van de cursus
- Achtergrondinformatie
- Samenstelling eindcijfer
- Hoorcolleges
- Consultatie
- Rooster
- Opdrachten
2. Overzicht van de inhoud van de cursus
- Inleiding
- Multipele regressie
- Niet-lineaire regressie
- ANOVA / Herhaalde metingen ANOVA
- ANCOVA
Elke week komen er opgaves op nestor, en ook aangeraden opdrachten uit Agresti.
Statistische onderwerpen
“Vijf” hoofdonderwerpen
1. (Algemene achtergrond, herhaling statistiek 2)
2. Multipele regressie
3. Niet-lineaire regressie: bijv. als we willen voorspellen of iemand stat3 haalt, op basis van
zijn/haar cijfer van stat2.
4. ANOVA
5. ANCOVA analysis of covariance. Covariaat: continue variabele, naast een categorische
variabele.
6. Herhaalde metingen ANOVA uitbreiding van de paired t-test.
Samenstelling eindcijfer
Opdrachten:
- Twee verplichte opdrachten, analyse van datasets
- Verplicht
- Scoring: Voldoende of onvoldoende
- Voldoende voor beide opdrachten noodzakelijk voor deelname aan tentamen
- Later meer informatie (Nestor)
Zijn grote opdrachten, waar je twee weken aan werkt. Er worden in deze weken geen colleges
gegeven, zodat je volop met de opdrachten bezig kunt gaan.
,Tentamen:
- Meerkeuze tentamen aan het eind van blok 2b in A.J. Hal
- Enkele formules op formulekaart (binnenkort op Nestor te vinden) en tabellen
Eindcijfer Stat3
- Als beide opdrachten voldoende: Eindcijfer = cijfer op het tentamen (of herkansing)
We hebben in totaal 10 hoorcolleges, 5 in blok 2a en 5 in blok 2b.
Achtergrond theorie, introductie opdrachten, bespreken voorbeeldtentamen.
Niet alles dat “belangrijk” is wordt besproken op de hoorcolleges!
Consultatie
Biedt extra ondersteuning bij het maken van de opdrachten.
Hoe precies? Wordt binnenkort bekend gemaakt op Nestor/
GEEN vervanging van hoorcolleges.
Heb het volgende bij de hand:
- Je dataset
- Je output en SPSS Syntax
- Je specifieke vragen dus niet: ik weet niet waar ik moet beginnen.
Bereid jezelf voor voordat je een beroep doet op consultatie!
Belangrijke data
Start & deadline Opdracht 1 (blok 2a) 10 maart 15:00 – 23 maart 17:00
Start & deadline Opdracht 2 (blok 2b) 19 mei 15:00 – 1 juni 17:00
Tentamen: 13 juni 12.15 – 14.15 uur A.J. Hal
Herkansing: 6 juli 12.15 – 14.15 uur A.J. Hal
Opdrachten
Wat komt er in je opdracht
- Beschrijving van de data
- Onderzoeksvragen
- Verklaring waarom de gekozen methode geschikt is
- Controle assumpties (indien van toepassing)
- Resultaten (bijvoorbeeld met SPSS, JASP)
- Verklaring / interpretatie van resultaten: statistisch en algemeen
,Wat komt er NIET in je opdracht
- Delen van output-tabellen die je niet gebruikt
o Bijvoorbeeld: dubbelklik op een figuur/tabel in SPSS om onnodige info te
verwijderen
- Irrelevante informatie
Verder:
- Spelling: niet het meest belangrijke onderdeel, maar wel relevant.
- Consultatie: Wacht niet tot het laatste moment.
- Gebruik het template, te downloaden via Nestor (.doc).
- Inleveren:
o Word bestand
o Noem je opdracht “groep_XX_opdracht1.doc” en “groep_XX_opdracht2.doc”
o Uploaden/inleveren via Nestor
- Slechts enkele delen van de opdrachten worden beoordeeld (de delen die direct
gerelateerd zijn aan de statistische analyses).
- Meer informatie volgt bij de start van de opdrachten.
Hoe slim, effectief & efficiënt studeren?
- Voorbereiding download & print de slides & lees literatuur.
- College ga naar college, reken na afloop de voorbeeld in de slides zelf na.
- Oefenen deel I: maar exercises van betreffende week (genereer output en reken
handmatig van alles na) (vanaf week 2).
- Oefenen deel II: maak nog enkele opgaven uit Agresti (Nestor) (vanaf week 2)
- Vragen stellen: stuur een mail en ik (Edith) maak een video (vanaf week 2)
Inleiding
Statistiek 3 gaat verder waar Statistiek 2 is gebleven.
- Meer ANOVA, meer Regressie en verdieping.
- Vijf hoofdonderwerpen:
1. Multipele regressie
2. Niet-lineaire regressie
3. ANOVA
4. ANCOVA
5. Herhaalde metingen ANOVA
Deze week:
- Grootste deel herhaling van statistiek 2 kennis
- Voornamelijk enkelvoudige regressie en controle aannames
,Overzicht van de inhoud van de cursus
Multipele regressie
Doel van een model: Het geven van een helder, goed te interpreteren overzicht van de populatie.
Een zo goed mogelijke beschrijving van samenhang van de variabelen in de populatie. Het liefst een
zo eenvoudig mogelijk model, die wel een goede beschrijving van de populatie geeft. Deze twee
dingen gaan niet samen.
Wat wil je in een model:
- Model dat de populatie goed beschrijft (hoge 𝑅2 ) goede model fit.
- Model dat goed te interpreteren is:
o (A) 𝑌 = 𝑎 + 𝑏1𝑋 is eenvoudiger dan
o (B) 𝑌 = 𝑎 + 𝑏1𝑋1 + 𝑏2𝑋2+…+𝑏10𝑋10 niet makkelijk te interpreteren, doordat
er meer variabelen in het model zitten, dus ook meer partiële correlaties.
- Hoewel de 𝑅2 voor B beter is dan voor A
Wisselwerking tussen aantal variabelen en verklaarde variantie. Hoe beslissen? We kunnen hiervoor
bijv. kijken naar de partiële en de semi-partiële correlaties. Is winst in 𝑅2 significant?
Multipele regressive – voorbeeld
- Afhankelijke variabele: 𝑌 = salary
- IVs: 𝑋1 = time, 𝑋2 = pubs, 𝑋3 = female dummy , 𝑋4 = cits
- Doel: voorspellen van 𝑌 met zo min mogelijk IVs
Alle variabelen, behalve FEMALE, hebben significante correlatie met Y.
,Maar het is niet noodzakelijk alle IV’s te gebruiken (multicollineariteit).
Wat als we alle variabelen gebruiken, de eerste tabel. Dan hebben we een R 2 van 0.503.
Wat als we FEMALE eruit halen, tweede tabel, dan zien we dat de R 2 waarde nauwelijks kleiner
wordt. Een piepklein verschil, maar het model wordt er wel eenvoudiger door, aangezien we nu één
variabele minder hebben.
We kunnen ervanuit gaan, dat als iemand veel publiceert, deze persoon waarschijnlijk ook wel veel
geciteerd wordt. Je zou er dus voor kunnen kiezen om of alleen de hoeveelheid publicaties, of alleen
de hoeveelheid citaties in het model op te nemen.
Dus wat nou als je alleen citations en werkervaring opneemt in je model, hoeveel R 2 moet je dan
inleveren? Dan krijgen we een R2 van 0.491, het is dus wel iets minder, maar de modelpassing is nog
steeds best prima en we hebben een eenvoudiger model. Kiezen we voor het model met de iets
hogere R2 en dus een betere model passing, maar wel een ingewikkelder model? Of ga ik voor het
model met minder variabelen, dus eenvoudiger, maar daarmee ook een iets minder goede model
passing.
We willen zo goed mogelijke voorspelling krijgen, waar natuurlijk de samenhang tussen de variabelen
in verpakt zit. Als we naar het plaatje kijken dan zien we rode en groene stippen. De groene stippen
zijn de voorspelde waardes met het volledige model, dus met 4 variabelen. Als we kijken naar het
eenvoudigere model, met drie variabelen, de rode stippen, dan zien we dat de rode en de groene
stippen enorm dichtbij elkaar liggen. Dus, dat het betreft de voorspellingen, niet echt veel verschilt.
,Niet-lineaire regressie – CH14, CH15
Onderscheid niet-linaire relaties & niet-lineaire modellen CH14.
Een curvi lineaire relatie: iets is niet lineair, maar er is wel een relatie.
Hierbij kun je dus soms wel een lineair model gebruiken.
Logistische regressie (een niet-lineair model): als DV Y dichotoom (0,
1 variabele) is CH15
Niet-lineaire regressie: Kwadratische regressie
Plot: X1 vs. Y en regressielijn
Regressielijn helpt bij voorspelling, maar is niet perfect
Plot X1 vs. residu = Y – Y^ (ŷ
met hoofdletter).
Duidelijk niet-lineair patroon. Een niet-lineaire samenhang. Ook wel
een curvi-lineaire relatie.
Als we een parabool kunnen maken, dan spreken we van een
kwardratische regressie.
Plot: X1 vs. Residuen van de regressie 𝑌^ = 𝑎 + 𝑏1𝑋 + 𝑏2 𝑋 2
Residuen kleiner en geen patroon betere fit
Polynome regressie, we kunnen beter komen met een parabool dan
een recht lijn.
Hier hebben curvi-lineaire relatie gefixed met een lineair model.
Simple linear regression: Y^i = a + byxXi
Multiple linear regression: Y^ = a + b1X1 + … + bpXp
Onafhankelijke variabelen (IV’s):
- Continue variabelen en code variabelen.
In een lineair regressiemodel:
- Afhankelijke variabele Y is continue variabele
Maar wat als:
,Niet-lineaire regressie: logistische regressie
In dit voorbeeld: of iemand op de basis van het aantal publicaties wat diegene heeft, wel of niet
promotie krijgt. Als we alleen naar de output tabellen kijken, dan lijkt er niet veel mis te zijn. Daarom
moeten we plaatjes maken. We zien hier dat de output nergens op slaat, aangezien onze y-waarde
alleen maar 0 of 1 is. We hebben te maken met een slechte fit en een moeilijke interpretatie. Maar
cruciaal: er zijn aannames geschonden, waardoor we geen fatsoenlijke conclusies kunnen trekken.
We hebben bijvoorbeeld problemen met homoscedasticiteit, met normaliteit van residuen, etc.
Als we de logit-transformatie toepassen, dan schatten we een S puntenwolk. Je kijkt nu ook een
intercept en een helling, maar ze zijn niet meer lineair.
,Volgende blok: ANOVA / repeated measures ANOVA – CH12
Vergelijken van gemiddelden van meer dan twee groepen.
- Uitbreiding van two-sample t-test
Als regressiemodel met code-variabelen als onafhankelijke variabelen
Repeated Measures : meerdere metingen per persoon, het zijn geen
onafhankelijke gemiddeldes. We gaan per lijntje kijken. Zien we bij
iedereen een positief verschil tussen de eerst en tweede meting, en
dan weer een positief verschil tussen de tweede en derde meting. We
gaan kijken of we de verschillen in de personen kunnen vergelijken.
- Uitbreiding van paired-samples t-test
ANCOVA – CH13
We gaan verschillende groepen vergelijken, maar we hebben nu bijv. een continue variabele die ook
samenhangt met de uitkomst. We willen de
verschillen tussen de regressielijnen onderzoeken.
Er wordt een continue voorspeller (covariaat, fixed
value) toegevoegd aan ANOVA modellen. Dan gaan
we de verschillen tussen de gemiddeldes van de
groepen vergelijken, we kijken dan naar de adjusted
means.
Je kunt statistisch controleren/aanpassen voor
verschillen in covariaat.
Interacties tussen continue en categorische
voorspellers.
Verminderde error variantie
Statistics overview – college 9
Welke procedure wanneer gebruiken? Wat als er niet aan de assumpties is voldaan?
,College 2: Multiple regression
Vandaag
1. Wat willen we nu eigenlijk onderzoeken?
2. Simple linear regression
3. Multiple linear regression
- Multipele regressie met 2 IV’s
- Berekenen van regressiecoëfficiënten
- Maten voor associatie:
o Multiple 𝑅 en 𝑅 2
o Semi-partiële / partiële correlatiecoëfficiënten
- Multipele regressie met >2 IV’s
- Statistische inferentie met >2 IV’s
Wat willen we nu eigenlijk onderzoeken?
Samenhang tussen verschillende variabelen onderzoeken.
Is er een relatie tussen …
- Cell phone use (CPU) & Anxiety & Academic performance & General life satisfaction?
- Alcoholconsumptie & Mortality & Leeftijd? We weten allemaal dat hoe ouder je bent,
hoe eerder je dood zal gaan. We moeten dit soort feiten ook meenemen in onderzoek.
- Anger expression & Geslacht & Sport?
Wat willen we nu eigenlijk onderzoeken? Waarom regressie?
Samenhang / associatie onderzoeken tussen verschillende variabelen.
Lineaire regressie kan heel veel van dit soort relaties onderzoeken:
- Simple linear regression: 1 DV & 1 IV
- Multiple linear regression: 1 DV & meerdere IV’s plus eventuele interacties
- 1-ANOVA: 1 DV & 1 categorische IV met code-variabelen
- 2-ANOVA: 1 DV & 2 categorische IV’s met code-variabelen voor elke
factor
Regressiemodel
= prediction model, alles draait om voorspellen.
= een eenvoudige maar veelzijdige benadering van de relatie tussen variabelen
Maar: associatie ≠ causaliteit
Binnen de gedragswetenschap zijn lineaire modellen simpelweg het model om onzze data mee te
analyseren.
, Simple linear regression
𝑥 = Onafhankelijke variabele, IV, voorspeller, predictor
𝑦 = Afhankelijke variabele, DV, response variabele
Geschatte regressielijn: ŷ = a + bx
b = regressiecoëfficiënt / helling / slope
a = intercept, geschatte waarde van ŷ bij x = 0, het snijpunt
met de y-as.
e = residuen steekproef
We hebben nu een model, waarmee we op verschillende
manier dingen kun schatten. Bijv. het kleinste kwadraten
criterium, de fout die we maken in de voorspelling willen we
zo klein mogelijk houden. OLS ordinary least squared. We
kunnen hiermee de helling schatten, als zijnde de correlatie tussen y en x, vermenigvuldigt met de
standaarddeviate van y, gedeeld door de sd van x. De intercept kunnen we dan ook gemakkelijk
uitrekenen.
Formules (OLS) methode:
Assumpties simple linear regression
Assumptie 1: lineariteit
- We verwachten dat het gemiddelde van y. lineair gerelateerd is aan x. We
veronderstellen een lineaire relatie tussen 𝑥 en het gemiddelde van 𝑦: 𝜇𝑦 = 𝛼 + 𝛽𝑥
Verwachte waarde van 𝑦 gegeven waarde 𝑥:
Assumptie 2: homoscedasticiteit
- Alle subpopulaties voor elke waarde van 𝑥 zijn normaal
verdeeld met gelijke variantie ơ. Voor de conditionele
verdelingen die we zien, dat die allemaal dezelfde
spreiding hebben, bijv. dezelfde standaarddeviatie of
dezelfde variantie. Voor elke subpopulatie, gedefinieerd
door een x-waarde, vinden we een normale verdeling
van y-scores, maar de standaarddeviatie is elke keer gelijk. De spreiding rondom de
regressielijn is overal ongeveer gelijk.
Assumptie 3: onafhankelijkheid en normaliteit van de residuen
- Residuen 𝜀𝑖~𝑁 0, 𝜎 zijn onafhankelijk van x. gemiddelde van 0 en een constante variantie.
Als er voldaan is aan al deze voorwaarden, dan krijg je output die je met goed fatsoen kan
interpreteren.
Het gaat erom: wat betekent het allemaal? Wat kan ik ermee? Welke conclusies kan ik trekken?