Statistische modellen 2
Inhoudsopgave
1
,Hoorcollege 1: Regressieanalyse
maandag 5 feb 2023
Literatuur
College
Inleiding onderzoek: data beschrijven, onderzoek, begon breed en uiteindelijk ingezoomd over hoe
onderzoek je kwantitatieve data
SM1: wat kunnen we met data als we data willen generaliseren. Dus je wil wat zeggen over de groep
buiten die je onderzocht hebt. Proces van generaliseren noemden we interferentie en daar hadden
we 2 methodes voor de ene was toetsen en de andere betrouwbaarheidsinterval
SM2: we gaan contexten uitbreiden dus we gaan het nog steeds hebben over bhi en toets maar dan
voor nieuwe situaties die we nog niet gehad hebben.
Opzet hoorcolleges
Toelichting op cursusstof
- Illustraties van statistische concepten
- Illustraties van de practicumopgaven
- Hoorcollege wordt opgenomen, en twee weken voor het tentamen beschikbaar gesteld
(behalve de eerste week)
Toetsing statistische modellen 2
afsluitend tentamen
- 28 maart en 24 juni 2024
- combinatie open/gesloten vragen (beide 50%)
Overzicht cursus
1. Regressieanalyse (vandaag)
2. Multivariatie relaties
3. Variantieanalyse
4. Covariantieanalyse
5. Regressieanalyse met categorische predictoren
6. Logistische regressieanalyse
7. Repeated measures ANOVA
regressieanalyse onafhankelijke(lengte) en afhankelijke(gewicht) variabele en je verondersteld een
lineair verband. lengte voorspeller voor gewicht, verklaard lengte vanv erschillen van gewicht. Deel
2
,zal verklaren zijn aan lengte maar een deel ook niet. Verklaarde variantie welk deel van gewicht
kunnen we verklaren. Vandaag gaan we ook proberen dat te vertalen naar de populatie o.b.v.
toetsen eng aan het uibreiden om soms meerdere variabelen mee te nemen niet alleen lengte maar
ook suikerconsumptie, of ⅔ andere variabelen. Word wat ingewikkelder maar blijft hetzelfde
Soorten variabelen
- NOM: nominaal (‘labels’) → geslacht, zit geen ordening of verhouding in
- DUM: dummyvariabelen (bv D=1: experimenteel, D=0: controle) soort 🡪 hele eenvoudige
variabelen die aangeven zit je wel of niet in een groep dus 1 wel in groep en 0 niet in groep.
- INT: interval/kwantitatieve variabele 🡪 kan allerlei mogelijke waardes aannemen, t maar geen
verhoudingen, ratio heeft dat wel. temperatuur is geen ratiovariabele maar lengte wel.
Ordinale data gebruiken we vaak als labels dus in praktijk wordt daar vaak niet mee gerekend.
Welk model?
verschillende modellen om bepaalde soorten
vragen kunt beantwoorden en het verschil zit in
soort variabele dat je met elkaar vergelijkt.
ANOVA=analyses of variance in nederlands is dat
eenwegvariantieanalyse.
Belangrijk op basis van een vraag te kunnen
herleiden welke variabelen je aan het vergelijken
bent. Variabele is iets waarop je kan verschillen zoals score, groep, gewicht en zorg dat je dat herkent
in een stuk tekst en herkent aan dit schema want dan weet je welk model je moet gebruiken.
verschilt door wat voor variabele er eigenlijk in stopt, t-toets voor onafhankelijke groepen heb je als
onafhankelijke variabele dummyvariabele, dus twee groepen en gemeten in intervalvariabele.
overzicht van hele vak belangrijk is om variabelen te onderscheiden.
Overzicht vandaag: regressieanalyse
1. Lineaire relaties 🡪 regressieanalyse gebruik je voor lineaire relaties
2. Statistisch model
3. SPSS-analyse
4. Verklaarde variantie
5. Assumpties 🡪 welke eisen zou data aan moeten voldoen om toetsen uit te kunnen voeren,
6. Voorbeeld met 4 voorspellers
7. Afwijkingen in data + mogelijke oplossingen
1.1 lineaire relaties
Relatie tussen intervalvariabelen
relatie lengte, gewicht (zijn ratio variabelen), regressie gaat uit van een lineair verband maar dat
hoeft niet altijd, voor kinderen vaak een lineair verband maar kinderen zijn op een gegeven moment
uitgegroeid. Niet alle relaties zijn zinvol om te omschrijven door middel van een rechte lijn.
in veel onderzoek situaties zijn er intervalvariabelen (INT)
voorbeelden:
- Lengte, gewicht, leeftijd
- Schaalscores voor introversie, depressie, coping, attitude
3
, - Vaardigheidsscores voor taal, rekenen
Vanuit een wetenschappelijke theorie hebben we vaak verwachtingen over hoe variabelen
gerelateerd zijn, maar hoe kan je een relatie uitdrukken?
Voorbeeld
onderzoek naar depressie en coping
steekproef van N=84 random geselecteerde RUG-studenten
Twee variabelen
BDI (Beck Depression Inventory)
0-9 weinig, 10-18 mild, 19-29 matig, 30-63 zware depressie (zou je het liefst laag willen scoren)
Coping score 0=geen coping, 10=goed kunnen omgaan met tegenslag (zou je het liefst hoog willen
scoren)
Onderzoeksvraag: is er een relatie tussen BDI en coping (in de populatie)? 🡪 dat er een relatie is
betekend niet dat het voor iedereen geld 🡪 niet overgeneraliseren
Het idee dat mensen die meer moeite hebben met tegenslag(coping) dus die hebben meer kans op
depressie. Of depressieve mensen kunnnen slechter copen
Spreidingsdiagram
Wat valt op?: Hogere scores op coping, lagere scores op BDI (depressie)
richting. vrij duidelijk negatief verband.
Hoe sterk is de relatie?( je zou correlatie uit kunnen rekenen dan weet je hoe sterk verband is
veronderstel relatie is lineair 🡪 toename in coping is proportioneel t.o.v. afname BDI best
🡪 passende lijn
en je ziet dat meeste personen aardig voorspelt zijn. Vraag vervolgens is hoe goed beschrijf lijn nou
eigenlijk de data. Een lineair model werkt goed in de praktijk
Wanneer je er een lijn door tekenen en dan zie je gemiddeld genomen welke BDI bij welke
copingscore past. en vervolgens kijken hoe dicht puntjes bij lijn zitten
Lineaire relatie
een lineair model werkt goed in de praktijk Het
🡪 blijkt dat veel relaties tussen twee intervalvariabelen
redelijk met een lineair verband zijn samen te vatten (correlatie is een manier om uit te drukken in 1
getal hoe sterk is dit verband.
Een lijn wordt beschreven door een helling. Dit getal (=parameter) geeft
4