1
Samenvatting Statistiek 3 Periode 4
Herhaling
“Statistiek is de wetenschap van het verzamelen, organiseren en interpreteren van numerieke feiten, die gegevens of data
worden genoemd.”
Statistiek is een verzameling methoden om data te verzamelen en te analyseren, om:
1. Een studie op te zetten: design
2. Beschrijven - van de data
3. Inferenties te maken - uit de data
Beschrijvende statistiek: informatie samenvatten over parameters uit je steekproef
Inferentiële statistiek: voorspellingen maken over populatieparameters o.b.v. je steekproef
Onderzoeken met behulp van data: observaties van karakteristieken
1. Populatie: de totale set van deelnemers, relevant voor de onderzoeksvraag
> populatiegrootheid (parameter): gemiddeld aantal uren zelfstudie per week van alle studenten
2. Steekproef: een deel van de populatie waarover data verzameld is
> steekproefgrootheid (statistic): gemiddeld aantal uren zelfstudie per week van de de studenten in de steekproef
Goede data nodig om deze onderzoeksvraag te beantwoorden: zowel valide als betrouwbaar!
Variabelen
Variabele = een gemeten karakteristiek die kan verschillen tussen subjecten.
> Soorten: gedrags-, stimulus-, subject-, fysiologische-variabelen
> Meetschalen (NOIR):
1. Categorisch/kwalitatief
Nominaal (nominaal): ongeordende categorieën (kleur ogen)
Ordinaal (ordinaal): geordende categorieën (opl. niveau)
2. Kwantitatief/numeriek
Interval: gelijke afstand tussen opeenvolgende waarden (°C)
Ratio: gelijke afstand én absoluut nulpunt (K)
> Bereik:
Discreet: meeteenheid die ondeelbaar is (# broers/zussen)
Continu: oneindig deelbare meeteenheid (lichaamslengte)
Beschrijvende statistiek
In het beschrijven van data zijn 3 dimensies van belang:
1. Centrum - “typische observatie” centrummaten
2. Variatie - “spreiding van observaties” spreidingsmaten
3. Positie - “relatieve positie van observaties” positiematen
Inferentiële statistiek
Doel: betrouwbare en valide uitspraken over populatie o.b.v. een steekproef: steekproefgrootheden dienen dan niet te
verschillen van populatiegrootheden
Problemen:
> Steekproeffout (sampling error) - “verschil door toeval”
> Steekproefvertekening (sampling bias) - “verschil door selectieve steekproefprocedure”
> Meetfout (response bias) - “verschil door verkeerd antwoord”
> Selectieve respons (non-response bias) - “verschil door geen antwoord (op item)”
Oplossing:
“Een aselecte steekproef van voldoende omvang die informatie (data) oplevert over iedereen die benaderd is, met correcte
responses voor alle subjecten op alle items.”
, 2
Drie soorten verdelingen
Populatieverdeling (population distribution)
Proportie studenten die aangeeft extra ondersteuning voor wiskunde-vaardigheden nodig te hebben.
Steekproefverdeling (sample data distribution)
Proportie studenten in steekproef (hier n=1000) die aangeeft extra ondersteuning voor wiskunde-
vaardigheden nodig te hebben.
Steekproevenverdeling (sampling distribution)
De kansverdeling voor de steekproefproportie. Te interpreteren als het resultaat van herhaaldelijk een
steekproef van omvang n (hier 1000) te trekken.
𝜋 (1−𝜋) 0.38 (1−0.38)
Standaarddeviatie van: √ =√ =0.015
𝑛 1000
Standaardfout (σM) geschat door SEM
Centrale Limiet Stelling
Jaccard en Becker (2002): “Given a population [of individual X scores] with a mean of μ and a standard deviation of σ, the
sampling distribution of the mean [M] has a mean of μ and a standard deviation [generally called the “[population]
standard error,” σM] of 𝜎⁄ and approaches a normal distribution as the sample size on which it is based, N, approaches
√𝑁
infinity.”
Soorten kansverdelingen
(Standaard-) normale verdeling
Steekproevenverdeling voor proportie als H0 opgaat.
(Steekproevenverdeling voor gemiddelde (M) als H0 opgaat en als populatiestandaarddeviatie bekend is)
Student’s t-verdeling
Steekproevenverdeling gemiddelde (M) als H0 opgaat en populatiestandaarddeviatie onbekend is.
Chi-kwadraatverdeling
Steekproevenverdeling voor gekwadrateerde afwijking (frequentie) van categorische variabele als H0
opgaat.
Steekproevenverdeling en hypothesetoetsen
Significantietoets of hypothesetoets: methode waarmee je op grond van een steekproef nagaat hoe sterk de evidentie is
tegen een bepaalde hypothese en vervolgens een beslissing maakt om deze wel/niet te verwerpen.
5 stappen van een hypothesetoets:
1. Aannames definiëren
2. Hypothesen opstellen
3. Toetsingsgrootheid berekenen (bijv. t-toets)
4. p-waarde bepalen
5. Conclusie trekken
Determinanten en relatie type I en type II fout
Kans op Type 1-fout (vals positief, false positive) wordt bepaald door:
> Het gekozen significantie-niveau (α)
Kans op Type 2-fout (vals negatief, false negative) wordt bepaald door:
> Omvang van werkelijke verschil/relatie.
> Gekozen steekproefomvang.
> Variatie (spreiding) in steekproef.
! Hoe kleiner gekozen Type 1-fout, hoe groter verkregen Type 2-fout, gegeven een bepaalde steekproef. !
Vergelijken van twee groepen: t-toets
Vergelijkingen tussen 2 steekproeven:
1. Afhankelijke steekproeven (dependent samples):
Echtgenoten en echtgenotes (bijv. tijd besteed aan huishoudelijk werk)
Herhaalde metingen (repeated measures): dezelfde persoon op twee momenten (bijv. mate van depressie voor en na
therapie).
2. Onafhankelijke steekproeven (independent samples):
Mannen en vrouwen in willekeurig getrokken steekproef
Democraten en Republikeinen
Nulhypothese : H0: m1 = m2
Voorwaarden onafhankelijke steekproeven T-toets:
- Afhankelijke variabele is kwantitatief en normaal verdeeld (op interval/ratio-niveau)
- Gelijke varianties voor beide groepen: s21 = s22
- Onafhankelijke waarnemingen (tussen en binnen groepen)
, 3
Vergelijken van twee of meer groepen: ANOVA
ANOVA: analysis of variance
One-way between subjects ANOVA:
- Iedere deelnemer behoort tot één enkele groep (bijv. 4 typen stress-situaties)
- Voor iedere deelnemer is één observatie beschikbaar (bijv. self-reported anxiety)
Groepen wordt bepaald door de levels (categorieën) van de factor:
In dit geval het aantal te onderscheiden stress-situaties.
Nulhypothese : H0: m1 = m2 = … = mk
Voorwaarden voor omnibus toets in ANOVA (F-toets):
1. Afhankelijke variabele is kwantitatief en normaal verdeeld (op interval/ratio-niveau)
2. Gelijke varianties voor alle k groepen: s21 = s21= ... = s2k
3. Onafhankelijke waarnemingen (tussen en binnen groepen)
F-ratio (toetsingsgrootheid ANOVA):
ANOVA:
F = MSbg/MSwg MS= mean square, bg = between groups, wg = within groups
> Teller (MSbg) geeft informatie over variantie in gemiddelden tussen groepen (M1, M2, … Mk)
> Noemer (MSwg) geeft informatie over variantie van uitkomstvariabelen binnen groepen
De F-toets is omnibustoets (`global test'): is er een verschil tussen één of meer van de gemiddelden?
Na significante uitkomst → vaak zoeken wélke paren verschillen. Twee manieren om verschillen tussen groepen te toetsen:
1. Post hoc (achteraf, na data verzamelen, exploratief).
2. A priori (van tevoren gepland, confirmatief).
Kwadratensommen in ANOVA:
Voorbeeld output ANOVA:
Samenhang tussen variabelen: naar bivariate statistiek
De univariate (“één variabele”) statistiek:
- Centrummaten
- Spreidingsmaten
, 4
- Betrouwbaarheidsinterval gemiddelde/proportie
- Significantietoets gemiddelde/proportie
- Significantietoets verschil tussen groepen
Bij bivariate (“twee variabelen”) statistiek gaat het om het onderzoeken van een mogelijk verband (association) tussen twee
verschillende variabelen:
- Voorspellende (predictor) variabele of onafhankelijke (independent) variabele
- Uitkomst- (outcome) variabele of afhankelijke (dependent) variabele
Hoofdstuk 9 Bivariate regressie
Andere methoden die in Statistiek 3 gebruikt worden ( [M]AN[C]OVA ) zijn te relateren aan OLS-regressie (samen GLM).
9.1 Wanneer gebruik je een bivariate regressie?
Voorwaarden bivariate regressie (enkelvoudige regressie):
1. Afhankelijke variabele (Y) is kwantitatief en onafhankelijke variabele (X) is kwantitatief of dichotoom.
2. Er bestaat een lineair verband tussen Y en X.
3. Onafhankelijke waarnemingen.
4. Gelijke variantie van fouttermen (errors)
5. Normaal verdeelde fouttermen (errors) met gemiddelde 0 voor alle waarden van X.
Bivariate regressie: de ruwe scores/standaardscores op een kwantitatieve Y voorspellen vanuit de ruwe
scores/standaardscores op een X variabele
- Lijkt erg op de Pearson r correlatie: regressie maakt ook de aanname van een lineaire relatie tussen X en Y.
Bij een correlatie kunnen zowel X als Y beide kwantitatief of beide dichotoom zijn, bij een regressie is de Y altijd
kwantitatief (behalve bij logistische regressie) en de X is vaak ook kwantitatief, maar kan ook dichotoom zijn.
- Hieruit volgt de volgende regressieformule:
Y’ = b0 +bX → in dit boek noteren ze de voorspelde y als een Y’ (bekend als 𝑦̂) en de constante als b0
(bekend als een a) en de slope als een b (bekend als β)
b0 = de Y score bij een X = 0; het intercept
b = het aantal eenheden die de score op Y veranderd bij een toename van één eenheid op X
Zie voor een voorbeeldje het figuur 9.1, blz. 345.
- De grootte van de Pearson r bepaald hoe goed de voorspelde Y’ scores overeenkomen met de werkelijke, geobserveerde
scores: hoe groter de r, hoe beter de regressielijn samenvalt met de geobserveerde scores.
- De b0 en de b zijn de coëfficiënten die de best mogelijke schatting van Y geven, verkregen via de ordinary least squares
(OLS) methode. Dit is dus een optimalisatiemethode Dat betekent dat de manier waarop deze coëfficiënten wordt berekend,
de opgetelde en gekwadrateerde verschillen tussen de werkelijke en de voorspelde Y’ minimaliseert, geïllustreerd als:
∑(Y – Y’)2
- De waarde van de b0 kan interessant zijn in situaties waarin de X-variabele de waarde 0 kan aannemen, maar als X deze
waarde niet kan aannemen, is het gewoon het punt waar de lijn door de Y-as loopt; het is een schatting van de waarde van X
die buiten de range van de werkelijke X-waarden valt. Het intercept is een aanpassingsfactor die rekening houdt met het
gemiddelde van X en het gemiddelde van Y bij het voorspellen van de scores op Y.
- De z-scores op Y kunnen voorspelt worden uit de z-scores op X d.m.v. de volgende standaardregressieformule:
z’y = r * zx of z’y = β * zx
→ Deze formule is dus een gestandaardiseerde vorm van de regressieformule! Deze gebruik je als de schaling van Y en X
vrij willekeurig en betekenisloos is. Het onderscheid tussen deze twee modellen (niet- en wel gestandaardiseerd) wordt nog
veel vaker aangehaald in het boek!
Een bivariate regressieanalyse bestaat meestal uit twee, en soms uit drie stappen:
1. Je schat de coëfficiënten die in de regressievergelijking worden gestopt.
2. Je gaat kijken (a.d.h.v. statistische significantie en effectgrootte) hoe goed die coëfficiënten je scores op Y voorspellen.
3. Op basis van de voorspelde Y-scores ga je beslissingen nemen over individuen: dit gebeurt vrijwel nooit in een
onderzoekssituatie, maar kan bijvoorbeeld gedaan worden om te voorspellen hoe iemand zal moeten scoren op een bepaalde
toets.
De correlatie r geeft informatie over de predictiefouten die je maakt met je regressievergelijking. Die predictiefouten zijn het
verschil tussen je voorspelde en geobserveerde Y-score per persoon, ook wel residu genoemd:
Yi – Y’i = predictiefout/residu voor persoon i
- Bij een r = 1 of -1, zijn deze predictiefouten allemaal 0: er is een perfecte relatie.
- In een regressie wordt de correlatie tussen de werkelijke en de voorspelde Y-scores een multipele R genoemd, of gewoon R,
omdat er soms ook méérdere X’en gebruikt kunnen worden. De R geeft informatie over de predictieve waarde van de héle set
van predictoren (X’en).
SPSS geeft altijd een R, ongeacht hoeveel X’en je gebruikt. Bij een bivariate regressie zal die R dan dus ook gewoon gelijk
zijn aan de r.
, 5
9.2 Een voorbeeld: salaris voorspellen op basis van werkervaring
X = het aantal jaren dat iemand al werkt bij het bedrijf
Y = het jaarlijkse salaris in dollars
Onderzoeksvraag: verandert salaris systematisch (lineair) als het aantal jaren dat iemand werkt bij het bedrijf toeneemt?
Zie tabel 9.1, blz. 347 voor de data die voor dit voorbeeld gebruikt wordt [N = 50].
9.3 Aannames en het bekijken van de data
1. Univariate verdelingen van X en Y: zijn ze nagenoeg normaal verdeeld? Zijn er outliers? Wat is de range van de X- en Y-
scores en is die breed genoeg?
Zie figuur 9.2, blz. 349: hier zie je univariate verdeling van onze kwantitatieve X (namelijk: hoeveel jaar werkervaring)
> De verdeling is positief scheef (scheef naar rechts): de berg ligt links. Er is dus niet echt sprake van een normaalverdeling..
dan moeten we de data misschien transformeren (via een natuurlijk logaritme)! Echter: in figuur 9.3, blz. 350, zie je de
verdeling van de getransformeerde scores (ln Years) en deze is óók niet normaal verdeeld.. We kiezen maar gewoon voor de
non-getransformeerde scores, ook al zijn ze niet zo normaal verdeeld.
Zie figuur 9.4, blz. 351: hier zie je univariate verdeling van onze kwantitatieve Y (namelijk: jaarlijkse salaris in dollars)
> Deze verdeling is gelukkig wel vrij normaal verdeeld
2. Een scatterplot maken: X-variabele op de horizontale as, Y-variabele op de verticale as; is de relatie ongeveer lineair? Is de
variantie van de Y-scores ongeveer gelijk bij elke X-score en normaal verdeeld (bivariate normaliteit)? Zijn er outliers?
Zie figuur 9.5, blz. 352: hier zie je de scatterplot van de relatie tussen X en Y
> Deze relatie lijkt in ieder geval positief en nagenoeg lineair te zijn. Er zijn geen outliers.
> Er is in dit voorbeeld niet genoeg data om te kijken of bij elke X-score de variantie van de Y-scores gelijk is, dus er wordt
aangenomen dat dit het geval is.
3. Aanname van homoscedasticiteit: de verdeling van de Y-scores per X-score moet ongeveer gelijk zijn.
> Dit is een aanname van zowel een correlatie als een bivariate regressie!
9.4 Issues bij een bivariaat regressieonderzoek
Issue: bij regressie moet je bepalen wélke variabele de voorspeller (X) is en wélke variabele je uitkomst (Y) is en hangen je
coëfficiënten af van deze beslissing: bij een correlatie beslis je dit niet en is dus een symmetrische maat (de relatie tussen X
en Y is hetzelfde als de relatie tussen Y en X).
- In experimenteel onderzoek is het vrij vanzelfsprekend dat de gemanipuleerde variabele de onafhankelijke variabele dient te
zijn (en dus de X). In ander soort onderzoek kan deze beslissing soms vrij arbitrair genomen worden.. Maar, er zijn een aantal
vuistregels die je kan aanhouden:
1. Als A eerder dan B wordt gemeten, of als A kenmerken meet die al eerder aanwezig waren dan B, dan kies je A als
predictor van B.
2. Als A een oorzaak van B kan zijn, kies je A als predictor van B. Maar let op: als je in je bivariate regressie een sterke
predictor vindt, impliceert dit zéker geen causaliteit!
Issue: beperkte range van scores → dit reduceert de grootte van de correlatie en hieruit vloeit voort dat dit betekent dat je
grotere predictiefouten hebt.
9.5 Formules voor bivariate regressie
Hoe bereken je de slope b?
𝑠 ∑(𝑋−𝑋̅)(𝑌−𝑌̅)
𝑏 = 𝑟 𝑠𝑦 of 𝑏=
𝑥 ∑(𝑋−𝑋̅)2
Wat vertelt de linker formule ons?
> Hier zie je dus dat de b een geschaalde versie van de r is (namelijk: afhankelijk van de standaarddeviaties van X en Y).
> Als de r 0 is, betekent dit dat de b ook automatisch 0 zal zijn.
> De richting van b wordt bepaald door de richting van r.
> Als r toeneemt, neemt b ook toe.
> Als sy toeneemt, neemt b ook toe.
> Als sx toeneemt, neemt b af.
Wat vertelt de rechter formule ons?
Dat de b afhankelijk is van…
> De som van de gekwadrateerde X’en (variantie van X; onderste deel);
> En de producten tussen X en Y (covariantie/correlatie tussen X en Y; bovenste deel).
Hoe bereken je de intercept b0?
𝑏 = 𝑌̅ − 𝑏𝑋̅
> 𝑌̅ = gemiddelde van de Y-scores
> 𝑋̅ = gemiddelde van de X-scores
, 6
9.6 Statistische significantietoetsen
Nulhypothese kan op drie manieren worden genoteerd, maar betekenen allemaal hetzelfde:
H0 : ρ = 0 → ρ = correlatie in de populatie [is nul]
H0 : b = 0 → b = slope voor toename van Y bij een stap op de X [is nul] = een significantietest voor één X
H0 : R = 0 → R = correlatie tussen Y en Y’ [is nul] = een significantietest voor alle X’en
samen (bij multipele regressie,
meerdere predictoren)
Test voor H0 : b = 0
- Uit SPSS rolt een standaardfout voor b (SEb), die gebruikt wordt om de t-toetsingsgrootheid te berekenen die van belang is
voor je significantietoets:
∑(Y−Y)2 /(𝑁−2) 𝑏−0
𝑆𝐸𝑏 = √ en op basis van deze SE, bereken je t = (de nul in deze formule is je H0-waarde voor b).
∑(X−𝑋̅)2 𝑆𝐸𝑏
- De t-toetsingsgrootheid ga je evalueren bij een t-verdeling met vrijheidsgraden df = N – 2.
Test voor H0 : R = 0
- Hiervoor gebruiken we geen t-verdeling, maar een F-ratio. Bij een bivariate regressie (één X), bereken je de F als volgt:
𝑟2 𝑟 2 (𝑁 − 2)
𝐹= 2 =
(1 − 𝑟 )/(𝑁 − 2) 1 − 𝑟2
- De F-toetsingsgrootheid ga je evalueren bij een F-verdeling met vrijheidsgraden df = N – k – 1, waarin k = aantal
predictoren.
Zie figuur 9.6, blz. 355
> Hier zie je dat Yi – Y’i de verticale afstand is tussen een werkelijke score en een voorspelde score op de regressielijn (dus
het bovenste gedeelte van de meest linkse pijl). Deze predictiefouten wil je zo klein mogelijk!
Je kunt de errorvariantie berekenen door de residuen te kwadrateren en op te tellen, de standaardfout krijg je door de
wortel te nemen van deze variantie.
De standaardschattingsfout (syx) is een standaarddeviatie: het vertelt ons iets over de typische afstand tussen Y’ en Y en dus
over de grootte van de residuen/predictiefouten.
Deze standaardschattingsfout wordt door SPSS gerapporteerd als de SEest, die je graag klein wilt hebben. De berekening:
′ 2
∑(𝑌𝑖 −𝑌𝑖 )
𝑆𝐸𝑒𝑠𝑡 = √ 𝑁−2 of 𝑆𝐸𝑒𝑠𝑡 = √(1 − 𝑟 2 ) × 𝑠𝑦
De rechterformule…
> Toont ons dat de standaardschattingsfout een functie is van de variabiliteit op de Y-scores (sy) en de sterkte van de relatie
tussen X en Y (r2).
> Toont ook dat als r = 0, de standaardschattingsfout de waarde van sy aanneemt.
Als de r = 0 is, betekent dit dat de beste manier om de scores op Y te voorspellen, het gemiddelde van Y is (met een
standaarddeviatie = sy op elk punt).
> Toont dat als r = 1 of -1, de standaardschattingsfout de waarde van 0 zal aannemen (en dus dat de regressiefunctie de
perfecte schatting voor Y is; alle puntjes vallen precies op de predictielijn).
Als de SEest = 0 → geen predictiefouten
Als de SEest = sy → X heeft geen toegevoegde waarde op het voorspellen van Y
Zie figuur 9.7, blz. 356 (dit is een ideale situatie)
> Hier zie je dat de SEest correspondeert met de standaarddeviatie van de verdeling van de werkelijke Y-scores rondom de
regressielijn, bij elke waarde van X.
> Hier kun je dus die aanname van homoscedasticiteit mee checken: als die aanname niet wordt geschonden, is de SEest een
goede schatting van de grootte van de predictiefouten bij elke waarde van X.
> Het gemiddelde van alle werkelijke Y-scores per waarde van X, correspondeert met de Y’. De standaarddeviatie die de
afstand tussen de werkelijke Y-waarden en Y’ geeft, is de SEest.
> Er wordt aangenomen dat de grootte van de SEest uniform bij elke waarde van X is.
9.7 Betrouwbaarheidsintervallen rondom je regressiecoëfficiënten
- Hiervoor heb je de standaardfout van b nodig (SEb)
- Betrouwbaarheidsinterval: b ± tcrit * SEb
- Voor een 95%-B.I. gebruik je de t-waarde bij 2.5% (t0.025), bij een df = N – 2.
9.8 Factoren die b kunnen beïnvloeden
De b combineert informatie over de sterkte van de relatie tussen X en Y (namelijk via r) en de meeteenheid van de ruwe
scores van X en Y (namelijk via de standaarddeviaties).
Een alternatieve presentatie van de regressievergelijking:
𝑠𝑦
(𝑌 ′ − 𝑌̅) = 𝑟 (𝑋 − 𝑋̅)
𝑠𝑥
, 7
Stappen:
1. Trek het gemiddelde van X, van X af om te kijken hoe ver je score van het gemiddelde valt.
2. Deel deze afstand (X - 𝑋̅) door sx om hem te standaardiseren: zo krijg je zx.
3. Vermenigvuldig zx met r: zo krijg je de voorspelde z’y.
4. Vermenigvuldig z’y met sy: zo krijg je de afstand tussen Y en Y’ in een meeteenheid die gebruikt is voor Y (Y’ – Y).
5. Gebruik het gemiddelde van Y om te voorspelde score aan te passen (Y’ – 𝑌̅).
Hieruit volgt: Y’ = 𝑌̅ + b(X – 𝑋̅)
Dit kun je herschrijven als: Y’ = (𝑌̅ – b𝑋̅) + bX
Hieruit volgt: b0 = 𝑌̅ – b𝑋̅ dit is de constante, die je dus altijd moet gebruiken om de voorspelde score
aan te passen voor het gemiddelde van Y en X.
Hieruit volgt: Y’ = b0 + bX (die kennen we als de regressieformule!)
Factoren die de grootte van b kunnen beïnvloeden
- Als de X variabele een kleine variantie en de Y variabele een grote variantie heeft, zal de b groot zijn [hoe groter sy, hoe
groter b]
- Als de Y variabele een kleine variantie en de X variabele een grote variantie heeft, zal de b klein zijn [hoe groter sx, hoe
kleiner b]
- De r bepaalt de richting (positief/negatief) van de b
Vergelijking van predictoren of groepen
- b is afhankelijk van de meeteenheid van X en Y (i.t.t. r en β)
- Als er méérdere predictoren zijn (X1, X2, etc.) en je wilt deze vergelijken, dan kun je kijken naar de correlaties van elke X
met de Y om te zien welke X de sterkste associatie met Y heeft. Je kunt níét naar de b van elke X kijken als deze X’en
verschillende meeteenheden hebben!
Maar.. wees voorzichtig met vergelijken, want ook de correlatie kan beïnvloed worden door artefacten zoals bijvoorbeeld een
onbetrouwbare meting, verschillende vormen van de verdelingen en/of een beperkte range. Het kan lijken dat X1 een betere
voorspeller is dan X2, maar misschien ligt dit aan het feit dat X2 een beperkte range van scores had bijvoorbeeld. Deze
problemen moet je eruit filteren (onbetrouwbare metingen schrappen).
9.9 Effectgrootte/variantieverdeling
Effectgrootte in bivariate regressie = r of r2: de variantie in Y die verklaard kan worden door de X.
De variantie in Y (totale deviatie van een score Yi tot Y̅) heeft dus een verklaard deel, maar ook een onverklaard deel:
Kijk nog eens naar figuur 9.6, blz. 355
> Yi – ̅Y = Yi – Y’i + Y’i – ̅
Y
totale deviatie = deel van Y-score wat + deel van Y-score wat
voorspeld
niet gerelateerd is aan wordt door X (verklaard deel)
X (residu; onverklaard deel)
De totale deviatie toont ons of de score boven of onder het gemiddelde ligt.
> Dit onderscheid is hetzelfde als wat we gebruiken in een one-way ANOVA:
Yij – ̅
Y = Yij – Mi + Mi – ̅Y
totale deviatie = binnengroepsvariantie + tussengroepsvariantie (verklaard
deel;
(fouten door variabelen van buitenaf, door de groep waarin je zit)
onverklaard deel)
Yij = score voor persoon j in groep i, Mi = gemiddelde van alle Y-scores in groep i
In een ANOVA is je voorspelde score het gemiddelde van de groep waartoe je behoort, in een bivariate regressie is het de
lineaire functie van je X-score.
Je binnengroepsvariantie wil je klein (onverklaard deel; ANOVA), evenals je residu (onverklaard deel; bivariate regressie).
Het verschil tussen Y’i – ̅
Y is de verbetering in je voorspelling van Y die je krijgt als je de regressieformule gebruikt om te
voorspellen, en niet het gemiddelde gebruikt om die voorspelling te doen. Dit wil je groot hebben!
En net als in ANOVA (SStotal = SSwithin + SSbetween), kun je het wel- en niet verklaarde deel uitdrukken in een formule:
SStotal = SSresidual + SSregression ofwel: ∑(𝑌𝑖 − 𝑌̅ )2 = ∑(𝑌𝑖 − 𝑌𝑖′ )2 + ∑(𝑌𝑖′ − 𝑌̅)2
In ANOVA was de proportie verklaarde variantie de ratio tussen de SSbetween en de SStotal, ofwel de η2 (variantie verklaard
door groepsverschillen).
In regressie wordt die ratio R2 genoemd (variantie in Y die verklaard wordt door X), berekend door: SSregression / SStotal
> R2 neemt een lineaire relatie aan tussen X en Y (dat doet η2 niet!)
Om de significantietoets te kunnen doen, gebruiken we de F-ratio tussen de mean squares (MS). De nulhypothese die je toetst
in regressie is: H0 : R = 0.
, 8
- Vrijheidsgraden:
SSregression : df = k
SSresidual : df = N – k – 1
- Deze vrijheidsgraden heb je nodig om van SS naar MS te komen (en dus om de F-ratio te kunnen berekenen):
MSregression = SSregression / k
MSresidual = SSresidual / (N – k – 1)
- F-ratio:
F = MSregression / MSresidual
OF
𝑅2 /𝑘
F=
(1 − 𝑅2 )/(𝑁 − 𝑘 − 1)
Als deze F-waarde de kritieke waarde uit de tabel overschrijdt (gebruikmakend van allebei de soorten vrijheidsgraden [k, N –
k – 1]), mag je de nulhypothese verwerpen en concluderen dat je regressie statistisch significant is.
Voor bivariate regressie geldt dat zowel de H0 test voor R = 0, r = 0 en b = 0 allemaal dezelfde uitkomst geven. Echter, bij
multipele regressie zullen we zien dat je kunt toetsen of het gehele model (R = 0) goed past en of één individuele predictor
goed past (b = 0).
9.10 Statistische power
- Als de r2 in de populatie zwak is, heb je vrij veel proefpersonen nodig om een power van .80 of hoger te evenaren.
- Regel voor de N [in relatie tot je predictoren] is: N > 50 + 8k, of N < 104 + k (welke uitkomst hoger is neem je)
> Je N moet dus in ieder geval altijd 105 zijn (bij 1 predictor), maar des te meer als er meerdere predictoren zijn
> N moet ook toenemen als er sprake is van een scheve verdeling van de Y-scores, als de correlatie in de populatie zwak is of
als je een lage betrouwbaarheid hebt van één van je meetinstrumenten.
9.11 Ruwe score vs. standaardscore
1. β-coëfficiënt is gestandaardiseerd en heeft dus géén intercept nodig (want: het intercept corrigeert voor het gemiddelde van
X en Y, maar je β-coëfficiënt is in termen van een z-score en die hebben een gemiddelde van 0!).
2. Meestal zijn β-coëfficiënten kleiner dan 1, maar in multipele regressie kan die ook buiten die range vallen.
3. De coëfficiënt van de ruwe scores (b) kan élke waarde aannemen, maar wordt wel bepaald door de ratio van sy/sx.
Welke regressievergelijking moet je gebruiken: de ruwe variant, of de gestandaardiseerde variant?
- Bij meerdere predictoren kan het heel nuttig zijn om de β-coëfficiënten met elkaar te vergelijken, omdat dit ons iets vertelt
over hun relatieve nut.
- Als de meeteenheden van X en Y arbitrair en betekenisloos zijn, kies je voor de gestandaardiseerde variant.
- Als je meer geïnteresseerd bent in theoretisch testen, kies je de gestandaardiseerde variant.
- Als je meer geïnteresseerd bent in toegepast, klinisch testen, kies je de ruwe variant (b).
- Als de meeteenheden van X en Y betekenisvol zijn, kies je de ruwe variant.
Je kan het ook allebei rapporteren!
9.12 De invloed van X op de Y variabele verwijderen: kijken naar de residuen
Het onverklaarde deel van een score kan heel nuttig zijn! Bijvoorbeeld: je doet een test, met pen en papier, om te kijken of
iemand een goede bergbeklimmer is. Iemand zijn score op zo’n test wordt heel sterk bepaald door bijvoorbeeld zijn
leesvaardigheden, die verder niets te maken hebben met of hij/zij een goede bergbeklimmer is. Het lijkt hierom nuttig om de
invloed van leesvaardigheid (X) op de score op bergbeklimmen (Y) te kunnen verwijderen.
Dit doe je door een bivariate regressieanalyse te doen en door te kijken naar de residuen: dit is het deel wat níét wordt
verklaard door X, dus wat niet wordt verklaard door leesvaardigheid. Het residu zou dan in theorie dus het deel moeten zijn
wat wél gerelateerd is aan het kunnen bergbeklimmen of niet.
Dit proces heet controleren voor een X, waarmee je dus zijn invloed op de Y verwijdert (‘partialled out’).
9.13 Een voorbeeld, a.d.h.v. SPSS: salaris voorspellen op basis van werkervaring
Zie figuur 9.8 t/m 9.12, blz. 365 t/m 367 voor de menuopties die je dient aan te klikken om een bivariate regressieanalyse te
runnen in SPSS.
> Residuplot in SPSS: maakt gebruik van de standaardscores (ZPRED, ZRESID)
> In figuur 9.12 zie je dat ze de originele, ruwe scores hebben opgeslagen zodat deze nog wel beschikbaar zijn
Output: zie figuur 9.13, blz. 386
> Model summary: informatie over de algemene fit van het model → hoe goed kan de regressievergelijking (met de
predictor[en]) de scores op de uitkomstvariabele voorspellen?
R = .83 → correlatie tussen werkelijk salaris en voorspeld salaris (en omdat we maar 1 predictor hebben, is R gelijk aan
correlatie r)
R2 = .69 → proportie verklaarde variantie in salaris door jaren werkervaring
Adjusted R2 = .68 → stelt de R2 bij a.d.h.v. de N en de k en is dus een meer conservatieve schatting van R2