Statistical Methods for the Social Sciences
Hoofdstuk 7 Comparison of two groups
7.3 Quantitative data: comparing two means
We vergelijken twee populatiegemiddelden µ1 en µ2 door gevolgtrekkingen te maken over hun
verschil. Voor grote willekeurige steekproeven, of voor kleine steekproeven uit normale
populatieverdelingen, heeft de steekproevenverdeling van (ÿ2 - ÿ1) een normale vorm. Zoals
gebruikelijk gebruikt inferentie voor gemiddelden met geschatte standaardfouten de t-verdeling voor
teststatistieken en voor de foutmarge in betrouwbaarheidsintervallen. Een betrouwbaarheidsinterval
neemt de puntschatting en voegt een foutenmarge toe en af die een t-score maal de standaardfout is
.
De formule voor de vrijheidsgraden voor de t-score, de Welch-Satterthwaite-benadering genoemd, is
complex. De df is afhankelijk van de steekproefstandaarddeviaties s1 en s2 evenals de
steekproefomvang n1 en n2. Als s1 = s2 en n1 = n2, wordt het vereenvoudigd tot df = (n1 + n2 - 2).
Dit is de som van de df-waarden voor afzonderlijke gevolgtrekkingen over elke groep; dat wil zeggen,
df = (n1 -1) + (n2 - 1) = n1 + n2 - 2. In het algemeen valt df ergens tussen n1 + n2 - 2 en het minimum
van (n1 - 1) en (n2 - 1).
Een betrouwbaarheidsinterval voor µ2 - µ1 dat alleen negatieve waarden bevat, suggereert dat µ2 -
µ1 negatief is, wat betekent dat we kunnen afleiden dat µ2 kleiner is dan µ1. Wanneer het
betrouwbaarheidsinterval 0 bevat, is er onvoldoende bewijs om te concluderen welke van µ1 of µ2
groter is. Het is dan aannemelijk dat µ1 = µ2.
Om populatiegemiddelden µ1 en µ2 te vergelijken, kunnen we ook een significantietest van H0
uitvoeren: µ1 = µ2. Voor de parameter different of mean is deze hypothese H0: µ2 - µ1 = 0.
Alternatieve hypothesen kunnen tweezijdig of eenzijdig zijn.
Zoals gebruikelijk meet de teststatistiek het aantal standaardfouten tussen de schatting en de H0-
waarde, . Als we µ2 - µ1 als parameter
behandelen, testen we dat µ2 - µ1 = 0. De schatting is ÿ2 - ÿ1. De standaardfout is dezelfde als in een
betrouwbaarheidsinterval. De t-teststatistiek is , met
dezelfde df als bij het construeren van een betrouwbaarheidsinterval.
7.4 Comparing means with dependent samples
Afhankelijke steekproeven treden op wanneer elke waarneming in steekproef 1 overeenkomt met
een waarneming in steekproef 2. De gegevens worden vanwege deze overeenkomsten vaak
matched-pair data genoemd. Afhankelijke steekproeven komen vaak voor wanneer elke steekproef
dezelfde onderwerpen heeft. Voorbeelden zijn longitudinale observationele studies die de reactie
van een persoon op verschillende tijdstippen observeren en experimentele studies die herhaalde
maatregelen nemen bij proefpersonen. Een voorbeeld van dat laatste is een cross-over onderzoek,
waarbij een proefpersoon een bepaalde periode de ene behandeling krijgt en daarna de andere
behandeling.
Verschil van gemiddelden (= gemiddelde van verschil): voor gegevens over gematchte paren is het
verschil tussen de gemiddelden van de twee groepen gelijk aan het gemiddelde van de
verschilscores.
1
,We kunnen een analyse over µ2 - µ1 baseren op gevolgtrekkingen over µd, met behulp van de enkele
steekproef van verschilscores. Dit vereenvoudigt de analyse, omdat het een twee-
steekproefprobleem reduceert tot een één-steekproefprobleem. Laat n het aantal waarnemingen in
elk monster aangeven. Dit is gelijk aan het aantal verschilscores. Het betrouwbaarheidsinterval voor
µd is . Hier zijn ÿd en sd het steekproefgemiddelde en de standaarddeviatie van de
verschilscores, en is t de t-score voor het gekozen betrouwbaarheidsniveau, met df = n -1. Dit
betrouwbaarheidsinterval heeft dezelfde vorm als die voor een enkel gemiddelde. We passen de
formule toe op de enkele steekproef van n verschillen in plaats van op de oorspronkelijke twee
reeksen waarnemingen.
Voor het testen van H0: µ1 = µ2 drukken we de hypothese uit in termen van de verschilscores als H0:
µd = 0. De teststatistiek is . Dit vergelijkt het steekproefgemiddelde van
de verschillen met de nulhypothesewaarde van 0 door het aantal standaardfouten daartussen. De
standaardfout is dezelfde die wordt gebruikt voor een betrouwbaarheidsinterval. Omdat deze test de
verschilscores voor de paren waarnemingen gebruikt, wordt het een gepaarde-verschil t-toets
genoemd.
Het gebruik van afhankelijke steekproeven kan bepaalde voordelen hebben. Ten eerste worden
bronnen van mogelijke vertekening gecontroleerd. Het gebruik van dezelfde onderwerpen in elk
monster houdt bijvoorbeeld andere factoren vast die de analyse kunnen beïnvloeden. Ten tweede
kan de standaardfout van ÿ2 - ÿ1 kleiner zijn met afhankelijke steekproeven.
Hoofdstuk 9 Lineair regression and correlation
9.1 Linear Relationships
Lineaire functie: de formule y = a (alfa) + b (beta)x drukt waarnemingen op y uit als een lineaire
functie van waarneming op x. De formule heeft een lineaire grafiek met helling b (bèta) en y-
intercept a (alfa).
- ß: hoeveel de lijn toeneemt per punt van x
o B > 0: relatie is positief → y neemt toe als x toeneemt
o B < 0: relatie is negatief → y neemt af als x toeneemt
o B = 0: horizontale lijn en y is onafhankelijk van x
- a: punt waar lijn y-as snijdt.
In een grafiek geeft de horizontale as, de x-as, de mogelijke waarden van x weer. Op de verticale as,
de y-as, staan de mogelijke waarden van y. De assen snijden elkaar op het punt waar x = 0 en y = 0,
de oorsprong genoemd.
Bij x = 0 vereenvoudigt de vergelijking y = a (alfa) + b (beta)x tot y = a +bx = a + B(0) = a. Dus de
constante a in deze vergelijking is de waarde van y wanneer x = 0. Nu hebben punten op de y-as x =
0, dus de lijn heeft hoogte a op het snijpunt met de y-as. Hierdoor wordt a het y-intercept genoemd.
De helling B is gelijk aan de verandering in y voor een toename van x met één eenheid. Dat wil
zeggen, voor twee x-waarden die 1,0 verschillen, verschillen de y-waarden met B. Twee x-waarden
die 10 eenheden van elkaar verwijderd zijn, verschillen met 10B in hun y-waarden. In de context van
een regressieanalyse worden a en b regressiecoëfficiënten genoemd.
Een model is een eenvoudige benadering voor de relatie tussen variabelen in de populatie. De
lineaire functie biedt een eenvoudig model voor de relatie tussen twee kwantitatieve variabelen.
Voor een gegeven waarde van x voorspelt het model y = a +bx een waarde voor y. Hoe beter deze
voorspellingen zijn, hoe beter het model.
2
,9.2 Least squares prediction eduation
De eerste stap van modelfitting is het plotten van de gegevens, om te onthullen of een model met
een lineaire trend zinvol is. De gegevenswaarden (x,y) voor een bepaald onderwerp vormen een punt
ten opzichte van de x- en y-assen. Een grafiek van de n waarnemingen als n punten wordt een
spreidingsdiagram genoemd. De scatterplot biedt een visuele controle of een relatie ongeveer lineair
is. Wanneer de relatie sterk niet-lineair lijkt, is het niet verstandig om een lineair model te gebruiken.
Voor dergelijke gegevens is een niet-lineair model geschikter.
Wanneer de scatterplot suggereert dat het model y = a + bx geschikt kan zijn, gebruiken we de
gegevens om deze lijn te schatten. De notatie ŷ = a + bx (least squares line) vertegenwoordigt een
voorbeeldvergelijking die het lineaire model schat. In de voorbeeldvergelijking schat het y-intercept
(a) het y-intercept alfa van het model en de helling (b) schat de helling Beta. Deze vergelijking wordt
de voorspellingsvergelijking (prediction equation) genoemd, omdat deze een voorspelling ŷ biedt
voor de responsvariabele bij elke waarde van x.
De voorspellingsvergelijking is de beste rechte lijn, die het dichtst bij de punten in de
spreidingsgrafiek valt. De formules voor a en b in de voorspellingsvergelijking ŷ = a + bx zijn:
Als een waarneming zowel x- als y-waarden boven hun gemiddelde heeft, of zowel x- als y-waarden
onder hun gemiddelde, dan is (x - ^x)(y - ŷ) positief. De schatting van de helling b is meestal positief
wanneer de meeste waarnemingen zo zijn, dat wil zeggen wanneer punten met grote x-waarden ook
vaak grote y-waarden hebben en punten met kleine x-waarden meestal kleine y-waarden.
Regressie-uitbijter: wanneer deze vrij ver afwijkt van de trend die de rest van de gegevens volgen.
Een waarneming wordt invloedrijk genoemd als het verwijderen ervan resulteert in een grote
verandering in de voorspellingsvergelijking. Tenzij de steekproefomvang groot is, kan een
waarneming een sterke invloed hebben op de helling als de x-waarde laag of hoog is in vergelijking
met de rest van de gegevens en als het een regressie-uitbijter is.
Rest (residual): voor een waarneming wordt het verschil tussen een waargenomen waarde en de
voorspelde waarde van de responsvariabele, y - ŷ, het residu genoemd. Een positief residu resulteert
wanneer de waargenomen waarde y groter is dan de voorspelde waarde ŷ, dus y - ŷ > 0. Een negatief
residu resulteert wanneer de waargenomen waarde kleiner is dan de voorspelde waarde. Hoe kleiner
de absolute waarde van het residu, hoe beter de voorspelling, aangezien de voorspelde waarde
dichter bij de waargenomen waarde ligt. In een spreidingsdiagram is het residu voor een waarneming
de verticale afstand tussen het punt en de voorspellingslijn.
We vatten de grootte van de residuen samen door de som van hun gekwadrateerde waarden. Deze
hoeveelheid, aangeduid met SSE, is Met andere woorden, het residu wordt
berekend voor elke waarneming in de steekproef, elk residu wordt gekwadrateerd en vervolgens is
SSE de som van deze vierkanten. Het symbool SSE is een afkorting voor de som van gekwadrateerde
fouten. Deze terminologie verwijst naar het residu dat een maat is voor de voorspellingsfout van het
gebruik ŷ om y te voorspellen. Hoe beter de voorspellingsvergelijking, hoe kleiner de residuen zijn en
dus hoe kleiner de SSE. Elke bepaalde vergelijking heeft overeenkomstige residuen en een waarde
van SSE.
Naast het zo klein mogelijk maken van de fouten in deze samenvattende zin, is de kleinste-
kwadratenlijn (kenmerken):
- Heeft enkele positieve residuen en enkele negatieve residuen, maar de som (en het
gemiddelde) van de residuen is gelijk aan 0. Het vertelt ons dat de te lage voorspellingen
worden gecompenseerd door de te hoge voorspellingen.
- Gaat door het punt ("x,ÿ). Het vertelt ons dat de lijn door het midden van de gegevens gaat.
3
, 9.3 The linear regression model
Voor het lineaire model y = a + bx komt elke waarde van x overeen met een enkele waarde van y. Een
dergelijk model wordt deterministisch genoemd. Het is onrealistisch in sociaalwetenschappelijk
onderzoek, omdat we niet verwachten dat alle proefpersonen met dezelfde x-waarde dezelfde y-
waarde hebben. In plaats daarvan variëren de y-waarden. Een probabilistisch model voor de relatie
zorgt voor variabiliteit in y bij elke waarde van x.
Verwachte waarde van y: laat E(y) het gemiddelde van een voorwaardelijke verdeling van y
aangeven. Het symbool E staat voor de verwachte waarde. We gebruiken nu de vergelijking E(y) = a
(alfa) + b (beta)x om de relatie tussen x en het gemiddelde van de voorwaardelijke verdeling van y te
modelleren. Een vergelijking van de vorm E(y) = a (alfa) + b (beta)x die waarden van x relateert aan
het gemiddelde van de voorwaardelijke verdeling van y wordt een regressiefunctie genoemd, omdat
deze een rechte lijn gebruikt om het gemiddelde van y te relateren aan de waarden van x . Een
regressiefunctie is een wiskundige functie die beschrijft hoe het gemiddelde van de responsvariabele
verandert volgens de waarde van een verklarende variabele.
Het lineaire regressiemodel heeft een extra parameter σ die de standaarddeviatie van elke
voorwaardelijke verdeling beschrijft. Dat wil zeggen, σ meet de variabiliteit van de y-waarden voor
alle proefpersonen met dezelfde x-waarde. We noemen σ de voorwaardelijke standaarddeviatie.
Een model gaat ook uit van een bepaalde kansverdeling voor de voorwaardelijke verdeling van y. Dit
is nodig om conclusies te trekken over de parameters. Voor kwantitatieve variabelen is de meest
gebruikelijke aanname dat de voorwaardelijke verdeling van y normaal is bij elke vaste waarde van x,
met onbekende standaarddeviatie σ.
Het gewone lineaire regressiemodel gaat ervan uit dat de standaarddeviatie σ van de
voorwaardelijke verdeling van y identiek is bij de verschillende waarden van x. De schatting van σ
gebruikt , waarmee de steekproefvariabiliteit rond de kleinste-kwadratenlijn
wordt gemeten. De schatting is: . Als de aanname van constante variatie niet
geldig is, vat s de gemiddelde variabiliteit rond de lijn samen.
De term (n-2) in de noemer van s is het aantal vrijheidsgraden (df) voor de schatting. Als een
regressievergelijking p onbekende parameters heeft, dan is df = n - p. De vergelijking E(y) = a (alpha)
+ b (beta)x heeft twee parameters (a en b), dus df = n -2.
Een puntschatting van de populatiestandaarddeviatie van een variabele y is . Dit is de
standaarddeviatie van de marginale verdeling van y, omdat alleen de y-waarden worden gebruikt.
Het negeert waarden van x. Om te benadrukken dat deze standaarddeviatie alleen afhangt van de
waarden van y, geeft de rest van de tekst deze aan met sy in een steekproef en σy in een populatie.
Het verschilt van de standaarddeviatie van de voorwaardelijke verdeling van y, voor een vaste
waarde van x. Om de voorwaardelijke vorm weer te geven, wordt die standaarddeviatie soms
aangeduid met Sy|x voor de steekproefschatting en σy|x voor de populatie. De kwadratensom in de
teller van sy wordt de kwadratentotaal genoemd. Doorgaans treedt er minder spreiding in y-waarden
op bij een vaste waarde van x dan opgeteld over al dergelijke waarden. We zullen zien dat hoe
sterker de associatie tussen x en y is, hoe minder de conditionele variabiliteit relatief is ten opzichte
van de marginale variabiliteit.
9.4 Measuring linear associaton: the correlation
De helling b van de voorspellingsvergelijking vertelt ons de richting van de associatie. Het teken geeft
aan of de voorspellingslijn naar boven of naar beneden helt naarmate x toeneemt, dat wil zeggen of
de associatie positief of negatief is. De helling vertelt ons echter niet direct de kracht van de
associatie. De reden hiervoor is dat de numerieke waarde ervan intrinsiek verbonden is met de
4