Samenvatting
Multivariate
analyse
Variantie-‐analyse
en
lineaire
regressie-‐analyse
1
,Inhoudsopgave
1.
Variantie-‐analyse
Literatuur
en
College
.............................................................................................
3
2.
Lineaire
regressie
analyse:
Literatuur
en
college
.............................................................................
11
3.
Kirkwood
&
Sterne
Hoofdstuk
9
.......................................................................................................
24
4.
Kirkwood
&
Sterne
Hoofdstuk
10
.....................................................................................................
28
5.
Kirkwood
&
Sterne
Hoofdstuk
11
.....................................................................................................
33
2
,1.
Variantie-‐analyse
Literatuur
en
College
§13.1 Inleiding
Variantie-analyse is een statistische toetsingsprocedure die sterk is verweven met de
praktijk van experimenteel onderzoek. Het gaat hierbij om de toetsing van statistische
hypothesen die betrekking hebben op gemiddelden. Er kunnen conclusies getrokken worden
omtrent de houdbaarheid van deze hypothesen.
§13.2 De redenering achter de toetsingsprocedure
Er zijn enkele populatieverdelingen van de variabele Y. Deze verdelingen bezitten
onbekende gemiddelden. De statistische hypothese die getoetst moet worden is: Hebben
deze populatieverdelingen alle hetzelfde gemiddelde?
Eerst moet er uit elke populatie een aselecte steekproef getrokken worden. Uit de steekproef
kan het steekproefgemiddelde berekend worden waar een uitspraak gedaan moet worden
over de houdbaarheid van de statistische hypothese.
Aanpak variantie-analyse
Stap 1. Trek een steekproef uit elke (sub)populatie en bereken het gemiddelde voor
elke steekproef
Stap 2. Toets de gelijkheid in de populatie op basis van de steekproefgemiddelden
H0: µ1 = µ2 = … = µn
Aannames waaraan voldaan moet zijn om een variantie-analyse uit te voeren:
1. Populaties zijn normaal verdeeld
2. Populaties hebben gelijke variantie: σ12 = σ22 = … σa2 (=σ2)
3. Steekproeven hebben gelijk aantal waarnemingen
Er moet aangenomen worden dat de populatieverdelingen alle dezelfde vorm hebben, en
qua gemiddelde eventueel verschillen.
Gelijkheid van varianties in de afzonderlijke populaties kan worden berekend met de Toets
van Hartley.
- Hypothese opstellen
H0: σ12 = σ22 = … σa2
HA: σ12 ≠ σ22 ≠ … σa2
- Bepaal de toetsingsgrootheid
Hmax
Met S2max de grootste variantie in de steekproeven en S2min de kleinste variantie
Als H0 juist is, dan zal Hmax dichtbij 1 liggen
Als H0 niet juist is, is Hmax >>1
- Bepaal kritieke grens (zie tabel op BB) à Ha,m-1,α
- Beslissing + conclusie
3
,Als de toets van Hartley niet klopt en geen ANOVA tabel mag worden toegepast? Dan:
1. Computerprogramma kan hier sowieso mee omgaan.
2. Non-parametrische toetsen: bijvoorbeeld rangtekentoetsen, zoals beschreven in
hoofdstuk 20 K&S
3. Data transformaties: bijvoorbeeld √Y of log(Y)
Stap 3. Construeer 2 schatters:
1. Eén schatter is altijd zuiver* = Binnenvariantie
2. De ander is slechts zuiver* wanneer de populatiegemiddelden gelijk zijn =
Tussenvariantie
*zuiver houdt in dat er geen systematische afwijkingen zijn
Wanneer de populatiegemiddelden toch verschillen dan geeft de tussenvariantie een
overschatting van de populatievariantie. Tussenvariantie / binnenvariantie geeft een F-
verdeling.
Wanneer de toetsingsgrootheid een waarde dicht bij één heeft, zijn de twee schatters beide
zuiver en mag geconcludeerd worden dat de populatiegemiddelden aan elkaar gelijk zijn.
Wanneer de toetsingsgrootheid een waarde heeft die sterk van één afwijkt is een van de
schatters waarschijnlijk niet zuiver, en kan gesteld worden dat de populatiegemiddelden niet
aan elkaar gelijk zijn.
Variantie-analyse = statistische vergelijking van twee variantieschatters, met het oogmerk
een uitspraak te doen over het identiek zijn van populatiegemiddelden.
§13.3 Twee experimentele opzetten
Eén factor-opzet
Doel: nagaan of het verschil op één factor invloed heeft op de scores op een relevante
afhankelijke variabele.
Proefpersonen worden aselect toegewezen aan één van de onderscheiden experimentele
condities die op één factor systematisch verschillen.
Factoriële opzet
Doel: nagaan of het verschil op meerdere factoren invloed heeft op de scores op een
relevante afhankelijke variabele.
§13.4 Het éénfactor-experiment
Onafhankelijke variabelen worden aangeduid met de naam factor, welke wordt weergegeven
met hoofdletters A, B, etc. De schaalpunten van factoren (aantal categorieën binnen een
factor) heten niveaus, welke worden weergegeven met een corresponderende kleine letter
a, b, etc. De grootte van een steekproef uit populatie j wordt aangeduid met mj. De score
van een willekeurig persoon i in een steekproef afkomstig uit populatie j wordt genoteerd als
Yij. Wanneer H0 waar is, zijn alle populatiegemiddelden µj aan elkaar gelijk en vallen de drie
populatieverdelingen samen.
4
, Wanneer H0 niet waar is, zijn er tenminste twee populatiegemiddelden niet gelijk aan elkaar
en vallen de verdelingen dus niet samen. Het algemeen gemiddelde wordt aangeduid met
een puntnotatie µ.
Let op!
µ en σ worden gebruikt voor de aanduiding van populatiegemiddelde en -
standaardafwijking.
Y en s worden gebruikt voor de aanduiding van steekproefgemiddelde en -
standaardafwijking.
Om tot een F-verdeling te komen, kan gebruik gemaakt worden van een ANOVA-tabel.
Bron van Df KS GKS F
variantie (a*m=n)
Tussen a-1 KS(tussen) GKS(tussen) GKS(tussen)
groepen GKS(binnen)
Binnen n-a KS(binnen) GKS(binnen)
groepen
Totaal n-1 KS(totaal)
Behandeling Aantal in Gemiddelde Variantie
Voorbeeld college steekproef
Stap 1. Formuleer hypothesen 1 10 2,92 (=Y1) 6,25 (=S12)
H0: µ1 = µ2 = µ3
2 10 6,58 (=Y2) 11,36 (=S22)
HA: µ1 ≠ µ2 ≠ µ3
3 (=a) 10 (=m) 8,20 (=Y3) 5,02 (=S32)
Stap 2. Bereken vrijheidsgraden
Tussen: a-1 = 3-1 = 2 Totaal 30 (=n=a*m) 5,90 (=Y.)
Binnen: n-a = 30 -3 = 27
Totaal: n-1 = 30-1 = 29
à Invullen in de ANOVA-tabel
KS = Kwadraatsom – eerst kwadrateren en dan sommeren. Dit is nooit een negatief getal.
KS (totaal) = KS (tussen) + KS (binnen).
Stap 3. Bereken KS(tussen)
Formule KS (tussen) =
KS (tussen) behandeling 1 = (2,92 – 5,90)2 * 10
KS (tussen) behandeling 2 = (6,58 – 5,90)2 * 10
KS (tussen) behandeling 3 = (8,20 – 5,90)2 * 10
Totaal = 146,327
Stap 4. Bereken GKS(tussen)
GKS = Gemiddelde kwadraatsom = KS(tussen) of (binnen) / df
GKS (tussen) = KS(tussen)/(a-1) = 146,327 / 2 = 73,163
5