VERKLARENDE STATISTIEK
TABLE OF CONTENTS
hoofdstuk 1: het schatten van populatieparameters.................................................................................................................... 3
1.1: Inleiding: schatter versus schatting, 1.2: het schatten van een gemiddelde, 1.3: Criteria voor schatters, 1.4: Methoden
voor berekenen van schatters ................................................................................................................................................. 3
1.5: steekproefgemiddelde 𝑋 .................................................................................................................................................. 3
1.6: Steekproefproportie 𝑃 ...................................................................................................................................................... 4
1.7: Steekproefvariantie S² ...................................................................................................................................................... 5
1.8 de steekproefstandaarddeviatie S...................................................................................................................................... 6
hoofdstuk 2: intervalschatters ..................................................................................................................................................... 7
2.1: punt- en intervalschatters................................................................................................................................................. 7
2.2: Betrouwbaarheidsinterval voor een populatiegemiddelde met bekende variantie ............................................................ 7
2.3: Betrouwbaarheidsinterval voor een populatiegemiddelde met onbekende variantie......................................................... 7
2.4: Betrouwbaarheidsinterval voor een populatieproportie.................................................................................................... 8
2.5: Betrouwbaarheidsintervan voor een populatievariantie.................................................................................................... 9
2.6: Nog meer betrouwbaarheidsintervallen in jmp ................................................................................................................. 9
2.7: Het bepalen van de steekproefgrootte.............................................................................................................................. 9
hoofdstuk 3: het toetsen van hypothesen ................................................................................................................................. 10
3.1: toetsen van hypothesen omtrent een populatiegemiddeld ............................................................................................. 10
3.2: kans op type II-fout en onderscheidingsvermogen .......................................................................................................... 12
3.3: Het bepalen van de steekproefgrootte............................................................................................................................ 12
hoofdstuk 4: hyPothesetoetsen voor een populatiegemiddelde, -proportie en -variantie........................................................... 13
4.1: hypothesetoets voor een populatiegemiddelde .............................................................................................................. 13
4.2: hypothesetoets voor een populatieproportie.................................................................................................................. 14
4.3: Hypothesetoets voor een populatievariantie .................................................................................................................. 15
hoofdstuk 5: twee hypothesetoetsen voor de mediaan van een populatie ................................................................................. 17
5.1: tekentoets ...................................................................................................................................................................... 17
5.2: rangtekentoets van wilcoxon .......................................................................................................................................... 19
hoofdstuk 6: hypothesetoetsen voor de verdeling van een populatie ........................................................................................ 22
6.1: het toetsen van kansverdelingen .................................................................................................................................... 22
6.2: het toetsen van kansdichtheden ..................................................................................................................................... 23
6.3: discussie ......................................................................................................................................................................... 25
hoofdstuk 7: onafhankelijke steekproeven versus gepaarde waarnemingen .............................................................................. 26
hoofdstuk 8: hypothesetoetsen voor 2 populatiegemiddeldes, -proporties en -varianties bij onafhankelijke steekproeven ........ 27
8.1: toetsen voor twee populatiegemiddeldes bij onafhankelijke steekproeven ..................................................................... 27
8.2: hypothesetoets voor twee populatieproporties .............................................................................................................. 33
8.3: hypothesetoets voor twee populatievarianties ............................................................................................................... 35
hoofdstuk 9: een niet-parametrische hypothesetoets voor de mediaan van twee populaties bij onafhankelijke steekproeven ... 38
9.1: getoetste hypothesen bij de rangsomtoets ..................................................................................................................... 38
, 9.2: exacte p-waarden ........................................................................................................................................................... 39
9.3: exacte p-waarden bij ex aequo’s ..................................................................................................................................... 39
9.4: benaderde p-waarden .................................................................................................................................................... 39
hoofdstuk 10: hypothesetoets voor twee populatiegemiddeldes bij gepaarde waarnemingen ................................................... 41
10.1: getoetste hypothesen ................................................................................................................................................... 41
10.2: werkwijze ..................................................................................................................................................................... 41
10.6: betrouwbaarheidsinterval voor een verschil in populatiegemiddeldes........................................................................... 42
Hoofdstuk 11: twee niet-parametrische hypothesetoetsen bij gepaarde waarnemingen............................................................ 43
11.1: tekentoets .................................................................................................................................................................... 43
11.2: de rangtekentoets van Wilcoxon................................................................................................................................... 45
11.3: tegenstrijdige resultaten ............................................................................................................................................... 45
hoofdstuk 12: hypothesetoets voor meer dan twee populatiegemiddeldes: enkelvoudige variantieanalyse ............................... 46
12.1: enkelvoudige variantieanalyse ...................................................................................................................................... 46
12.2: de toets ........................................................................................................................................................................ 47
12.4: paarsgewijze vergelijkingen .......................................................................................................................................... 50
hoofdstuk 13: niet-parametrische alternatieven voor variantieanalyse ...................................................................................... 52
13.1: kruskal-wallis-toets ....................................................................................................................................................... 52
13.2: van der waerden-toets ................................................................................................................................................. 53
13.3: mediaantoets ............................................................................................................................................................... 53
hoofdstuk 14: hypothesetoetsen voor meer dan twee populatievarianties ................................................................................ 54
hoofdstuk 15: proefopzet en datacollectie ................................................................................................................................ 56
15.1: gelijke kosten voor elke waarneming ............................................................................................................................ 56
15.2: ongelijke kosten voor de waarnemingen ....................................................................................................................... 56
,DEEL 1: SCHATTERS EN TOETSEN
HOOFDSTUK 1: HET SCHATTEN VAN POPULATIEPARAMETERS
1.1: INLEIDING: SCHATTER VERSUS SCHATTING , 1.2: HET SCHATTEN VAN EEN GEMIDDELDE, 1.3: CRITERIA
VOOR SCHATTERS, 1.4: METHODEN VOOR BEREKENEN VAN SCHATTERS
3 populatieparameters (altijd voorgesteld door Griekse letters)
• Populatiegemiddelde μ
𝑛 𝑥
𝑖
𝑥̅ = ∑
𝑖=1 𝑛
• Populatievariantie σ² (=maat van spreiding van verschillende waarden)
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )²
𝑠2 =
𝑛−1
• Populatieproportie π (=fractie van een bevolking die iets doet → getal tussen 0-1)
o Bv proportie linkshandigen, stemmers voor bepaalde partij
𝑥
𝑝̂ = ∑𝑛𝑖=1 𝑖 , waarbij 𝑥𝑖 =1 indien succes en 𝑥𝑖 =0 indien faling
𝑛
Hoe gaan we deze parameters benaderen? → alle Belgen bellen is duur en tijdrovend!! → we gaan benaderen op basis van
beperkt aantal waarnemingen (=steekproef); perfecte wereld niet haalbaar
Schatting/schatter?
Schatting =benadering van een dataset die vastligt (waarnemingen reeds verricht),aangeduid met een kleine letter (formules
hierboven zijn dus voorbeelden van schattingen, aangezien er gebruik wordt gemaakt van kleine letters)
Steekproef is afhankelijk van middel, plaats en tijd → verzamelen van steekproef is pure toevalligheid (kansexperiment) →
Schatter = wanneer de parameter wordt geïnterpreteerd als een kansvariabele (je weet die dus op voorhand nog niet) →
hoofdletter gebruiken zolang je nog geen waarde voor de variabele hebt
DUS: Schatting: we hebben de gegevens; schatter: planning, maar we zijn wel van plan om het uit te voeren
Zuivere/onvertekende schatter: gemiddeld genomen alle waarnemingen bijna perfect, individueel vaak ver van de echt waarheid
In symbolen: 𝜃̂ schatter van populatieparameter θ en E(𝜃̂) = θ, dan is 𝜃̂ een zuivere schatter
𝐸̅ is een efficiëntere schatter dan Me, want het steekproefgemiddelde biedt preciezere informatie over de centrale ligging dan
de steekproefmediaan
Vertekende efficiënte schatter <-> onvertekende inefficiënte schatter
GGA (Gemiddelde gekwadrateerde afwijking) = var(𝜃̂) + [𝐸(𝜃̂) − 𝜃]² → kies schatter die GGA minimaliseert
1.5: STEEKPROEFGEMIDDELDE 𝑋̅
𝑛 𝑥𝑖
𝑋̅ = ∑
𝑖=1 𝑛
𝑥𝑖 waarnemingen uit dezelfde populatie (dus zelfde μ en σ²), zijn onafhankelijk van elkaar
̅ ) = μ; 𝑿
E(𝑿 ̅ = onvertekende schatter van μ
Bewijs
𝑋
E(𝑋̅) = 𝐸(∑𝑛𝑖=1 𝑛𝑖 )
1
= ∑𝑛𝑖=1 𝐸(𝑋𝑖 )
𝑛
1
= 𝑛 (𝜇 + 𝜇 + ⋯ + 𝜇)
𝑛𝜇
= =𝜇
𝑛
, ̅ ) = σ²/n; 𝑿
Var(𝑿 ̅ = meest precieze lineaire onvertekende schatter
factor n keer kleiner dan de populatie die we beschrijven → hoe meer waarnemingen hoe meer n hoe
kleiner de variantie → meer data=beter
Bewijs
𝑛 𝑋𝑖
𝑣𝑎𝑟(𝑋̅) = 𝑣𝑎𝑟(∑ )
𝑖=1 𝑛
1
= ∑𝑛𝑖=1 𝑣𝑎𝑟(𝑋𝑖 )
𝑛²
1
= 𝑛2 (𝜎 2 + 𝜎 2 + ⋯ + 𝜎 2 )
𝑛𝜎² 𝜎²
= 𝑛²
= 𝑛
̅ : 2 GEVALLEN
KANSVERDELING 𝑿
1. Normaal verdeelde populatie (=ideale situatie)
𝜎 2
𝑋̅ ~𝑁(𝜇, ) (ongeacht #waarnemingen)
𝑛
2. Niet-normaal verdeelde populatie (=vaak voorkomend)
➔ Niet meteen duidelijk welke kansdichtheid
a. Kleine steekproeven: geen algemeen antwoord
b. Grote steekproeven (meestal n >= 30)
BEN 𝜎2
Centrale limietstelling ➔ 𝑋̅ ~𝑁(𝜇, ) BEN van benaderd
𝑛
i. Versie 1: 𝑋1 , 𝑋2 , … , 𝑋𝑛 met verwachte waarde 𝜇1 , 𝜇2 , … , 𝜇𝑛 en varianties 𝜎²1 , 𝜎²2 , … , 𝜎²𝑛
→ 𝑌 = 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 met 𝜇𝑌 = 𝜇1 + 𝜇2 + ⋯ + 𝜇𝑛 en 𝜎²𝑌 = 𝜎²1 + 𝜎²2 + ⋯ + 𝜎²𝑛
ii. Versie 2: 𝑋1 , 𝑋2 , … , 𝑋𝑛 met verwachte waarde 𝜇 en variantie 𝜎²
→ 𝑌 = 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 met 𝜇𝑌 = 𝑛𝜇 en 𝜎²𝑌 = 𝑛𝜎²
iii. Versie 3: 𝑋1 , 𝑋2 , … , 𝑋𝑛 met verwachte waarde 𝜇 en variantie 𝜎² (dezelfde 𝜇 en 𝜎²)
𝑌 𝑋1 + 𝑋2 +⋯+𝑋𝑛 𝜎2
→ 𝑋̅ = = m et 𝜇𝑋̅ = 𝜇 en 𝜎 2𝑋̅ =
𝑛 𝑛 𝑛
1.6: STEEKPROEFPROPORTIE 𝑃̂
𝑃̂ = # successen in steekproef/n
𝑋𝑖
= ∑𝑛𝑖=1 𝑛
, waarbij 𝑥𝑖 =1 indien succes en 𝑥𝑖 =0 indien faling
→ Bernoulli verdeeld met parameter π (succeskans (tussen 0-1))
→ lineaire combinatie met onafhankelijke factoren
→ dus speciaal geval van steekproegemiddelde
̂) = π
E(𝑷
𝝅(𝟏−𝝅)
̂) =
Var(𝑷 (factor n keer kleiner dan var van 1 enkele waarneming) → meer waarnemingen = beter
𝒏
̂ : 2 GEVALLEN
KANSVERDELING 𝑷
1. n groot (dus veel waarnemingen): centrale limietstelling bij grote n
𝜋(1 − 𝜋)
𝑋̅ ~𝑁(𝜋,
BEN
)
𝑛
𝑛𝜋 > 5
𝑛 𝑖𝑠 𝑔𝑟𝑜𝑜𝑡 𝑖𝑛𝑑𝑖𝑒𝑛 {
𝑛(1 − 𝜋) > 5
2. N klein: gebruik binomiale kansverdeling
,1.7: STEEKPROEFVARIANTIE S²
∑𝑛 ̅
𝑖=1(𝑋𝑖 −𝑋 )²
𝑠2 = 𝑛−1
E(S²) = σ² → S² is een zuivere schatter
Bewijs
1
𝐸(𝑆 2 ) = 𝐸 {𝑛−1 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)²}
1
= 𝐸{∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)²}
𝑛−1
1
= 𝐸{∑𝑛𝑖=1(𝑋𝑖 − 𝜇 + 𝜇 − 𝑋̅)²}
𝑛−1
1
= 𝑛−1
𝐸{∑𝑛𝑖=1[(𝑋𝑖 − 𝜇)2 + 2(𝑋𝑖 − 𝜇)(𝜇 − 𝑋̅) + (𝜇 − 𝑋̅)2 ]}
1
= 𝐸{∑𝑛𝑖=1(𝑋𝑖 − 𝜇)2 + 2(𝜇 − 𝑋̅) + ∑𝑛𝑖=1(𝑋𝑖 − 𝜇) + 𝑛(𝜇 − 𝑋̅)2 }
𝑛−1
1
= 𝑛−1
𝐸{∑𝑛𝑖=1(𝑋𝑖 − 𝜇)2 + 2(𝜇 − 𝑋̅)(𝑛𝑋̅ − 𝑛𝜇) + 𝑛(𝜇 − 𝑋̅)2 }
1
= 𝑛−1
𝐸{∑𝑛𝑖=1(𝑋𝑖 − 𝜇)2 − 2𝑛(𝜇 − 𝑋̅) + 𝑛(𝜇 − 𝑋̅)2 }
1
= 𝐸{∑𝑛𝑖=1(𝑋𝑖 − 𝜇)2 − 𝑛(𝜇 − 𝑋̅)}
𝑛−1
1
= [∑𝑛𝑖=1 𝐸{(𝑋𝑖 − 𝜇)2 } − 𝑛𝐸{(𝜇 − 𝑋̅)}]
𝑛−1
1 𝜎²
= (∑𝑛𝑖=1 𝜎² − 𝑛 𝑛 )
𝑛−1
1
= 𝑛−1
(𝑛𝜎 2 − 𝜎 2 ) = σ²
Χ²-VERDELING (<<CHI-KWADRAAT VERDELING>>)
• Kansdichtheid met 1 parameter k (= #vrijheidsgraden)
• μ=k
• σ² = 2k
• alleen positieve x-waarden → kan nooit negatief zijn
• recht scheve verdeling
• naarmate een grotere k wordt de kansverdeling symmetrischer en verder naar rechts
• kansverdeling:
• Γ = gammafunctie → speciaal geval van een gammaverdeling
• Relatie met standaardnormale verdeling
o 𝑋1 , 𝑋2 , … , 𝑋𝑘 ~𝑁(0,1)
o 𝑘𝑤𝑎𝑑𝑟𝑎𝑡𝑒𝑟𝑒𝑛: 𝑋²1 , 𝑋²2 , … , 𝑋²𝑛
o 𝑌 = ∑𝑘𝑖=1 𝑋𝑖2 = 𝑋²1 + 𝑋²2 + ⋯ + 𝑋²𝑘
o χ²-verdeeld met k vrijheidsgraden
o ➔ kwadraatsom van k onafhankelijke standaard normaal verdeelde kansvariabele
o Hoe groter k, hoe meer lijkend op een normale kansdichtheid
𝟐𝝈𝟒
Var(S²) = 𝒏−𝟏
Bewijs
(𝑛−1)𝑆² ²
𝜎²
~𝜒𝑛−1
(𝑛−1)𝑆²
⇒ 𝑣𝑎𝑟 { } = 2(𝑛 − 1)
𝜎²
(𝑛−1)²
⇒ 𝑣𝑎𝑟{𝑆²} = 2(𝑛 − 1)
𝜎4
2(𝑛−1)𝜎 4 2𝜎 4
⇒ 𝑣𝑎𝑟{𝑆²} = (𝑛−1)²
= 𝑛−1
, Kansverdeling S²
Bewijs
∑𝑛 ̅
𝑖=1(𝑋𝑖 −𝑋 )²
𝑠2 = 𝑛−1
⇒ (𝑛 − 1)𝑆 2 = ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)²
(𝑛−1)𝑆 2 (𝑋𝑖 −𝑋̅ )²
⇒ = ∑𝑛𝑖=1
𝜎² 𝜎²
(𝑛−1)𝑆 2 (𝑋𝑖 −𝜇)²
⇒ 𝜎²
≈ ∑𝑛𝑖=1 𝜎²
steekproefgemiddelde ≈ populatiegemiddelde
=som van de gekwadrateerde standaard normaal verdeelde kansvariabelen
(𝑛−1)𝑆 2
𝜎²
is dus een χ-verdeelde kansvariabele met n-1 vrijheidsgraden
1.8 DE STEEKPROEFSTANDAARDDEVIATIE S
∑𝑛 ̅
𝑖=1(𝑋𝑖 −𝑋 )²
𝑆= √ 𝑛−1
𝐸(𝑆) ≠ 𝜎; 𝐸(𝑆) < 𝜎 → S is dus geen zuivere schatter van σ → S levert dus een onderschatting op. Hoe kleiner n,
hoe groter de onderschatting