Statistiek HIR
Academiejaar 2022-2023
Inhoudsopgave
6 Verdelingen van steekproefgrootheden 3
6.1 Verdeling van een steekproefgrootheid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
6.2 CLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Wiskundige Complementen: Schatters 4
Rekenregels voor verwachtingswaarde en variantie . . . . . . . . . . . . . . . . . . . . . . . . . 4
6.3 Criteria voor schatters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
6.4 Constructie van schatters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
6.5 Efficiëntie van schatters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Gammafunctie Γ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
7 Betrouwbaarheidsintervallen voor 1 steekproef 8
7.1 Betrouwbaarheidsintervallen voor verwachting met kleine n . . . . . . . . . . . . . . . . . 9
7.1.1 Student t-verdeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
7.2 Betrouwbaarheidsinterval voor een fractie (proportie p), grote n . . . . . . . . . . . . . . . 10
7.3 Bepalen van de steekproefomvang - Belangrijk . . . . . . . . . . . . . . . . . . . . . . . . . 10
8 Hypothesetoetsen voor 1 steekproef 11
8.1 Overschrijdingskans/ p-waarde . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
8.2 Hypothesetoetsen voor een fractie p en grote n . . . . . . . . . . . . . . . . . . . . . . . . 12
8.3 Powercurve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
8.4 Stappen voor het berekenen van β voor een toets over µ bij grote n. . . . . . . . . . . . . 15
9 Conclusies gebaseerd op 2 steekproeven 16
9.1 Vergelijken van 2 verwachtingen (µ), onafhankelijke steekproeven . . . . . . . . . . . . . . 16
9.2 Vergelijken van 2 verwachtingen, gepaarde waarnemingen . . . . . . . . . . . . . . . . . . 18
9.3 Vergelijken van 2 fracties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
9.4 Bepalen van steekproefomvang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
10 Proefopzetten en variantieanalyse 20
10.1 De elementen van een ontworpen experiment . . . . . . . . . . . . . . . . . . . . . . . . . 20
10.2 Het volledig gerandomiseerde ontwerp: 1 factor . . . . . . . . . . . . . . . . . . . . . . . . 21
10.2.1 Opstellen van de toetsingsgrootheid . . . . . . . . . . . . . . . . . . . . . . . . . . 21
10.3 Meervoudige vergelijkingen van verwachtingen . . . . . . . . . . . . . . . . . . . . . . . . . 22
10.4 Factoriële experimenten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
11 Enkelvoudige Lineaire Regressie 26
11.1 Kansmodellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
11.2 Schatten model: KKM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
11.3 Modelveronderstellingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
11.4 Bruikbaarheid vh model: conclusies over helling . . . . . . . . . . . . . . . . . . . . . . . . 27
11.5 De Correlatiecoëfficiënt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
11.6 De determinatiecoëfficiënt = R-Kwadraat . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
11.7 Schattingen en voorspellingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
,12 Meervoudige Lineaire Regressie 29
12.1 Meervoudige lineaire regressiemodellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
12.2 Schatten en toetsen van de parameters β (1 voor 1) . . . . . . . . . . . . . . . . . . . . . . 29
12.3 Toetsen van de bruikbaarheid van het model . . . . . . . . . . . . . . . . . . . . . . . . . 30
12.4 Schatten en voorspellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
12.5 Modellen met Interactie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
12.6 Kwadratische en andere hogere-ordemodellen . . . . . . . . . . . . . . . . . . . . . . . . . 31
12.7 Modellen met kwalitatieve variabelen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
12.8 Modellen met kwantitatieve en kwalitatieve variabelen . . . . . . . . . . . . . . . . . . . . 33
12.9 Vergelijken van geneste modellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
12.10Residuanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
13 Analyse van aantallen 37
13.1 Aantallen bij een multinomiaal experiment . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
13.2 Toetsen van kansen op categorieën: de tabel met 1 rij (χ2 ) . . . . . . . . . . . . . . . . . . 37
13.3 Toetsen van kansen op categorieën: de kruistabel (χ2 ) . . . . . . . . . . . . . . . . . . . . 38
Commando’s in R 39
0
2/44
,Hoofdstuk 6 Verdelingen van steekproefgrootheden
In de praktijk kennen we doorgaans de kansverdeling van een stochastische variabele niet, en dus ook
niet de verwachting en variantie
Parameter Een parameter is een numerieke beschrijvende maat van een gehele populatie (dus de echte
waarde die we willen vinden). Deze is bijna altijd onbekend
Vb. p, µ, σ
Steekproefgrootheid Beschrijvende maat die kan berekend worden uit de waarden van de steekproef.
Vb. x̄ en s (gemiddelde en sd van steekproef)
6.1 Verdeling van een steekproefgrootheid
∗ Uitkomst steekproefgrootheid hangt altijd af van toeval
∗ Is een stochastische variabele en heeft dus een kansverdeling
Stel dat steekproefgrootte niet groot is, kunnen meerdere steekproeven uitgevoerd worden, die dan worden
opgeteld.
6.2 CLS
Eigenschappen van kansverdeling van x̄
µx̄ = E(x̄) = µ
σ
σx̄ = √
n
X −µ
Z=
σ
2 belangrijke stellingen:
1. Steekproef uit normale verdeling
Als een aselecte steekproef van n waarnemingen uit een populatie met een normale verdeling wordt
genomen, zal de kansverdeling van x̄ ook normaal zijn.
2. Steekproef uit willekeurige verdeling: CLS
Als een aselecte steekproef van n waarnemingen uit een willekeurige populatie met verwachting µ
en sd σ wordt genomen, zal, als n groot genoeg is de kansverdeling van x̄ bij benadering normaal zijn
met bovenstaande verwachting en standaardafwijking. → Voor de meeste populaties volstaat n > 30
om de normale verdeling te benaderen
Voorbeeld
Figuur 1: We nemen een aselecte steekproef(n = 36) uit een populatie gegeven links met µ = 80 en σ = 6.
Wat is de kans dat x̄ groter is dan 82?
6.2.0
3/44
, √
∗ µx̄ = µ en σx̄ = σ/ n = 1
∗ P (x̄ > 82) = P ( x̄−µ
σx̄ >
x̄ 82−80
1 ) = P (z > 2) −→ Standaardiseren!
∗ 1-pnorm(82,80,1) of 1-pnorm(2)
Wiskundige Complementen: Schatters
Sowieso iets over schatters op examen
n
1X
X̄ = Xi
n i=1
n
1 X
σ̂ 2 = (Xi − X̄)2
n − 1 i=1
V ar(X) = E(X 2 ) − (EX)2
Rekenregels voor E(X) en V ar(X)
Figuur 2: Rekenregels voor verwachtingswaarden
Rekenregels voor Variantie:
∗ V ar(cX) = c2 · V ar(X)
∗ V ar(X ± Y ) = V ar(X) + V ar(Y ) ± 2 · Cov(X, Y )
→ Als X en Y onafhankelijk zijn is Cov = 0!
∗ V ar(aX + bY ) = a2 · V ar(X) + b2 · V ar(Y ) ± 2ab · Cov(X, Y )
∗ V ar(X + c) = V ar(X)
6.3 Criteria voor schatters
Zij θ een ongekende parameter van een kansverdeling; een schatter voor θ is dan
θ̂ = θ̂(X1 , . . . , Xn )
berekend op basis van een lukrake steekproef X1 . . . , Xn . Deze schatter is een kansvariabele/ stochast
maar de schatting θ̂(x1 , . . . , xn ) is een getal berekend met de uitkomsten van de stochasten X1 , . . . , Xn .
Zuivere schatters
Een schatter θ̂ is onvertekend a.s.a.
E(θ̂) = θ
Bias van een schatter: Bias(θ̂) = E(θ̂) − θ of E(θ̂ − θ)
6.3
4/44
,Figuur 3: Beide schatters zijn zuiver, maar schatter 1 is een veel betere, aangezien zijn spreiding veel
minder is. Daarom willen we voor schatters ook een zo klein mogelijke variantie.
MAAR pas op:
Deze variantie kunnen we bepalen als
V ar(θ̂) = E((θ̂ − E(θ̂))2 )
Voor een onvertekende schatter is dan de verwachte kwadratische afstand tussen de schatter en de para-
meter
MSE = V ar(θ̂) = E((θ̂ − θ)2 )
Door wat substitutie en spelen met de lineaire eigenschappen van verwachtingswaarden en variantie:
MSE(θ̂) = V ar(θ̂) + Bias(θ̂)2
BEWIJS:
Pn
∗ σ̂ 2 = 1
n−1 i=1 (Xi − X̄ 2 ) is een zuivere schatter van de populatievariantie σ 2 = V ar[X1 ]
∗ Bewijs voor stelling van MSE
→ Zie ppt dia 6 en boek voor bewijzen
Consistentie
Een consistente schatter is een schatter die beter wordt naarmate de steekproefgrootte n toeneemt.
Het is mogelijk dat een schatter niet consistent is voor kleine steekproefgroottes maar wel consistent
wordt voor grotere.
BEWIJS: θ̂ is consistent voor θ indien voor elke ε > 0
lim P (|θ̂ − θ| ≥ ε) = 0
n→∞
Stelling: De schatter is consistent indien
lim V ar(θ̂) = 0 en lim Bias(θ̂) = 0
n→∞ n→∞
—————————
Ongelijkheid van Markov zegt voor elke positieve X en elke x ≥ 0:
E(X)
P (X ≥ x) ≤
x
Deze ongelijkheid kunnen we toepassen voor X = (θ̂ − θ)2 en x = ε2 . Per definitie is E(X) = M SE(θ̂).
. . . (zie ppt dia 9 v uitwerking of boek)
Var en Bias gaan naar nul voor n → ∞, dan moet ook P (|θ̂ − θ| ≥ ε) naar nul streven. QED
6.4
5/44
,6.4 Constructie van schatters
Methoden der momenten
Zij θ = (θ1 , . . . , θk ) de ongekende parameters van de kansverdeling. De oplossing van het stelsel
Pi=1
Eθ (X) = n1 n Xi
.........
Pn
E (X k ) = 1
Xik
θ n i=1
Oplossing van dit stelsel zijn de gezochte schatters
Voorbeeld:
Gammaverdeling heeft 2 parameters die ongekend zijn: (moeilijke kansdichtheidsfunctie maakt nie uit)
α en β. Uit E(X) = αβ en V ar(X) = αβ 2 vinden we als stelsel:
( Pn
αβ = n1 i=1 Xi := M1
Pn
αβ 2 (α + 1) = n1 i=1 Xi2 := M2 Volgt uit formule voor VarX zie 6.2
M2 −M12 M12
Als schatters voor α en β dan β̂ = M1 en α̂ = M2 −M12
→ Mi wordt "i-de moment" genoemd
→ Schatter vinden voor verdeling met maar 1 parameter fkn easy gewoon E(X) omvormen naar
parameter (zie formularium)
Maximum Likelihood (ML) Methode
Figuur 4: We zoeken de waarde voor x waarvoor de kans op voorkomen het grootste is
n
Y
L(θ) ≡ L(θ, x1 , . . . , xn ) = fX (xi ; θ)
i=1
L(θ) is de Likelihood → We zoeken het maximum van deze functie. In 3 stappen:
1. Stel de Likelihood L(θ) op
2. Nemen we het logaritme van bovenstaande stelling vinden we dat
n
X
θ̂ = argmax log L(θ) = argmax log fX (xi ; θ)
i=1
6.4
6/44
, Omwille van de productoperator is het gemakkelijker om eerst de log te nemen, anders heeel veel
keer kettingregel ( log v product is som vd logs)
Pn d
3. Om het maximum te vinden moet dus i=1 dθ log fX (xi ; θ) = 0
PAS OP: de log in de ppt is de ln, ik schrijf hier ook log met als grondtal e zodat afleiden
d a ˙
gemakkelijk is, want dx log x = 1/xlna
6.5 Efficiëntie van schatters
Zoals eerder gezegd moet de Variantie van een schatter ook zo klein mogelijk zijn (minder spreiding op
voorspelling van parameter). De Fisher Informatie is puur een functie die voor kansdichtheden informatie
kan geven over de kwaliteit van parameterschattingen. Via Cramer-Rao:
Cramer-Rao
De Cramer-Rao ongelijkheid is een ongelijkheid die een ondergrens geeft voor de variantie van een
schatter. Zo kunnen schatters zoals in figuur 3 kunnen vergeleken met elkaar. Voor zuivere schatters is
deze ondergrens gelijk aan het omgekeerde van de Fisher Informatie
Onder vrij algemene voorwaarden geldt er voor een onvertekende schatter θ̂:
1
V ar(θ̂) ≥ := V armin
nI(θ)
Met I(θ) de Fisher Informatie van θ gedefinieerd als
2
d 2 d
I(θ) = E ( log fX (X; θ)) = −E log fX (X; θ)
dθ dθ2
De efficiëntie van een zuivere schatter is dan
V armin
Ef f (θ̂) =
V ar(θ̂)
→ Ef f ligt dan logischerwijs tussen 0 en 1, met 1 als de Var gelijk is aan de minimum Variantie; Varmin
Eigenschappen ML
Onder vrij algemene voorwaarden geldt:
1. ML-schatters zijn consistent
2. Schatter is asymptotisch normaal voor grote n θ̂ → N (θ, SE 2 (θ̂))
3. Voor grote n geldt:
1
SE 2 (θ̂) ≈
nI(θ)
→ ML-schatter heeft minimale variantie (Efficiëntie = 1 of 100%)
∗ Enkel 1 en 2 gelden voor Methoden der Momenten
Gammafunctie Γ
De Gammafunctie is gedefinieerd voor alle positieve reële getallen (]0, ∞[ → ]0, ∞[)
Z ∞
Γ(x) = ux−1 e−u du
0
Belangrijke eigenschappen:
6.5
7/44
, ∗ Γ(x + 1) = xΓ(x) ∀x ∈ R
∗ Γ(n) = (n − 1)!∀n ∈ N / {0}
√
∗ Γ( 12 ) = π
→ Gammafunctie is een uitbreiding van ’faculteit’ naar alle positieve reële getallen
∗ Veralgemening van exponentiële verdeling
∗ Hangt af van twee parameters α en β
∗ α = 1 geeft de exponentiële kansdichtheid met parameter 1/β
∗ β = 2 komt overeen met χ2 verdeling met aantal vrijheidsgraden = 2α
Berekening voor E(X) en Var(X) v Γverdeling op ppt dia 30 kwn of te kennen is.
Nog cho oefeningen hierop vanaf dia 30.
Hoofdstuk 7 Betrouwbaarheidsintervallen voor 1 steek-
proef
Zie Schatters 3
Schatter ↔ Schatting
Een schatter zegt hoe we uit een steekproef iets moeten berekenen om populatieparameter te schatten
bv. gemiddelde. Een schatting is de uitkomst hiervan.
Een betrouwbaarheidsinterval of intervalschatter is een formule die ons zegt hoe we uit de steek-
proef een interval kunnen berekenen dat de parameter met bepaalde hoge waarschijnlijkheid bevat.
Betrouwbaarheidsinterval voor µ
Men wil een schatting maken van een bepaalde parameter uit een populatie en gebruikt hiervoor het
steekproefgemiddelde x̄ als schatter voor µ. We bepalen de nauwkeurigheid van de schatter.
Volgens CLS is de verdeling van x̄ normaal verdeeld voor grote n met:
µx̄ = µ
√
σx̄ = σ/ n
x̄ − µ
z= √
σ/ n
We weten dat P (zα/2 ≤ z ≤ zα/2 ) = 1 − α
σ σ
⇔ P x̄ − zα/2 √ ≤ µ ≤ x̄ + zα/2 √ =1−α
n n
Zo kunnen we 100(1-α%) betrouwbaarheidsintervallen opstellen voor µ met betrouwbaarheidsniveau 1−α:
σ σ
x̄ − zα/2 √ ≤ µ ≤ x̄ + zα/2 √
n n
Indien σ onbekend is kan de standaardafwijking van de steekproef s gebruikt worden. (minder nauwkeu-
rig)
Betekenis procedure
7.0.0
8/44
, ∗ 1 interval zegt NIET dat er 95% kans is dat µ in het interval zit
(wel dat het interval µ bevat)˜Bram De Rock
→ Indien 100 aselecte steekproeven uit de populatie worden genomen zal µ 95 keer binnen het
opgestelde interval liggen
∗ Het betrouwbaarheidsniveau 1 − α is de kans dat een betrouwbaarheidsinterval de populatiepara-
meter bevat. → DUS als 1 − α ↑ dan wordt BI breder! (bij constante n)
∗ De steekproefgrootte moet n ≥ 30 vanuit CLS. Hoe groter n hoe beter s ook een schatter zal zijn
voor σ
∗ Exacte betrouwbaarheidsintervallen in R worden best handmatig ingegeven
∗ Voor kleine n (<30) gebruiken we t-verdeling (zie verder)
7.1 Betrouwbaarheidsintervallen voor verwachting met kleine n
1. We kunnen er niet meer van uitgaan dat de verdeling van x̄ benaderend normaal is want kleine n
Tenzij de populatie waaruit de steekproef komt normaal verdeeld is, dan is x̄ ook normaal verdeeld
2. σ is bijna altijd onbekend. En bij kleine n kan s een slechte benadering zijn.
7.1.1 Student t-verdeling
t-verdeling is grofweg een normaalverdeling met veel zwaardere staarten (grotere spreiding). Gebaseerd
op de standaardnormaal en de χ2 verdeling. Voor n → ∞ wordt de verdeling weer standaardnormaal.
Een toevalsveranderlijke W is χ2 verdeeld met n vrijheidsgraden als W dezelfde verdeling heeft als
Pn
i=1 Zi waarin Z1 , . . . , Zn een steekproef is uit de standaardnormale verdeling.
2
Een toevalsveranderlijke T heeft een t-verdeling met n vrijheidsgraden tn als T dezelfde verdeling heeft
als:
Z
p
W/n
met Z en W 2 onafhankelijke toevalsveranderlijken: Z ∼ N (0, 1) en W ∼ χ2n
→ Door de t-verdeling nemen we die extra onzekerheid op van de spreiding uit de steekproef. Hierdoor
wordt de verdeling breder.
Neem X1 , . . . , Xn een steekproef uit een N(µ,σ 2 )-verdeling dan is:
(n − 1)s2
∼ χ2n−1
σ2
X −µ
√ ∼ tn−1
s/ n
Laatste volgt gwn rechtstreeks uit √ Z . Analoog voor grote n verkrijgen we dan als BI:
W/n
s
x̄ ± tα/2 √
n
Met n − 1 vrijheidsgraden
We gebruiken dit dus voor een aselecte steekproef met kleine n uit een populatie die bij aanname
normaal verdeeld is.
Pas op: enkel de standaardnormale Z-waarde en de berekende t-waarde hebben n = n. De χ2
en t-verdeling hebben n − 1 vrijheidsgraden. Let dus op met invullen van n in formule.
7.1.1
9/44
, 7.2 Betrouwbaarheidsinterval voor een fractie (proportie p), grote
n
Bijvoorbeeld de kans op succes p in een binomiaal experiment schatten. → adhv steekproef-fractie p̂.
Wanneer een kenmerk in een populatie voorkomt met proportie p dan is de steekproefproportie p̂ van
een steekproef van omvang n bij benadering normaal verdeeld indien n voldoende groot is. → n wordt
voldoende groot beschouwd als het aantal mislukkingen én het aantal successen > 15.
E(p̂) = p → Zuivere schatter!
r
p·q
σp̂ =
n
en wordt een 100(1-α)% - betrouwbaarheidsinterval waarbinnen p̂ ligt gegeven door
r r
p·q p·q
p − zα/2 · ; p + zα/2 ·
n n
r
p·q
zα/2 is de foutenmarge
n
7.3 Bepalen van de steekproefomvang - Belangrijk
Bv. Hoe groot moet n zijn als we de spreiding gelijk willen aan een exacte waarde?
Noem B de begrenzing:
σ
B = zα/2 √
n
Hieruit gemakkelijk n halen:
2
zα/2 σ2
n=
B2
∗ Meestal is σ onbekend → dan vullen we schatting in uit bv. een eerdere steekproef
∗ Vinden we n < 30 dan kiezen we gewoon een steekproef van n = 30 elementen
Figuur 5: B is de halve breedte van een BI voor µ
Volledig analoog voor populatiefractie p met
r
pq
B = zα/2
n
np en nq moeten beiden minstens 15 zijn om een BI te kunnen construeren.
→ Door realistische waarden voor p en q in te geven vinden we ondergrenzen voor n (analoog aan onder-
grens 30 voor BI voor µ)
7.3
10/44