Verklarende statistiek
DEEL I: Schatters en toetsen
Hoofdstuk 1: Het schatten van populatieparameters
1.1 Inleiding: schatters versus schatting
o De populatieparameters µ, σ², en worden in de praktijk zelden berekend
Wel proberen te schatten
Schatting gebaseerd op aantal metingen of waarnemingen x1, x2, …, xn die je uitvoert
- M.a.w. de steekproefgegevens die je verzamelt
o De schatting voor de onbekende zal een functie zijn van de verzamelde steekproefwaarden
n
xi
x1, x2, …, xn, bijvoorbeeld het steekproefgemiddelde x = ∑
i=1 n
Elke onderzoeker krijgt ander steekproefgemiddelde of een andere schatting
- Reden: aantal uitkomsten in het kantoor in een bepaald tijdsinterval een
kansvariabele is (weergeven door hoofdletters X 1, X2, …, Xn)
o Feit dat elke onderzoeker andere schatting voor verkrijgt, kunnen we expliciteren door een
hoofdletter te gebruiken voor steekproefgemiddelde X
Steekproefgemiddelde wordt zo geïnterpreteerd als kansvariabele
- Men spreekt van een schatter (geen schatting)
o Besluit: een schatting is altijd een reëel getal terwijl een schatter een kansvariabele is
waarvan de waarde nog niet bekend is
o Onderzoeker wil schatting verkrijgen die gemiddeld gelijk is aan de onbekende parameter en
liefst garandeert dicht bij de onbekende parameter ligt
Statistici vertalen vereiste naar: ‘schatter moet onvertekend zijn’ en ‘schatter moet
een kleine variantie hebben’
1.2 Het schatten van een gemiddelde
o Eisen van een goede schatter kunnen best geïllustreerd worden aan de hand van 2
simulatiestudies:
1ste studie: normaal verdeelde populatie bestuderen
2de studie: populatie met exponentiële kansdichtheid bestuderen
1.2.1. Gemiddelde van een normaal verdeelde populatie
o Stel: normaal verdeelde populatie
µ = 3000
σ = 100
n = 1000 (studenten)
o Elk van de studenten verricht 5 metingen
Optie 1: µ schatten door steekproefgemiddelde te berekenen
- Zo verkrijg je 1000 steekproefgemiddeldes
Optie 2: µ schatten door mediaan te berekenen
- Voor normale verdelen: mediaan = µ = verwachte waarde
1
, o Steekproefgemiddelde en mediaan zijn zuivere of onvertekende schatters van het
gemiddelde van normaal verdeelde populatie (2 uitkomsten zijn ongeveer gelijk aan 3000)
o Spreidingsbreedte, interkwartielbreedte, standaarddeviatie en variantie zijn kleiner dan 1000
steekproefmedianen -> steekproefgemiddelde is betrouwbaardere schatter dan mediaan
Onderzoekers kiezen sneller voor steekproefgemiddelde
- = Efficiëntere of preciezere schatter
1.2.2. Gemiddelde van een exponentieel verdeelde populatie
o Stel een exponentieel verdeelde populatie
= 1/100
“Onbekende” populatiegemiddelde µ = 1/ = 100
o Elk van de studenten verricht 5 metingen
Optie 1: steekproefgemiddelde berekenen
Optie 2: medianen berekenen
- Gemiddeld verre van gelijk aan µ -> slechte schatter
Geen zuivere, maar vertekende schatter van populatiegemiddelde
1.3 Criteria voor schatters
1.3.1. Een onvertekende of zuivere schatter
o Ideale schatter die gegarandeerd aangeeft wat de precieze waarde van een onbekende
populatieparameter is, bestaat niet
Sommige schatters (zuiver of onvertekend) zijn gemiddeld gezien gelijk aan de
onbekende populatieparameters, terwijl andere systematisch een
populatieparameter onder- of overschatten
o Definitie: schatter voor een populatieparameter is zuiver of onvertekend indien E() =
o De vertekening van een schatter is het verschil V() = |E()-|
Zuivere schatter heeft een vertekening van 0
- Schatting is precies gelijk aan gezochte populatieparameters
Griekse letters omdat het gaat over populatieparameters
o In deze cursus aandacht geven aan 3 specifieke schatters:
Steekproefgemiddelde X, steekproefproportie P en steekproefvariantie S²
- Symbolen i.p.v. µ, en σ²
o Steekproefgemiddelde is een overtekende of zuivere schatter van populatiegemiddelde
n
Geldt voor alle mogelijke lineaire functies Y = ∑ ai X i van steekproefwaarnemingen
i=1
n
waarbij ∑ ai= 1
i=1
n
1 1 1 1 1
Als ai = 1/n dan X = ∑ X i= (X1, X2, …,Xn) = X1 + X2 +…+ Xn
n i=1 n n n n
o Kan aangetoond worden dat steekproefgemiddelde van alle mogelijke lineaire functies van
X1, X2,…,Xn de kleinste variantie heeft
M.a.w. steekproefgemiddelde zal onderzoeker schatting opleveren die dichter bij het
populatiegemiddelde ligt dan elke andere lineaire functie Y van X 1, X2,…, Xn
n
1
o Steekproefvariantie S² = ∑ (X −X ) ²
n−1 i=1 i
Onvertekende schatter van een populatievariantie σ²
Stelling geeft aan waarom er gedeeld door n-1 en niet door n gedaan wordt
2
, o !! Steekproefstandaarddeviatie S is vertekende schatter van populatiestandaarddeviatie σ
o Steekproefproportie P is een speciaal geval van steekproefgemiddelde
Verwachte waarde is gelijk aan populatieproportie
P is een onvertekende schatter
1.3.2. Precisie of efficiëntie van een schatter
o Schatter moet zo betrouwbaar mogelijk zijn en moeten zo dicht mogelijk bij onbekende
populatieparameter liggen
= Schatter moet kleine variantie of standaarddeviatie hebben
= Efficiënte of precieze schatter
o Als 1 en 2 twee onvertekende of zuivere schatters zijn voor eenzelfde onbekende
populatieparameter , dan wordt de relatieve efficiëntie van 2 ten opzichte van 1 berekend
als var(1)/var(2)
o Keuze tussen schatter die onvertekend is maar grote variantie bezit of schatter die vertekend
is met kleine variantie is moeilijk
Keuze voor schatter die kleinste gemiddelde gekwadrateerde afwijking GAA() bezit
o Definitie: de gemiddelde gekwadrateerde afwijking van een schatter is de som van zijn
variantie en het kwadraat van de vertekening: GAA() = var() + [V()]²
o Wenselijk dat nauwkeurigheid of precisie van de schatter toeneemt als het aantal
waarnemingen stijgt -> meer waarnemingen = meer informatie = betere schatting
1.4 Methoden voor het berekenen van schatters
o 3 methoden die vallen buiten bestek van de cursus:
Methode van de momenten
Methode van de kleinste kwadraten
Methode van de grootste aannemelijkheid
1.5 Het steekproefgemiddelde
1.5.1. Verwachte waarde en variantie
o Als steekproefgemiddelde als schatter beschouwd wordt en dus als een kansvariabele
aangezien wordt, dan kunnen de verwachte waarde, variantie en kansdichtheid bepaald w
n
1
o Steekproefgemiddelde wordt genoteerd als X = ∑X
n i=1 i
Beschouwen als kansvariabele/schatter zolang er geen data is dus zolang X 1, X2,…, Xn
niet bekend zijn
Als de gegevens bekend zijn gebruiken we kleine letters x 1, x2,…, xn
o Voor steekproefgemiddelde dat we berekenen o.b.v. waargenomen waarden x 1, x2,…, xn
n
1
gebruiken we ook een kleine letter: x = ∑ x i
n i=1
o Stelling: voor een lukrake steekproef uit een populatie met verwachte waarde µ geldt dat
E(X) = µ
n n
1 1 1 nµ
o Bewijs: E(X) = E( ∑ X i) = ∑ E (X i ) = (µ + µ + µ +…+ µ) = =µ
n i=1 n i=1 n n
o Stelling geeft aan dat voordat steekproefgegevens verzameld worden, de verwachte waarde
van steekproefgemiddelde gelijk is aan populatiegemiddelde
M.a.w. stelling toont aan dat steekproefgemiddelde de meest onvertekende/zuivere
schatter is van het populatiegemiddelde
3
, o Standaarddeviatie en variantie van X bestuderen om een idee van de grootte van mogelijke
afwijkingen te krijgen
o Stelling: voor een lukrake steekproef van n waarnemingen uit een populatie met variantie σ²
2 σ² σ
geldt dat σ X = var(X) = en σX =
n √n
4