Hoofdstuk 1: Doel van statistiek
DOEL = antwoorden formuleren op onderzoeksvragen over een populatie, gebaseerd op bevindingen in een willekeurige steekproef uit
die populatie
Stappen in een statistische analyse:
1. Het opzetten van relevante experimenten: verzamelen van gegevens
2. Een exploratieve analyse van de gegevens: beschrijvende statistiek
3. Het nemen van beslissingen obv een wiskundig model: statistische inferentie
Verzamelen van gegevens: begrippen
▪ Variabelen: verschillende eigenschappen die gemeten worden
o Notatie = hoofdletter: X, Y, Z, …
▪ Uitkomstenverzameling: alle mogelijke resultaten
o S1 = { }
▪ Steekproefgrootte: onderzochte aantal
o Notatie: n
o Hoe groter, hoe meer informatie
▪ Resultaten: notatie
o Bij 1 toevalsvariabele X: x1, x2, … , xn
o Bij 2 toevalsvariabelen X en Y: (x1, y1), (x2, y2), … , (xn, yn)
o Bij p toevalsvariabelen X1, … , Xp: xij , i = {1,…,n} , j = {1, … , p}
▪ Gegevensmatrix: ondergebrachte gegevens
o Rijen: onderzoekseenheden
o Kolommen: (toevals)variabelen
Verzamelen van gegevens: classificatie van gegevens
Kwalitatieve (categorische) variabelen Kwantitatieve (metrische ) variabelen
NOMINAAL: de niveaus zijn ORDINAAL: elementen van de DISCRETE: beperkt aantal CONTINUE: een (bijna)
niet te interpreteren in termen uitkomstverzameling worden mogelijke uitkomsten. Aantal onbeperkt aantal mogelijke
van meer en minder of van geordend volgens een bepaald elementen uit van de uitkomst- uitkomsten. Wél mogelijk een
groter en kleiner, er is géén ordeningscriterium. Cijfers enverzameling is eindig derde mogelijke uitkomst te
ordening of wiskundige vergelijken maar geen (aftelbaar). Onmogelijk om vinden die tussen 2 ligt.
berekening wiskundige formules tussen 2 opeenvolgende - Tijd per week
- “Westen”, “Zuiden”, - Veel – weinig waarden van de blootgesteld aan iets
“Oosten”, “Noorden” - Klein – groot uitkomstenverzameling een
derde te denken.
- Aantal ongevallen
Overzicht
Opmerkingen:
▪ Omdat de nauwkeurigheid van een meting beperkt is tot de nauwkeurigheid van het meetinstrument, zullen
steekproefgegevens altijd discreet voorgesteld worden, ook al is de achterliggende variabele continu
▪ Wanneer een discrete toevalsvariabelen heel veel verschillende mogelijke uitkomsten heeft, wordt deze in de
praktijk vaak beschouwd als een continue toevalsvariabele
,Hoofdstuk 2: Beschrijvende statistiek
Absolute en relatieve frequentie
DOEL BESCHRIJVENDE STATISTIEK: de gegevens uit de steekproef op een duidelijke en verantwoorde manier voorstellen en
samenvatten
Frequentietabellen voor kwalitatieve variabelen Frequentietabel voor kwantitatieve variabelen
▪ Gegeven: x1, … , xn ▪ Uitkomstenverzameling: S = {m1, … , mk}
▪ Uitkomstenverzameling: S = {m1, … , mk} o Eindig: frequentietabel, staafdiagram, …
▪ Absolute frequentie nj : aantal uitkomsten xi die gelijk ▪ Uitkomstenverzameling: S = {m1, … , mk}
zijn aan mj o Oneindig: discretisatie of groepering van
▪ Relatieve frequentie / steekproefproportie: fj,n = nj/n gegevens
o ∑𝑗=1 𝑘 𝑓𝑗,𝑛 𝑛1 𝑛2
= + + ⋯+ = 1
𝑛𝑘 o Deel S op in k klassen: ∆ = klassenbreedte
𝑛 𝑛 𝑛 𝑛 o Nieuwe discrete uitkomstenverzameling
▪ Frequentietabel: samengevoegde frequenties: S = {m1 , … ,, mk} met mj als klassenmiddens
o Tabel:
▪ Grafische voorstelling: staafdiagram, taartdiagram, …
▪ Grafische voorstelling: histogram
o Toont hoe steekproefgegevens verdeeld zijn
o Benadert theoretische verdeling vd variabele
o Oppervlak = 1
▪ In R:
▪ In R:
▪ Histogram met frequentiedichtheden: de hoogte boven
een klasse is gelijk aan de frequentiedichtheid
o Relatieve frequentie van die klasse gedeeld
door de overeenkomstige klassenbreedte
𝑓𝑗,𝑛 𝑛𝑗
o ℎ𝑗 = ℎ(𝑚𝑗 ) = =
∆𝑗 ∆𝑗 𝑛
𝑛𝑗
o Totale opp = ∑𝑘𝑗=1 ∆𝑗 ℎ𝑗 = ∑𝑘𝑗=1 =1
𝑛
Cumulatieve frequenties en kwantielen
* Enkel kwantitatieve variabelen
Cumulatieve verdelingsfunctie: het relatief aantal steekproefuitkomsten xi die niet groter zijn dan x
1
▪ 𝐹̂𝑛 (𝑥) = (𝑎𝑎𝑛𝑡𝑎𝑙 𝑥𝑖 ≤ 𝑥; 𝑖 = 1, … 𝑛)
𝑛
𝑖
▪ Indien er geen samenvallende waarden zijn: 𝐹̂𝑛 (𝑥𝑖 ) =
𝑛
▪ De verdelingsfunctie 𝐹̂𝑛 kent aan elke observatie de rang ervan toe, gedeeld door de steekproefomvang
Voorbeeld: →
Kwantielfunctie: 𝑄̂𝑛 , inverse van de verdelingsfunctie 𝐹̂𝑛
− Gegeven een bepaald percentage 0 < 𝑝 ≤ 1, welk reëel getal x situeert zich dan in de overeenkomstige positie in de steekproef?
▪ 𝑄̂𝑛 (𝑝) is het kleinste getal x waarvoor: 𝐹̂𝑛 (𝑥) ≥ 𝑝
𝑖−1 𝑖
▪ 𝑄̂𝑛 (𝑝) = 𝑥𝑖 indien: <𝑝≤
𝑛 𝑛
𝑄1 = 𝑄̂𝑛 (0,25)
Kwartielen: 𝑄2 = 𝑄̂𝑛 (0,50)
𝑄3 = 𝑄̂𝑛 (0,75)
− Symmetrische verdeling: 𝑄2 − 𝑄1 ≈ 𝑄3 − 𝑄2
𝑄 − 𝑄2 ≫ 𝑄2 − 𝑄1 (𝑟𝑒𝑐ℎ𝑡𝑠𝑠𝑐ℎ𝑒𝑒𝑓)
− Asymmetrische verdeling: 3
𝑄3 − 𝑄2 ≪ 𝑄2 − 𝑄1 (𝑙𝑖𝑛𝑘𝑠𝑠𝑐ℎ𝑒𝑒𝑓)
, Centrumkenmerken
Steekproefgemiddelde Mediaan
𝑥̅ = 𝑥̅𝑛 𝑥(𝑛+1) (𝑛 𝑜𝑛𝑒𝑣𝑒𝑛)
2
1
= (𝑥1 + ⋯ + 𝑥𝑛 ) 𝑀𝑒𝑑(𝑥1 , … 𝑥𝑛 ) = { 𝑥𝑛 +𝑥𝑛+1
𝑛 2 2
1
(𝑛 𝑒𝑣𝑒𝑛)
2
= ∑𝑛𝑖=1 𝑥𝑖
𝑛 − n oneven: 𝑀𝑒𝑑 = 𝑄̂𝑛 (0,5)
Discrete gegevens: 𝑆 = {𝑚1 , … , 𝑚𝑘 }: − n even: 𝑄̂𝑛 (0,5) = 𝑥𝑛/2
1
𝑥̅ = ∑𝑘𝑗=1 𝑚𝑗 𝑛𝑗 − Beduidend minder gevoelig aan uitschieters
𝑛
= ∑𝑘𝑗=1 𝑚𝑗 𝑓𝑗,𝑛
Erg gevoelig aan uitschieters!
Getrimd gemiddelde Modus
Een vast percentage (5 of 10%) van de kleinste en de grootste Voor kwalitatieve en kwantitatieve discrete variabelen:
gegevens worden weggelaten uit de gegevensverzameling en het − De modus is het element uit de uitkomstenverzameling
gemiddelde van de resterende gegevens wordt berekend dat het meest voorkomt in de steekproef, of dat de
− Meer reguliere observaties worden behouden dan bij hoogste frequentie vertoont
berekening van de mediaan − Bij histogram gebaseerd op continue gegevens wordt
− Indien het trimmingspercentage te groot is, worden te de modus gedefinieerd als het klassenmidden waar het
veel reguliere observaties weggelaten gekozen histogram de hoogste waarde bereikt
− Indien het trimmingspercentage te klein is; worden te
weinig uitschieters verwijderd
Spreidingskenmerken
Bereik Interkwartielafstand IQR Median Absolute Deviation
𝑅 = 𝑥𝑛 − 𝑥1 𝐼𝑄𝑅 = 𝑄3 − 𝑄1 𝑀𝐴𝐷 = 𝑀𝑒𝑑𝑖=1,…,𝑛 | 𝑥𝑖 − 𝑀𝑒𝑑(𝑥1 , … 𝑥𝑛 |
− Weinig informatief = 𝑄̂𝑛 (0,75) − 𝑄̂𝑛 (0,25) Je berekent dus eerst de afstand van elke
− Erg afhankelijk van Geeft de lengte v/e gebied weer, rond de observatie tot de mediaan en beschouwt
steekproefgrootte n mediaan gelegen dat ongeveer de helft vd dan de mediaan van al deze afstanden
− Erg gevoelig aan uitschieters gegevens bevat → Erg ongevoelig aan uitschieters
→ Minder gevoelig aan uitschieters Bij normale verdeling geldt voor
Bij normale verdeling geldt voor voldoende grote n:
voldoende grote n: →
𝐼𝑄𝑅
~2
𝐼𝑄𝑅 𝑀𝐴𝐷
→ ~1,34 𝑀𝐴𝐷
𝑠 → ~ 0,67
𝑠
𝑀𝐴𝐷
Genormaliseerde MAD:
0,67
Standaardafwijking en variantie
Standaardafwijking: Variantie
1
1
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑠2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑠=√ 𝑛−1
𝑛−1
𝑛 2
Discrete gegevens: 𝑠 = √ ∑𝑘𝑖=1(𝑚𝑗 − 𝑥̅ ) 𝑓𝑗,𝑛
𝑛−1
− Erg gevoelig aan uitschieters
Bij normale verdeling geldt:
→ Steeds ongeveer 2/3e van de gegevens binnen een afstand van 1 stddeviatie aan weerszijden vh steekproefgemiddelde ligt
→ Steeds ongeveer 95 procent van de gegevens binnen een afstand van 2 stddeviaties aan weerzijden vh
steekproefgemiddelde ligt.
𝑥 −𝑥̅
z-score: 𝑧𝑖 = 𝑖
𝑠
→ Bij gegevens uit een normale verdeling geldt dat ongeveer 2/3e van de gegevens een z-score heeft die gelegen is tussen -1 en
1 en ongeveer 95 procent van de gegevens een z-score tussen -2 en 2.
Boxplot
Levert heel wat informatie over de verdeling:
▪ Centrum: mediaan, eventueel gemiddelde
▪ Spreiding: IQR= lengte van de doos
▪ Scheefheid:
o Symmetrie: mediaan in midden van de doos; even lange whiskers
o Rechtsscheef: mediaan in onderste helft; bovenste whiskers langer
▪ Zwaarte van de staarten: veel uitschieters = zwaarstaartige verdeling
o Lengte snorharen is gebaseerd op de normale verdeling
Uitschieters detecteren: (voor normale verdeling)
− Boxplot-regel: de kans dat reguliere observaties de whiskers overschrijden is 0,7%
o Werkt erg goed als er maximum 25% uitschieters zijn
− Via de z-scores: als |𝑧𝑖 | > 2,58
o Uitschieters beïnvloeden 𝑥̅ en 𝑠 en daardoor kunnen uitschieters toch |𝑧𝑖 | < 2,58 hebben
𝑥 −𝑚𝑒𝑑(𝑥1 ,…,𝑥𝑛 )
− Via robuuste z-scores: 𝑖
𝑀𝐴𝐷/0,67
o Werkt steeds goed, tot max 50% uitschieters