Beschrijvende statistiek en kansrekenen Dr. Heidi Arnouts
Inhoud
H1: Wat is statistiek ? .............................................................................................................................. 5
1.1 Waarom statistiek ?....................................................................................................................... 5
1.2 Definitie van statistiek ................................................................................................................... 5
1.3 Voorbeeld ...................................................................................................................................... 5
1.4 Onderwerp van de statistiek ......................................................................................................... 5
1.5 Kansrekening ................................................................................................................................. 5
H2: Data en hun voorstelling ................................................................................................................... 6
2.1 Soorten gegevens en meetschalen ............................................................................................... 6
2.1.1 Categorische of kwalitatieve variabelen ................................................................................ 6
2.1.2 Kwantitatieve variabelen........................................................................................................ 6
2.1.3 Hiërarchie van meetschalen ................................................................................................... 7
2.2 De datamatrix of gegevensmatrix ................................................................................................. 7
2.3 Voorstellen van univariate kwalitatieve variabelen ...................................................................... 7
2.4 Voorstellen van univariate kwantitatieve variabelen ................................................................... 8
2.4.1 Stam- en bladdiagram ............................................................................................................ 8
2.4.2 Naalddiagram voor univariate discrete kwantitatieve variabelen ......................................... 8
2.4.3 Histogrammen en frequentiepolygonen voor continue variabelen ...................................... 8
2.4.4 Empirische cumulatieve verdelingsfunctie............................................................................. 9
2.5 Het voorstellen van bivariate variabelen ...................................................................................... 9
H3: Beschrijvende statistieken van steekproefgegevens ...................................................................... 11
3.1 Kengetallen van centrale ligging of locatie.................................................................................. 12
3.1.1 Mediaan................................................................................................................................ 12
3.1.2 Modus ................................................................................................................................... 12
3.1.3 Rekenkundig gemiddelde ..................................................................................................... 12
3.1.4 Meetkundig of geometrisch gemiddelde ............................................................................. 13
3.2 Maatstaven van relatieve ligging................................................................................................. 13
3.2.1 Ordestatistiek, kwartiel, percentiel, deciel .......................................................................... 13
3.2.2 Kwartielen ............................................................................................................................ 13
3.3 Kengetallen van spreiding ........................................................................................................... 14
3.3.1 Spreidingsbreedte ................................................................................................................ 14
3.3.2 Interkwartielbreedte ............................................................................................................ 14
3.3.3 Gemiddelde absolute afwijking ............................................................................................ 14
3.3.4 Variantie ............................................................................................................................... 14
3.3.5 Standaarddeviatie ................................................................................................................ 15
Pagina 1 van 63
,Beschrijvende statistiek en kansrekenen Dr. Heidi Arnouts
3.3.6 Variatiecoëfficiënt ................................................................................................................ 15
3.3.7 Spreidingsindices voor nominale en ordinale variabelen .................................................... 15
3.4 Kengetallen van scheefheid......................................................................................................... 16
3.5 Gepiektheid of kurtosis (NIET)..................................................................................................... 16
3.6 Transformatie en standaardisatie van gegevens ........................................................................ 16
3.7 Boxplot ........................................................................................................................................ 17
3.8 Bivariate variabelen ..................................................................................................................... 17
3.8.1 Covariantie ........................................................................................................................... 17
3.8.2 Populatiecovariantie ............................................................................................................ 18
3.8.3 Correlatie .............................................................................................................................. 18
3.8.3 Rangcorrelatie ...................................................................................................................... 19
H4: Kansrekenen ................................................................................................................................... 20
4.1 Kansexperimenten....................................................................................................................... 20
4.2 Definitie van kans ........................................................................................................................ 21
4.3 Rekenregels ................................................................................................................................. 22
4.4 Voorwaardelijke kans .................................................................................................................. 22
4.5 Onafhankelijk en afhankelijke gebeurtenissen ........................................................................... 23
4.6 Totale kans en regel van Bayes ................................................................................................... 23
Stelling van de totale kans............................................................................................................. 23
Kansregel van Bayes ...................................................................................................................... 23
Welke kansregel gebruiken ? ........................................................................................................ 24
H5: Bijkomende aspecten van kansrekening ........................................................................................ 24
H6: Univariate kansvariabelen .............................................................................................................. 25
6.1 Kansvariabelen en verdelingsfunctie .......................................................................................... 25
6.2 Discrete kansvariabelen en kansverdelingen .............................................................................. 26
6.3 Continue kansvariabelen en kansdichtheid ................................................................................ 26
6.4 Functie van kansvariabelen ......................................................................................................... 27
6.4.1 Functies van een discrete kansvariabele .............................................................................. 27
6.4.2 Functies van een continue kansvariabele ............................................................................ 28
H7: Kengetallen van populaties en processen ...................................................................................... 30
7.1 Verwachte waarde van een kansvariabele.................................................................................. 30
7.2 Verwachte waarde van een functie met een kansvariabele ....................................................... 30
7.3 Speciale gevallen ......................................................................................................................... 31
7.4 Variantie en standaarddeviatie van een kansvariabele .............................................................. 32
7.5 Andere kengetallen ..................................................................................................................... 33
Mediaan γ0,5 ................................................................................................................................ 33
Pagina 2 van 63
,Beschrijvende statistiek en kansrekenen Dr. Heidi Arnouts
(100 x p)-de percentiel γp ............................................................................................................. 34
Momenten ..................................................................................................................................... 34
7.6 Momentgenererende functie ...................................................................................................... 34
H8: Belangrijke discreten kansverdeling ............................................................................................... 36
8.1 De uniforme verdeling................................................................................................................. 36
8.2 De Bernoulli-verdeling ................................................................................................................. 37
8.3 Binomiale verdeling ..................................................................................................................... 37
8.3.1 Kansverdeling ....................................................................................................................... 37
8.3.2 Verwachte waarde en variantie ........................................................................................... 38
8.4 De hypergeometrische verdeling ................................................................................................ 38
8.5 De Poisson-verdeling ................................................................................................................... 39
8.6 Geometrische verdeling .............................................................................................................. 39
8.7 Negatief binomiale verdeling ...................................................................................................... 40
Omzetting van kansen ........................................................................................................................... 41
H9: Belangrijke continue kansdichtheden............................................................................................. 42
Opmerking ......................................................................................................................................... 42
9.1 De continue uniforme dichtheid ................................................................................................. 42
9.2 De exponentiële dichtheid .......................................................................................................... 43
9.2.1 Definitie en kengetallen ....................................................................................................... 43
9.2.2 Enkele interessante eigenschappen ..................................................................................... 45
9.3 Gamma dichtheid ........................................................................................................................ 46
9.4 De Weibull-dichtheid ................................................................................................................... 47
9.5 De beta dichtheid ........................................................................................................................ 47
H10: De normaalverdeling .................................................................................................................... 48
Algemeen........................................................................................................................................... 48
10.1 De dichtheid .............................................................................................................................. 48
10.2 Berekenen van kansen voor normaal verdeelde variabelen..................................................... 49
10.2.1 Standaardnormaal verdeelde variabelen ........................................................................... 49
10.2.2 Normaal verdeelde variabelen ........................................................................................... 49
10.3 Lognormale kansdichtheid ........................................................................................................ 50
H 11: Multivariate kansvariabelen ........................................................................................................ 52
11.1 Inleidende begrippen ................................................................................................................ 52
11.2 Gezamelijke (discrete) kansverdeling........................................................................................ 52
11.3 Marginale of onvoorwaardelijke kansverdeling ........................................................................ 52
11.4 Voorwaardelijke (discrete) kansverdeling ................................................................................. 53
H12: Functies van meerdere kansvariabelen ........................................................................................ 54
Pagina 3 van 63
,Beschrijvende statistiek en kansrekenen Dr. Heidi Arnouts
12.1 Een functie van meerdere kansvariabelen ................................................................................ 54
12.2 Verwachte waarde van functies van meerdere kansvariabelen ............................................... 54
12.3 Voorwaardelijke verwachte waarden ....................................................................................... 54
12.4 Kansverdeling van functies van kasnvariabelen ........................................................................ 54
12.5 Functies van onafhankelijke Poisson, normaal en lognormaal verdeelde kansvariabelen....... 54
H13: Covariantie, correlatie, variantie van lineaire functie .................................................................. 56
13.1 Covariantie en correlatie ........................................................................................................... 56
13.2 Variantie van een lineaire functie van 2 kansvariabelen .......................................................... 57
13.3 Variantie van een lineaire functie van meer dan twee kansvariabelen .................................... 58
13.4 Variantie van een lineaire combinatie van onafhankelijke kansvariabelen .............................. 58
13.5 Lineaire combinatie van normaal verdeelde kansvariabelen ................................................... 58
13.6 Bivariate en multivariate normale kansdichtheid ..................................................................... 59
Grafisch.......................................................................................................................................... 59
Marginale kansdichtheid ............................................................................................................... 61
Voorwaardelijke kansdichtheid ..................................................................................................... 61
H14: De centrale limietstelling .............................................................................................................. 62
14.1 Kansdichtheid van het steekproefgemiddelde uit een normaal verdeelde populatie ............. 62
14.2 Kansverdeling of -dichtheid van het steekproefgemiddelde uit een niet-normaal verdeelde
populatie ........................................................................................................................................... 62
14.2.1 Centrale limietstelling ........................................................................................................ 63
Pagina 4 van 63
,Beschrijvende statistiek en kansrekenen Dr. Heidi Arnouts
H1: Wat is statistiek ?
1.1 Waarom statistiek ?
Iedereen wordt vroeg of laat wel eens met de analyse van gegevens geconfronteerd
1.2 Definitie van statistiek
Geheel van methodologieën voor het verzamelen, voorstellen, analyseren en interpreteren
van date of gegevens
o Algemene hulpwetenschap
1.3 Voorbeeld
Grootwarenhuizen verzamelen op basis van de klantenkaarten massa’s gegevens. Zaken die
meestal geregistreerd worden:
o gespendeerde bedrag per winkelbeurt
o aantal gekochte artikelen Ï welke artikelen werden gekocht (voeding, kleding, ...)
o betalingswijze (contant, debetkaart, kredietkaart, maaltijdcheque)
Gigantische hoeveelheid informatie wordt dan geanalyseerd
o voorbeeld op maat gemaakte reclamefolders
1.4 Onderwerp van de statistiek
Populatie van objecten of elementen
o Groep waarvoor de resultaten van een onderzoek gelden
▪ Vb. klanten van een grootwarenhuis
Gegevens: geregistreerde eigenschappen of karakteristiek → variabelen (waarin je
geïnteresseerd bent)
o Vb. gespendeerde bedrag, aantal gekochte artikelen, betalingswijze …
Steekproef: slechts een deel van de objecten wordt bestudeerd
o De antwoorden worden veralgemeend (inferentie) naar de populatie => zwakke plek
van statistiek
1.5 Kansrekening
Bestudeerd processen of experimenten waarbij de uitkomst onzeker is
Pagina 5 van 63
,Beschrijvende statistiek en kansrekenen Dr. Heidi Arnouts
H2: Data en hun voorstelling
2.1 Soorten gegevens en meetschalen
Variabelen worden ingedeeld naargelang hun meetniveau afhankelijk van de schaal waarop
ze worden gemeten
Gegevens worden verzameld over meerdere eigenschappen of variabelen
2.1.1 Categorische of kwalitatieve variabelen
NOMINALE VARIABELEN
Elementen van steekproef/populatie worden in klasse of categorie geplaatst
o Vb. geslacht, gemeente, opleidingsniveau …
Soms cijfercodes
o Vb. man = 0, vrouw = 1, Postnummers van gemeenten
o Cijfercodes impliceren geen volgorde: rekenkundige bewerkingen zijn zinloos
▪ Behalve absolute (aantallen) en relatieve frequenties (percentages)
ORDINALE VARIABELEN
Nominale variabelen waarbij er een ordening is tussen de klassen of categorieën
o Vb. aantal Michelinsterren van een restaurant
o Vb. antwoord op enquêtes: '1: eens', '2: noch eens, noch oneens', '3: oneens'
Rekenkundige bewerkingen zijn zinloos
o Behalve absolute en relatieve frequenties (percentages)
2.1.2 Kwantitatieve variabelen
Worden uitgedrukt in een aantal vaste meeteenheden
o Vb. lengte, gewicht, aantal verkochte producten, temperatuur, duurtijd …
Bijna alle rekenkundige bewerkingen zijn zinvol
INTERVALSCHAAL
Geen natuurlijk nulpunt => geen natuurlijke onder grens
o Vb. temperatuur tijd afgelezen op een klok
Verschil tussen 2u en 4u = verschil tussen 21u en 23u
Verhoudingen houden geen steek
o Vb. 4u is niet dubbel zo laat als 2u
RATIOSCHAAL
Wel absoluut nulpunt
o Vb. lengte, gewicht …
Verhoudingen zijn wel zinvol
o 2 meter is dubbel zolang als 1 cm
DISCRETE VERSUS CONTINUE VARIABELEN
Discreet: kan slechts een eindig of oneindig aftelbaar aantal verschillende variabelen
aannemen
o Vb. aantal passagiers op lijnvlucht
Continu: kan een continuüm van waarden aannemen
o Vb. lengte, body mass index …
Pagina 6 van 63
,Beschrijvende statistiek en kansrekenen Dr. Heidi Arnouts
2.1.3 Hiërarchie van meetschalen
Variabelen gemeten op ratioschaal zijn meest informatief
Gegevens gemeten op een hogere schaal kunnen worden omgezet in gegevens op eens
lagere schaal, maar niet omgekeerd!
Statistische methoden voor lagere meetschalen kunnen gebruikt worden voor hogere
meetschalen, maar niet omgekeerd!
Meest informatieve meetschaal:
ratioschaal → intervalschaal →
ordinale → nominale
2.2 De datamatrix of gegevensmatrix
Rijen: elementen of waarnemingen
van de steekproef
Kolommen: de verschillende gemeten
variabelen
Een rij => observatievector
2.3 Voorstellen van univariate kwalitatieve variabelen
Univariate => één variabele
Frequenties = het aantal elementen van de steekproef die tot de klasse behoren
Relatieve frequenties = de verhouding van de klassefrequentie tot het totaal aantal
waarnemingen/observaties in de steekproef
Staafdiagram
Pagina 7 van 63
,Beschrijvende statistiek en kansrekenen Dr. Heidi Arnouts
Paretodiagram = indien de klassen worden herschikt volgens dalende frequentie, en
vervolgens de frequenties cumulatief worden voorgeteld (aandacht wordt gevestigd op
klassen met hoogste frequentie)
Cirkel-, sector- of taartdiagram
2.4 Voorstellen van univariate kwantitatieve variabelen
2.4.1 Stam- en bladdiagram
Stam = getal voor de komma
Blad = 1ste cijfer na da komma
Goede voorstelling van kwantitatieve gegevens, geeft niet
enkel een beeld van de frequenties maar ook de individuele
waarnemingen
2.4.2 Naalddiagram voor univariate discrete kwantitatieve variabelen
Geeft absolute of relatieve frequenties weer
Discrete variabele met beperkte mogelijke uitkomsten (bv;
aantal passagiers die niet zijn komen opdagen)
2.4.3 Histogrammen en frequentiepolygonen voor continue variabelen
HISTORGRAM
Grafisch voorstellen van frequenties of relatieve frequenties van een continue kwantitatieve
variabele
Het interval waarin alle steekproefwaarden liggen wordt onderverdeeld in een aantal
deelintervallen
Histogram met de relatieve frequentie:
o Hoogte is relatieve frequentie
o Som van de hoogtes = 1
Pagina 8 van 63
,Beschrijvende statistiek en kansrekenen Dr. Heidi Arnouts
FREQUENTIEPOLYGOON
Middens van de toppen worden met elkaar verbonden in een lijnstuk
CONSTRUCTIE
Nadeel van histogrammen en frequentiepolygonen => de vorm ervan hangt af van het aantal
klassen dat wordt gekozen
histogram frequentiepolygoon
2.4.4 Empirische cumulatieve verdelingsfunctie
Zowel voor discrete als continue
kwantitatieve variabelen
Kwartielen en mediaan makkelijk af te lezen
2.5 Het voorstellen van bivariate variabelen
Bivariate => 2 variabelen
Kruistabel: in principe bedoeld voor
nominale en ordinale gegevens, maar kan
ook voor kwantitatieve gegevens wanneer
deze in klasse worden opgedeeld
Mozaïekplot
o Elke prijscategorie een eigen kleur
o Elk vlak komt overeen met cel in de kruistabel,
hoe groter de cel, hoe meer waarnemingen
Pagina 9 van 63
, Beschrijvende statistiek en kansrekenen Dr. Heidi Arnouts
Meervoudig staafdiagram
Puntenwolk
o Zie ik een stijgende (posi) of dalende (neg) rechte in
Pagina 10 van 63