Statistiek BDK
Samenvatting statistiek voor
bedrijfskunde
,Inhoudsopgave
Week 1. Beschrijvende statistiek ....................................................................................... 4
Begrippen week 1 ............................................................................................................ 4
1.1 Het beschrijven van data .......................................................................................... 5
1.1.1. Het rekenkundige gemiddelde .............................................................................. 5
1.1.2. De mediaan .......................................................................................................... 5
1.1.3. De modus ............................................................................................................. 5
1.1.4. Percentielen en Kwartielen ................................................................................... 6
1.1.5 Variantie en Standaardafwijking ............................................................................. 6
1.1.6 Empirische Regel .................................................................................................. 7
1.1.7 Z-Score ................................................................................................................. 7
1.1.8 Coverantie en Correlatie ........................................................................................ 8
Week 2. Kansrekening ........................................................................................................ 9
Begrippen week 2 ............................................................................................................ 9
2.1 Het toewijzen van kansen aan gebeurtenissen ......................................................... 9
2.1.1 Klassieke kans: ..................................................................................................... 9
2.1.2 Combinaties .......................................................................................................... 9
2.1.3 Permutaties vs. Combinaties ................................................................................ 11
2.1.4. Regels van kansrekening .................................................................................... 11
2.1.5 De Somregel ........................................................................................................12
2.1.6 Voorwaardelijke kansen ........................................................................................13
2.1.7 Gezamenlijke en marginale kansen ......................................................................14
2.1.8 Statistische onafhankelijkheid ...............................................................................15
2.1.9 De Stelling van Bayes ..........................................................................................15
Week 3. Toevalsvariabelen en kansverdelingen...............................................................17
Begrippen week 3 ...........................................................................................................17
3.1 Kansverdelingen ......................................................................................................17
3.1.1 Cumulatieve kansverdelingen ...............................................................................18
3.1.2 Eigenschappen van toevalsvariabelen..................................................................18
3.1.3 Verwachte waarde ................................................................................................19
3.1.4 Variantie en standaardafwijking ............................................................................19
3.1.5 Lineaire functies ...................................................................................................20
3.1.6 Discrete kansverdelingen: bernoulli en de binominale verdeling ...........................20
3.1.7. Gezamelijke kansverdelingen ..............................................................................23
3.1.8 Covariantie en correlatie .......................................................................................24
3.1.9 Continue kansverdelingen: Uniform en (Standaard) normaal ................................25
3.1.10 Normale benadering van de binomiale verdeling ................................................28
3.1.11 Portfolio analyse .................................................................................................29
,Week 4. Steekproefverdeling en Gevolgtrekking .............................................................30
4.1.1 Steekproefselectie ................................................................................................30
4.1.2 Steekproefverdeling..............................................................................................30
4.1.3 Verdeling van de steekproefgemiddelden .............................................................31
4.1.4 Schattingen van het populatiegemiddelde ............................................................32
4.1.5 Schattingen van het populatiegemiddelde: een voorbeeld ....................................34
4.1.6 De T-Verdeling ......................................................................................................35
4.1.7 De T-verdeling, een voorbeeld ..............................................................................36
4.1.8 Verdeling van Steekproefpoporties .......................................................................37
4.1.9 Schattingen van de populatieporportie (p̂) ............................................................37
4.1.10 Verdeling van steekproefvarianties .....................................................................39
4.1.11 Schattingen van de populatievariantie ................................................................40
Week 5. Hypothese testen .................................................................................................42
5.1.1 De nulhypothese...................................................................................................42
5.1.2 De alternatieve hypothese ....................................................................................42
5.1.3 Hypothese toetsen: de basis ................................................................................43
5.1.4 Hypotheses toetsen: populatiegemiddelde populatievariantie bekend ..................46
5.1.5 Hypotheses toetsen populatiegemiddelde. Populatievariantie onbekend ..............47
5.1.6 Hypotheses toetsen: Populatieproportie. ..............................................................48
5.1.7 Hypotheses toetsen: Populatievariantie ................................................................50
5.1.8 Type I en type II fouten .........................................................................................51
5.1.9 Extra: wanneer verwerp je de nulhypothese? .......................................................51
Week 6. Gevolgtrekking en hypothese testen ..................................................................53
6.1.1 Verschillen tussen populaties ...............................................................................53
6.1.2 Afhankelijke steekproeven: verschil tussen populatiegemiddelden. ......................54
6.1.3 Matched Pairs: Betrouwbaarheidsinterval .............................................................54
6.1.4. Matched pairs: hypothese toets. ..........................................................................55
6.1.5. Repeated measurements ....................................................................................57
6.1.6. Onafhankelijke steekproeven: verschil tussen populatiegemiddelden ..................58
6.1.6.1 Populatievarianties bekend: betrouwbaarheidsinterval ......................................58
6.1.6.2 Populatievarianties bekend: Hypothese toetsen ................................................59
6.1.6.3 Populatievarianties onbekend en gelijk ..............................................................60
6.1.6.4 Populatievarianties onbekend: hypothesetoets ..................................................61
6.1.6.5 Populatievarianties onbekend en ongelijk ..........................................................63
6.1.6.6 Populatievarianties onbekend en ongelijk: hypothesetoets ................................64
6.1.7 De F-verdeling ......................................................................................................64
6.1.7.1 De F-verdeling: hypothesetoets .........................................................................65
6.1.8 Verschillen tussen populatieproporties..................................................................66
6.1.8.1 Verschillen tussen populatieproporties: hypothesetoets .....................................67
,Week 7. Regressie ..........................................................................................................69
7.1.1 Lineair regressiemodel .........................................................................................69
7.1.2. Regressiecoëfficiënten en het snijpunt ................................................................71
7.1.3 Verwachte waarde van de afhankelijke variabele..................................................72
7.1.4 Determinatiecoëfficiënt R² ....................................................................................72
7.1.5 ANOVA .................................................................................................................73
7.1.6 SSR, SSE en SST. ...............................................................................................73
7.1.7 De foutterm...........................................................................................................74
7.1.8 De standaardafwijkingen van de foutterm en de hellingscoëfficiënt ......................75
7.1.9 Significantie en hellingscoëfficiënt: hypothesetoets ..............................................75
7.1.10 Betrouwbaarheidsinterval: Hellingscoëfficiënt .....................................................77
7.1.11 Aannames regressiemodel & Causaliteit + overige .............................................77
,Week 1. Beschrijvende statistiek
Begrippen week 1
➔ Beschrijvende statistiek
Beschrijvende statistiek is het grafisch en numeriek weergeven van data. Dit houdt in: het
ordenen, samenvatten en daarna de data in overzichtelijke tabellen en grafieken
weergeven.
➔ Inferentiële statistiek
Dit is een datamethode die data gebruikt om tot inzichten te komen over de gehele
populatie. Dit houdt in: het maken van voorspellingen, prognoses en schattingen om zo
betere beslissingen te kunnen maken
➔ Populatie
Een populatie is een grote groep van dezelfde soort organismen in een min of meer
afgescheiden gebied. Een voorbeeld hiervan is bijvoorbeeld potentiële klanten voor een
nieuwe winkel in Groningen.
➔ Steekproef
Een steekproef is een willekeurig geselecteerd deel van de gehele populatie.
➔ Parameter
Een parameter is een waarde die berekend wordt op basis van data over de populatie.
Voorbeeld: populatiegemiddelde: µ
Voorbeeld: populatiegrootte: N
➔ Statistiek
Een statistiek is een waarde die berekend wordt op basis van data over de steekproef.
Voorbeeld: steekproefgemiddelde: 𝑥̅
Voorbeeld: steekproefgrootte: n
➔ Variabele
Een variabele is een specifiek kenmerk van een persoon of een object. Bijvoorbeeld de
dagelijkse afzet van onze winkel in Groningen.
➔ Categorische variabele
De waarden horen tot een groep/categorie. (Ja/Nee)
➔ Numerieke variabele
De waarden zijn getallen waarmee je kan rekenen.
➔ Discrete variabele
Een discrete variabele kan een eindig aantal waarden aannemen binnen een bereik.
Bijvoorbeeld: de afzet van de winkel.
➔ Continue variabele
Kan elke waarde aannemen binnen een bereik. Bijvoorbeeld het gewicht van een
kledingsstuk.
➔ Kwalitatieve variabele
Waarden behoren tot een groep/categorie (Ja/Nee)
Nominale variabele
-> Waarden hebben geen rangorde. Dus het is of ja, of nee.
Ordinale variabele
-> Waarden hebben wel een rangorde. Dus: slecht, matig, redelijk, goed, etc.
➔ Kwantitatieve variabele
Waarden zijn getallen waarmee je kan rekenen
Interval data
-> Geeft de rangorde en afstand van een willekeurig nulpunt aan. Negatieve waarden zijn
wel mogelijk. (Bijvoorbeeld de temperatuur in onze winkel in Groningen)
Ratio data
-> Geeft de rangorde en afstand van een absoluut nulpunt aan. Negatieve waarden zijn
niet mogelijk. (Bijvoorbeeld het gewicht van een kledingstuk).
,1.1 Het beschrijven van data
Met statistiek kan je het rekenkundige gemiddelde, de modus en de mediaan berekenen.
1.1.1. Het rekenkundige gemiddelde
Het rekenkundige gemiddelde is, zoals de naam het al zegt, een rekenkundig gemiddelde
van alle steekproeven bij elkaar opgeteld en dan gedeeld door het aantal waarnemingen.
Voorbeeld:
Marcel en Anette hebben een kledingwinkel op de Zernike Campus. Voor een
klanttevredenheidsonderzoek hebben ze 20 mensen gevraagd, die een cijfer van 0 tot 10
kunnen geven, op basis van hun tevredenheid. Hier zijn de gegevens:
Klanttevredenheid winkel Zernike Campus
5,0 8,0 9,0 9,0 8,0
10,0 10,0 6,0 6,0 7,0
5,0 6,0 8,0 8,0 9,0
7,0 7,0 9,0 8,0 8,0
Het rekenkundige gemiddelde is vervolgens al deze cijfers bij elkaar optellen, en dan / 20.
Dus: 5 + 8 + 9 + 9 …. / 20 = 7.65 gemiddelde.
1.1.2. De mediaan
De mediaan is het middelste getal in een set gesorteerde observaties. In het voorbeeld van
de klanttevredenheid op de Zernike Campus is de mediaan 8. Dit betekend dat er 2 cijfers
hoger zijn dan de mediaan, en 2 cijfers lager zijn dan de mediaan.
1.1.3. De modus
De modus is het getal wat het vaakste voorkomt in een reeks getallen. In het voorbeeld van
de klanttevredenheid op de Zernike Campus is de modus wederom 8. Dit getal komt dus het
vaakste voor in de getallenreeks.
• Unimodale verdeling: Verdeling met één modus
• Bimodale verdeling: Verdeling met twee modi
• Multimodale verdeling: Verdeling met meer dan twee modi
Om het makkelijk te houden hebben we in het voorbeeld 1 modus.
,1.1.4. Percentielen en Kwartielen
Percentielen en Kwartielen zijn maatstaven die de locatie of positie bepalen voor een
bepaalde waarde ten opzichte van de gehele dataset.
De percentielen worden gebruikt voor ons klanttevredenheidsonderzoek. Echter, worden
eerst alle observaties gesorteerd van laag naar hoog. Deze observaties wijken af van het
vorige voorbeeld. Met andere woorden: We gebruiken voor deze een nieuw voorbeeld.
De volgende getallen zijn gesorteerd van laag naar hoog.
Zoals je kan zien zijn dit discrete variabelen. Dit is omdat deze variabelen een eindig aantal
waarden aan kunnen nemen. Namelijk: 5 – 97.
De formule van een percentiel is: (P/100) * (n+1)
Q1 => de waarde op het 0,25 percentiel is: (0.25)*(50+1) = 12.75.
De 12.75 zegt 2 dingen:
Eerst kijk je naar de rechterkant van het getal. Dit zegt 12. Dat betekent dat het 25e
percentiel tussen het 12e en 13e getal in de reeks ligt. Eerst kijken we naar het 12e getal en
dan zien we 32 staan. Deze schrijven we op. Daarna tellen we de 0,75 erbij op, om de
exacte locatie te bepalen. Je krijgt dus het volgende:
32 + 0,75 = 32.75. Het 25e percentiel moet dus ergens tussen de 32 en 36 liggen in de
nummerreeks hierboven. Om dit te bereken doen we dit x (36 -32). En dan krijg je het
laatste:
32 + 0.75 * (36 -32) = 35. Dit betekent dat het 25e percentiel 35 is. Dus: 25% is kleiner dan
35 in de gehele getallenreeks.
1.1.5 Variantie en Standaardafwijking
De variantie is in de statistiek een maat voor de spreiding van een reeks waarden en
getallen. Dat wil zeggen: de mate waarin de waarden en getallen onderling verschillen. Hoe
groter deze variantie is, des te meer de afzonderlijke waarden onderling verschillen en dus
ook hoe meer de waarden van het gemiddelde afwijken.
De variantie bereken je als volgt:
Bij de getallenreeks die gebruikt is om de percentielen en kwartielen te berekenen is de
steekproefvariantie het volgende:
De X = 47.16 (alle 50 getallen bij elkaar op tellen en dan /50 )
De Xi bereken je door elk getal in de reeks minus het gemiddelde te kwadrateren.
,Dus (5-47.16)^2 + (8-47.16)^2 etc. Als je alles bij elkaar opgeteld hebt kom je op een getal
van 20932, 72. Dit gedeeld door N-1 (steekproef -1) = (20.932, = 427,1984.
Dit is de steekproefvariantie. Bij de Populatievariantie doe je geen N-1.
De steekproefstandaardafwijking (deviatie) =
Of gewoon de wortel van de variantie. √427.1984 = 20.67
De standaardafwijking is de wortel van de variantie. Het geeft net als de variantie de mate
van spreiding aan in de dataset. Het meet de gemiddelde spreiding rondom het
gemiddelde. Hoe groter de standaardafwijking, hoe meer variantie/spreiding er in de data
zit.
1.1.6 Empirische Regel
De empirische regel geeft voor veel grote populaties (klokvormig/normaal verdeeld) een
schatting van het percentage observaties dat binnen één, twee of drie standaardafwijkingen
van het gemiddelde ligt.
- Ongeveer 68% van de observaties ligt in het interval µ ± 1σ
- Ongeveer 95% van de observaties ligt in het interval µ ± 2σ
- Bijna alle observaties liggen in het interval µ ± 3σ
In een normaal verdeelde grafiek ziet het er als volgt uit:
1.1.7 Z-Score
De Z-score meet de locatie of positie van een bepaalde observatie ten opzichte van het
gemiddelde. De formule voor de Z-Score is als volgt:
De Z-Score is een gestandaardiseerde waarde: het aantal standaardafwijkingen dat een
willekeurige observatie afwijkt van het gemiddelde.
,Dezelfde afbeelding als hierboven, maar dan met de Z-scores:
1.1.8 Coverantie en Correlatie
De covariantie en correlatie zijn numerieke maatstaven om een lineair verband tussen twee
variabelen te beschrijven
Covariantie: Meet de richting van een lineair verband
Correlatie: Meet zowel de richting als sterkte van een lineair verband
De steekproefcovariantie is als volgt:
Wanneer deze waarde positief is, is er een direct of een toenemend verband. Wanneer de
waarde negatief is, is er negatief, of een afnemend verband.
De populatiecovariantie heeft een andere berekening:
De correlatie meet de richting en sterkte van een lineair verband. De
steekproefcorrelatiecoëfficiënt is als dan ook als volgt:
De correlatie geeft een gestandaardiseerde waarde tussen -1 en +1, waarbij -1 een
negatieve correlatie betekent, +1 geeft een positieve correlatie en 0 geeft geen correlatie.
De vuistregel: er is een verband als R = ≥ 2
√n
Er is wederom een andere correlatiecoëfficiënt voor de populatie. Deze is:
LET OP: Correlatie zegt niet dat er ook een causaal verband is tussen de waarden en
variabelen.
, Week 2. Kansrekening
Begrippen week 2
➔ Toevalsexperiment: Een proces dat twee of meer uitkomsten heeft, zonder dat we
precies weten welke uitkomst zal gaan plaatsvinden
➔ Basisuitkomst: Een mogelijke uitkomst van een toevalsexperiment
➔ Uitkomstenruimte: De uitkomstenruimte S is de verzameling van basisuitkomsten van
een toevalsexperiment
➔ Gebeurtenis: Een gebeurtenis is een deelverzameling van S
➔ Doorsnede: De doorsnede van gebeurtenissen A en B is de verzameling
basisuitkomsten in S die behoren tot zowel A als B (A ∩ B)
➔ Vereniging: De vereniging van gebeurtenissen A en B is de verzameling van
basisuitkomsten in S die behoren tot minimaal één van de twee gebeurtenissen (A ∪ B)
➔ Wederzijds uitsluitend: Gebeurtenissen sluiten elkaar wederzijds uit als ze geen
gemeenschappelijke basisuitkomsten hebben (disjunct)
➔ Gezamenlijk grondig: Gebeurtenissen zijn gezamenlijk grondig als de basisuitkomsten
de gehele uitkomstenruimte dekken
➔ Complement: Het complement van gebeurtenis A is de verzameling van basisuitkomsten
die wel tot S maar niet tot A behoren (A)
2.1 Het toewijzen van kansen aan gebeurtenissen
In een zak kruidnoten zitten: 5 witte (W = 5), 10 melk (M = 10), en 5 puur (P = 5)
Stel: we grabbelen in de zak, wat is dan de kans dat we 1 witte pakken?
We geven de kans dat we een witte kruidnoot pakken de kans (A).
* Dit kan ook een andere variabele zijn, dat maakt niet uit.
2.1.1 Klassieke kans:
Stap 1. Definieer de gebeurtenis A = (W): We grabbelen een witte kruidnoot.
Stap 2. Bepaal de kans op gebeurtenis A: P(A)
P(A) NA =
N
- NA = aantal uitkomsten in S dat overeenkomt met A. Dus hoeveel witte kruidnoten.
- N = aantal uitkomsten in S. Dus het totaal aantal pepernoten in de zak
P(A) = = 0.25. (Oftewel 25%)
Dit is een voorbeeld van een klassieke kans. Een klassieke kans is de uitdrukking voor het
optreden van gelijk mogelijke uitkomsten. Dus: de kans dat een uitkomst plaatsvindt, is
hetzelfde voor elke uitkomst.
2.1.2 Combinaties
Het tellen van het aantal uitkomsten in de uitkomstenruimte (zoals hierboven) is soms niet
mogelijk. Dan ben je 100en uren bezig. Dit kost te veel tijd. Hiervoor gebruiken we
combinaties.
Stel: we grabbelen uit een nieuwe zak 5 kruidnoten. Wat is dan de kans dat we:
- 2 witte kruidnoten (W)
- 2 melk kruidnoten (M)
- 1 puur kruidnoten (P)
Uit de zak halen?