STATISTIEK II
2019 - 2020
Boek: Business Statistics, derde editie
Auteurs: Sharpe, De Veaux, Velleman
Docent: Wouter Verbeke
, Herhaling Statistiek I
Course outline
Inferentiële statistiek = statistische analyse
Uit data die je ter beschikking hebt, ga je inzichten infereren en tot conclusies komen. Deze gelden
voor de hele populatie.
Vb statistiek I: descriptive statistics.
Business cases
1. Credit risk management (kredietrisico management)
Mensen die sparen stellen hun geld ter beschikking van de bank. In ruil hiervoor ontvangen ze een
interest van bv 0,5%. Verder kunnen banken geld ophalen op de financiële markt bij investeerders.
Banken gebruikt dat geld om leningen uit te geven, vb hypotheek, visa… De mensen die geld lenen,
betalen een interest van bv 1,5%.
Dit verschil van 1% is de marge voor de bank, de winst.
− Betalen van onkosten.
− Default: iemand die een lening niet kan terugbetalen. Het risico dat een lening niet kan worden
terugbetaalt, moet worden ingecalculeerd. Hiervoor zet de bank provisies opzij.
2. Customer relationship management (klantenrelatiebeheer)
Gericht op marketing. Bedrijven willen hun relaties met klanten optimaliseren.
− Loyaliteit verlengen
− Klant zoveel mogelijk laten spenderen
− …
Klantengedrag is onzeker. Analyse van data om dit in grote mate te voorspellen.
3. Fraud risk management
− Banken moeten frauduleuze kredietkaarttransacties detecteren. Kijken naar wat de typische
transacties zijn en wat hiervan afwijkt.
− Frauduleuze claims bij verzekeringsmaatschappijen.
− Werknemers die fraude plegen.
1
Statistiek II: Herhaling
, Hoofdstuk 9: Steekproevenverdeling en betrouwbaarheidsinterval
van een proportie
Steekproevenvariabiliteit
In plaats van een nieuw idee uit te proberen met alle klanten, gaan bedrijven bijna altijd eerst een
pilotstudie doen. Ze voeren een survey of experiment uit op een steekproef van klanten.
Voorbeeld: VISA wil een bonus geven aan klanten die hun bestedingen verhogen met minstens $800.
Dit zal winstgevend zijn wanneer 20% van de klanten dit doet. Welke fractie van klanten zal dit doen?
Om een schatting te maken, stuurt VISA het aanbod naar een aselecte steekproef van 1000 klanten.
211 klanten verhogen hun bestedingen met minimum $800.
Steekproeffractie p̂:
211
= 1000 = 0,211
Dit is de best mogelijke schatting van de onbekende parameter. Een andere steekproef kan een
ander resultaat opleveren. → steekproevenfout of steekproevenvariabiliteit
̂ is een toevalsvariabele
𝐩
Meerdere steekproeven geven meerdere schattingen. De steekproeffractie heeft een kansverdeling.
We kunnen voorspellen hoeveel verschillende proporties zullen variëren van steekproef tot
steekproef.
p: proportie in de populatie
p̂: geobserveerde proportie in een steekproef = steekproeffractie
q: proportie van mislukkingen (1 - p)
q̂: geobserveerde proportie van mislukkingen in een steekproef (1 - p̂)
De verdeling van steekproeffracties
Meestal kennen we de echte fractie p van een gebeurtenis niet. Daarom nemen we een steekproef
om de steekproeffractie te zoeken. Deze steekproeffractie komt uit 1 mogelijke steekproef. We
moeten bekijken hoe de steekproeffractie kan variëren voor alle mogelijke steekproeven.
→ Simulatie.
Voorbeeld
Neem een doos met 1 000 000 bonnetjes (populatie) waarvan 20% “succes” is en 80% “mislukking”.
𝑠𝑢𝑐𝑐𝑒𝑠 200 000
p = 𝑚𝑖𝑠𝑙𝑢𝑘𝑘𝑖𝑛𝑔 = 800 000 = 0,2 → echte fractie
De onderzoekers kunnen zien hoe de proporties variëren door de steekproevenvariabiliteit te
simuleren. M.a.w het experiment wordt veel, 10 000 keer, herhaalt.
Frequentiedensiteitshistogram:
2
Statistiek II: Hoofdstuk 9
, Verdeling? Niet elke steekproef heeft een steekproeffractie van 0,2. Steekproeffracties groter dan
0,24 en kleiner dan 0,16 komen niet vaak voor. De meeste steekproeffracties liggen tussen 0,18 en
0,22. De standaarddeviatie is 0,0126 of 1,26%.
Met de 68-95-99,7 regel betekent dit dat we kunnen verwachten dat 68% van de steekproeffracties
binnen 1 × 0,0126 van het gemiddelde 0,2 liggen. We verwachten dat 95% van de steekproeffracties
in het interval [0,175 ; 0,225] liggen. We verwachten dat 99,7% van de steekproeffracties binnen 3 ×
0,0126 van het gemiddelde ligt, in het interval [0,162 : 0,238]. Dit lijkt sterk op het histogram.
De steekproevenverdeling van 𝒑 ̂
Wanneer iets vaak herhaald wordt, zal de frequentie tenderen naar de kans. Dit
frequentiedensiteitshistogram benadert de kansverdeling van 𝑝̂ in herhaalde steekproeven.
Zonder simulatie
𝑎𝑎𝑛𝑡𝑎𝑙 𝑠𝑢𝑐𝑐𝑒𝑠𝑠𝑒𝑛 𝑋
Vertrek van: 𝑝̂ = 𝑛
=𝑛
Model voor de steekproevenverdeling p
Wat is de theoretische steekproevenverdeling?
De verdeling van alle steekproeffracties uit alle mogelijke steekproeven van dezelfde grootte met
een constante kans op succes p.
Het aantal successen kan worden gemodelleerd door de binomiale verdeling, die op zijn beurt de
normale verdeling volgt.
Gemiddelde = 𝐸(𝑝) = 𝑛𝑝
𝑆𝐷(𝑝) = √𝑛𝑝𝑞
→ Als 𝑛𝑝 en 𝑛𝑞 > 10
̂
Model voor de steekproevenverdeling van 𝒑
𝑎𝑎𝑛𝑡𝑎𝑙 𝑠𝑢𝑐𝑐𝑒𝑠𝑠𝑒𝑛 𝑋
𝑝̂ = =
𝑛 𝑛
Als X normaal verdeeld is, is de verdeling van X gedeeld door de steekproefgrootte n ook normaal
verdeeld. → Verdeling van 𝑝̂ is Normaal
𝑋 𝐸(𝑋) 𝑛𝑝
𝐸(𝑝̂ ) = 𝐸 ( ) = = =𝑝
𝑛 𝑛 𝑛
𝑋 𝑆𝐷(𝑋) √𝑛𝑝(1−𝑝) 𝑝(1−𝑝) 𝑝𝑞
𝑆𝐷(𝑝̂ ) = 𝑆𝐷(𝑛 ) = 𝑛
= 𝑛
=√ 𝑛
=√𝑛
𝑝𝑞
𝑝̂ ~ N(p, √ ) (bij benadering)
𝑛
3
Statistiek II: Hoofdstuk 9