Statistiek notities volledig document
Les 24/09/2019: Statistiek voor bedrijfswetenschappen
Introductie
Beschrijvende statistiek vs. Inferentiële statistiek = inductieve statistiek: toetsen van
hypothesen & schatten van steekproefgrootheden en hun betrouwbaarheid
Statistiek = managementtool van bedrijven
Examen: mondeling + eigen laptop (erop zetten wat je wil) 1 uur voorbereiden + korte
mondelinge toelichting
Statistisch probleem voorgelegd krijgen, wat moet ik kunnen?
1) Goede keuze maken (techniek om dit op te lossen is hier onderdeel van)
2) Parameters die je gebruikt om een keuze te maken
3) Interpretatie = het lezen van de output in termen van de vraagstelling
Geen bewijzen of formules kunnen geven
Belangrijke elementen uit HB:
H1: getting started
Waarom hebben we een innovatieve technologie nodig? Om
onderzoeksmethoden aan te leren op een wetenschappelijke manier/principes.
o Wat is nu een wetenschappelijk principe?
o Waarom is een wetenschappelijk tijdschrift net “wetenschappelijk”? Je
moet het onderzoek kunnen reproduceren; Als je de lezer niet kan laten
nagaan of het echt is (m.b.v. referenties), is het niet wetenschappelijk. Lezer
moet dus in staat zijn om onderzoek opnieuw te kunnen doen.
Wetenschappelijk = iets wat reproduceerbaar is m.b.v. de nodige
referenties.
Reproduceerbaarheid = basiskenmerk v. wetenschappelijk zijn
o Je kan nooit 100% bewijzen dat iets wetenschappelijk is, je kan wel een
theorie opstellen die wel toetsbaar is. Zolang er niemand een tegenargument
gegeven kan worden, blijft de theorie overeind. Wanneer er wel een
tegenargument gegeven kan worden, wordt de theorie gefalsifieerd en wordt
er verder gebouwd op de theorie.
Opm.: Compendium = willekeurige tekst met hyperlinks, zodanig dat je kan reproduceren
Datasheets schrappen (1.3?)
1.4.2 Univariaat, divariaat, trivariaat & multivariaat = aantal kolommen
1.4. … Bloggen = archiveren van berekeningen
1.5 tekstverwerker niet gearchiveerd, niet nodig om te gebruiken
1.7 Home instant messages berichten sturen naar medestudenten of prof. (system
administrator)
1.8 niet
1
, Les 27/09: statistiek voor bedrijfswetenschappen
Niet aangehaalde elementen v/d cursus eigenlijk niet kennen
H2:
2.1 Definities: statitici niet over eens hierover (hoe je waarschijnlijkheden moet definiëren
Jeffrey’s defenition: voorkeur omdat hij eenvoudig begint (uit subjectieve)
“Een waarschijnlijkheid is bij conventie een getal dat gelegen is tussen nul en 1; dat getal dat
uitgedrukt wordt geeft aan in welke mate iets waar is”; een subjectief iets (niet persé
bruikbaar).
! Geeft in zijn axiomatisch systeem een onderscheid in 2 waarschijnlijkheden:
Gewone waarschijnlijkheid: ’s morgens opstaan, dag voordien niet naar weerbericht
gekeken je kan je afvragen, “wat kan ik aandoen? Gaat het regenen?” Hiervan
kan je een Intuïtieve (subjectief) beoordeling maken goed opgestaan kans is
60% op mooi w=eer, kan je zelf beslissen. = subjectieve inschatting die je maakt =
vertrekpunt van Jeffrey’s
Conditionele waarschijnlijkheid: dag voordien naar weerbericht geluisterd, meestal
wel betrouwbaar voorkennis (weerbericht) heeft een invloed op de
waarschijnlijkheid die je inschat. 80% kans op regen (maakt gebruik van bestaande
(voor)kennis – weerbericht zegt regen) inschatting wordt beïnvloed door
voorkennis of uitspraken
2 waarschijnlijkheden die voorkomen hoe moet je rekenen met waarschijnlijkheden? (dit
staat in 2.2.0….. (niet zo belangrijk)
2 Stellingen
2.3 stelling van Bayes: vrij oud, priester die veel nagedacht heeft over god & wereld
en statistiek belangrijk omdat ze op een contra-intuïtieve manier confronteert.
o P = probability/waarschijnlijkheid (om te berekenen)
o A is een gebeurtenis of toestand
o / datgene dat geweten is staat hierachter.
o De waarschijnlijkheid van gebeurtenis A
o Bv. A hoge temp. En B zon schijnt als ik weet dat er een hoge temp. Is, wat
is dan de waarschijnlijkheid dat de zon schijnt?
o P(AB) = het is warm en de zon schijnt
o P(B) = De zon schijnt.
o 2e zon schijnt, gegeven dat het warm is.
o P(AB) = P(BA) dit is belangrijk!
Soms is B gegeven en A niet, en A moet onderzocht worden
Soms omgekeerd
Nodig voor oplossen van vraagstukken in termen van
waarschijnlijkheden door correct opschrijven van de
waarschijnlijkheden, kunnen we het andere berekenen/inschatten.
o Waarschijnlijkheid dat A juist is, gegeven B = waarschijnlijkheid B, gegeven A
maal waarschijnlijkheid A gedeeld door waarschijnlijkheid van B
2
,Ipv met A en B te werken werken met hypothesen en gegevens
Bv. Ik denk dat een bepaalde bacterie een maagzweer kan veroorzaken. opzoek gaan naar
gegevens, proberen uitspraak te onderzoeken
Hypothesen is wetenschappelijke vraag die je tracht te beantwoorden, data is verzamelde
informatie
= Proportioneel met = verandert evenredig met … vanwege dit teken, mag je de
2 door elkaar delen!
Proportioneel met = mogelijk om vergelijkingen door elkaar te delen
H1 = hypothese 1
H2 = hypothese 2
D = data
Voorbeeld: veronderstel dat we 2 zakken hebben (ondoorzichtig), in elke zak zit goud en
zilveren muntstukken, eerste zak = H1; 2e zak H2 nu weten we de verhouding in de 2
zakken.
Wat is de kans dat het muntstuk uit de eerste zak komt?
Intuïtie: verhouding van de 2 zakken speelt mee kans in 1e zak groter.
De kans van de data te observeren, gegeven dat het muntstuk uit de eerste zak komt
te berekenen; Zelfde voor 2e zak.
Stelling zegt dat je altijd van plaats kan verwisselen. probleem te herschrijven.
½ = 50% kans zonder voorkennis te hebben
Odds = verhouding waarschijnlijkheden
Nieuwe begrippen: 2.3.0.0.3 voorbeeld doorlezen!
Beide te maken met nauwkeurigheid v/e voorspelling: (2) criteria nodig om kwaliteit v/e
voorspelling te kunnen uitdrukken; geven % getal weer, hoe goed je kunt voorspellen
Sensitiviteit = (zelfde als specificiteit)
Specificiteit = ratio/verhouding v/h aantal keer dat je correct voorspelt t.o.v. alle
positieve voorspellingen
H1 & H2 in tabel voorstellen ofwel H1 waar en H2 onwaar, niet allebei waar op zelfde
moment
Stel H2 waar (kolom 1) ofwel hypothese verwerpen, ofwel aanvaarden (d.m.v. Bayes)
waar? bovenaan kolom 1 , 1e rij
H2 verwerpen? kolom 1, 2e rij
Bij betaling online aankoop controleren (loading) controleren of transactie mag
doorgaan of niet. (frauduleus = kaart gestolen)
Of face/touchID binaire beslissing controleren of het de juiste persoon is.
Prevalence = het voorkomen van fraude tov het totaal vd transacties (0,2%)
Wat is de waarschijnlijkheid/werkelijke kans dat een willekeurig fraudegeval (= geklasseerd
als positief) effectief frauduleus is? uitgewerkt op 2 manieren (2.7 en 2.8)
3
, 2.4.2.0.1 oefening 1 prevalentie = voorkomen van de ziekte (0,3%) test kan nagaan of
je de ziekte hebt
P(+) kans om positief te testen
P(+/D) kans positief te testen, gegeven de data (sensitiviteit)
P(d) prevalentie, het voorkomen van de ziekte
90% sensitiviteit
7% positief getest
Antwoord:
(0,90 x 0,003) / 0,07 = 3,86% kans dat je de ziekte hebt, indien je positief test
3,86% waarschijnlijkheid tegenover 0,3% verschil is relatief groot, maar kans dat je
de ziekte hebt is nog steeds MAAR 0,3% is dit nuttig om aan te kopen? (omdat
prevalentie zo laag is, is de kans klein dat je het ook hebt)
2.4 wet van de grote getallen = goudentheorema (Jeffrey’s) = Bernouillitheorema
Wet zegt: als je niet goed weet hoe je de waarschijnlijkheden mathematisch moet
uitdrukken, bestaat er een mogelijkheid om te simuleren (bv. gooien met een
dobbelsteen – kans kop/munt) experiment is uit te voeren! Op basis van de
uitkomsten (empirische gegevens) conclusies trekken.
Wet zegt: als je niet alle mogelijkheden kan uitputten (oneindig blijven simuleren),
het gemiddelde van wat je wil bewijzen (dobbelstenen gooien), gaat convergeren
naar het werkelijke resultaat (je moet dit echter wel voldoende vaak uitvoeren
HOE MEER SIMULATIES, HOE BETER)
2.2 Babies …
Welk v/d 2 ziekenhuizen gaat de meeste dagen hebben waarbij er 60% geboortes zijn
van jongens?
Simulatie: spreadsheet =ALS(ASELECT()>=0,5;"boy";"girl")
Verklaring: kleine ziekenhuis minder geboorten, waarschijnlijker op minder gelijke
geboortes tussen jongens en meisjes
o In groot ziekenhuis: 5,48% < klein ziekenhuis: 18,90%
o Bij “formules” “nu berekenen” om steeds opnieuw te berekenen Bij
elke simulatie zal het % in klein ziekenhuis groter zijn
Of via online programma berekenen: Help handbook problems chapter 2
alles laten staan compute
Wet van de grote getallen: nadeel willekeurig kan het antwoord ernaast zitten
Waarschijnlijkheid het beste af te lezen in de grafiek aan de rechterkant ;
wispelturigheid aan linkerkant is groter (minder aantal dagen)
In kleine ziekenhuis, meer verschillen hoe kan je een nauwkeurigere schatting
maken? Meer dagen maken
2.4.2.0.5 Task 4: wanneer is er 80% jongens per dag? : 0% kans in grote ziekenhuis
onwaarschijnlijke gebeurtenis
Elke sprong = succes (kleine ziekenhuis)
Methode van grote getallen is beperkt, soms heb je pech.
Rechts (op grafiek) is meest betrouwbare
4