Statistiek voor bedrijfswetenschappen (samenvatting/notities)
Statistics made easy ! ! ! Learn about the t-test, the chi square test, the p value and more - YouTube
(kijken voonr evt schema maken van de verschillende testen om te zien welke test voor welke date
gebruikt kan worden)
Hoofdstuk 2:
Waarschijnlijkheden:
Harold Jeffreys: mate waarin we vertrouwen hebben in een bepaalde uitspraak. (=subjectief)
“Jeffreys’ definition: Probability is the degree of confidence that we may reasonably have in a
proposition. This definition is quite vague but is used in Jeffrey’s axiom system. This enables us to
derive an axiomatic probability theory.” (p43)
De kans dat een ‘event’ zich voordoet ligt altijd tussen 0 en 1.
0 < P(Event1) < 1 met P = Probability = waarschijnlijkheid, kans
Dit leidt tot P (NotEvent) = 1 – P (Event)
➔ 60% kans dat het regent (= Event), dus kans dat het niet regent is 40% (100% - 60%).
Onderscheid tussen:
Doorsnede: ∩: Wat is de kans dat de zon schijnt EN het regent.
Unie: U: Regent OF de zon schijnt
2 waarschijnlijkheden:
P (C│x) = P(C) → de kans dat C (vb het regent) zich voordoet, rekening houdende met dat het weer
regen voorspelde (X).
Ander voorbeeld: C = slagen of niet slagen op het examen. (waarschijnlijkheid dat je slaagt)
X = of je studeert of niet
P (C│x) = P(C)? is de kans dat je slaagt voor het examen met studeren even groot als slagen voor het
examen zonder te studeren? --> in dit geval is dit dus niet gelijk! Stel het examen was een tombola
waarbij 50% vd studenten slaagt --> dan is dit wel gelijk.
P (C│x) = P(C) = een conditionele waarschijnlijkheid (hier kan je de nauwkeurigste info uit halen)
Waarschijnlijkheden optellen:
➔ Optellen: indien kans van A OF B (Unie)
➔ Vermenigvuldigen: indien kans van A EN B
1
,Bayes Theory: (p. 51)
𝑃(𝐴𝐵)
P (A│B) =
𝑃(𝐵)
𝑃(𝐵𝐴)
En P (A│B) = 𝑃(𝐴)
P(B|A)P(A)
P(A|B) = P(B)
“probability of A given B can be expressed as a function of the probability of B given A.”
De kans van A als B gegeven is kan ook uitgedrukt worden als de functie van de kans van B als A
gegeven is.
“P(H|D) ∝ P(D|H)P(H) where A has been replaced by H (Hypothesis) and B by D (observed Data).”
➔ Wat is de kans dat Hypothese (H) juist is, rekening houdende met de gegeven Data (D)
= Hoe waarschijnlijk dat de data juist is rekening houdende met de Hypothese (x P(H))
P(H1|D) P(D|H1) ∗ P(H1)
P(H2|D)
= P(D|H2) P(H2)
→ Dit is de theorie als je twee Hypotheses hebt
Voorbeeld: Je hebt 2 zakken met daarin gouden en zilveren mundstukken
Wat is de kans dat deze munt uit zak 1 of zak 2 komt?
Je weet dat als je 1 munt neemt (ongeacht goud of zilver) dat je 50% (1/2) kans hebt dat het uit zak 1
komt.
150 1
P(H1|D) P(D|H1) ∗ P(H1) (
200
)∗( )
2
P(H2|D)
= P(D|H2) P(H2)
= 100 1 = (9/4) Hier kan je zien dat de kans groter is dat het muntstuk uit
( )∗( )
300 2
zak 1 komt. Met dit getal kan je alleen zien of de kans groter is dat het uit zak 1 komt. Je kan niks
anders uit dit getal halen.
P(H1|D) = Goud = (9/(9+4))= 9/13 → Dit is de kans dat het gouden muntstuk uit Zak 1 komt
➔ P (NotEvent) = 1 – P (Event) => P(H1|D) = Zilver = 1 – (9/13)= 4/13 kans dat het gouden stuk
uit zak 2 komt
2
, = Of het negatief of positief is kan je zelf bepalen, deze staan dus niet perse vast!
= Wel vast, deze kan je niet van plaats veranderen (wat logisch is):
Als je H2 accepteert en H2 is juist = TRUE
Als je H2 weigert en H2 is juist = False
Dit gaat over de Specifiteit en sensetiviteit van je test = Hoe betrouwbaar is de test eigelijk.
P 52
“Bayes’ Theorem is closely related to the definitions of Sensitivity and Specificity, which can be
illustrated for the case of a binary classification problem.”
Vb. Een systeem dat fraude kan detecteren. Als H1 is juist, dan is de transactie frauduleus. Dus er
wordt een systeem gecreëerd om te helpen beslissen of een transactie frauduleus is of niet. De
standaardvoorspelling die we maken is dat de transactie NIET frauduleus is (H2 is waar). We weten
dat maar 0,2% van alle transacties echt frauduleus is. Ook omdat we ervan uitgaan dat iets
onschuldig is tot de schuld is bewezen. Het is ook geen ramp als het systeem een fout maakt,
aangezien de meeste fraude achteraf nog uitkomt en nog kan recht worden gezet.
ZIE VB FAKE NEWS P. 54
➔ Wat leren we uit di voorbeeld?
Door te kijken naar waarschijnlijkheden kunnen we determineren of een groep (in dit geval
een bepaald woord) relevant is voor het onderzoek. Om een zo goed mogelijk resultaat te
bekomen, moet je zoeken naar de groepen waar de hoogste verschillen te zien zijn.
Er speelt zich ook een ander probleem af: namelijk de elementen kunnen met elkaar
interacten.
“Neglecting interaction effects, leads to wrong conclusions and this is something the Naive Bayes
method does not do automatically – it is the responsibility of the researcher to obtain the Likelihoods
of the relevant interaction effects.”
3
, Zero Probabilities: (p56)
Als we een artikel waar de woorden “Naive Bayes”, “Shocking” & “Horror” is voorkomen. Men kan er
vanuit gaan dat het om Fake News gaat, aangezien de woorden Shocking en Horror veel voorkomen
in Fake News artikelen. Maar in onze steekproef hebben we 0 artikelen tegengekomen waar het
woord “Naive Bayes” voorkwam in een Fake News. Dus de kans dat het woord “Naive Bayes”
voorkomt in een Fake News artikel is 0. Dit wilt zeggen dat als het woord “Naive Bayes” voorkomt in
een artikel dat het sowieso Real News is.
Uiteraard is de kans iets groter als 0. We gebruiken een integere waarde genaamd α ∈ N0. De
computer rekent de verschillende waarden uit als α 0 – 10 is. We kijken hier dus naar de sensitiviteit
en specificiteit.
Wet van de grote getallen: (p 58)
Voorbeeld van ziekenhuis:
Stad met 2 ziekenhuizen
Groot: gem 45 geboortes/dag
Klein: gem 15 geboortes/dag
Proportie geboortes jongens/meisjes: 50%
Welk ziekenhuis heeft meer dagen waarbij meer dan 60% vd geboortes jongens zijn.
a) Groot
b) Klein
c) Kan je niet weten
Oplossing: Zie spreadsheet
Logica: 2 sheets + simuleren 365 dagen dan zien hoeveel dagen er +60% jongen geboren zijn en die
optellen.
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
√ Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper VdpArne. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €10,99. Je zit daarna nergens aan vast.