Statistiek voor bedrijfswetenschappen (samenvatting/notities)
Statistics made easy ! ! ! Learn about the t-test, the chi square test, the p value and more - YouTube
(kijken voonr evt schema maken van de verschillende testen om te zien welke test voor welke date
gebruikt kan worden)
Hoofdstuk 2:
Waarschijnlijkheden:
Harold Jeffreys: mate waarin we vertrouwen hebben in een bepaalde uitspraak. (=subjectief)
“Jeffreys’ definition: Probability is the degree of confidence that we may reasonably have in a
proposition. This definition is quite vague but is used in Jeffrey’s axiom system. This enables us to
derive an axiomatic probability theory.” (p43)
De kans dat een ‘event’ zich voordoet ligt altijd tussen 0 en 1.
0 < P(Event1) < 1 met P = Probability = waarschijnlijkheid, kans
Dit leidt tot P (NotEvent) = 1 – P (Event)
➔ 60% kans dat het regent (= Event), dus kans dat het niet regent is 40% (100% - 60%).
Onderscheid tussen:
Doorsnede: ∩: Wat is de kans dat de zon schijnt EN het regent.
Unie: U: Regent OF de zon schijnt
2 waarschijnlijkheden:
P (C│x) = P(C) → de kans dat C (vb het regent) zich voordoet, rekening houdende met dat het weer
regen voorspelde (X).
Ander voorbeeld: C = slagen of niet slagen op het examen. (waarschijnlijkheid dat je slaagt)
X = of je studeert of niet
P (C│x) = P(C)? is de kans dat je slaagt voor het examen met studeren even groot als slagen voor het
examen zonder te studeren? --> in dit geval is dit dus niet gelijk! Stel het examen was een tombola
waarbij 50% vd studenten slaagt --> dan is dit wel gelijk.
P (C│x) = P(C) = een conditionele waarschijnlijkheid (hier kan je de nauwkeurigste info uit halen)
Waarschijnlijkheden optellen:
➔ Optellen: indien kans van A OF B (Unie)
➔ Vermenigvuldigen: indien kans van A EN B
1
,Bayes Theory: (p. 51)
𝑃(𝐴𝐵)
P (A│B) =
𝑃(𝐵)
𝑃(𝐵𝐴)
En P (A│B) = 𝑃(𝐴)
P(B|A)P(A)
P(A|B) = P(B)
“probability of A given B can be expressed as a function of the probability of B given A.”
De kans van A als B gegeven is kan ook uitgedrukt worden als de functie van de kans van B als A
gegeven is.
“P(H|D) ∝ P(D|H)P(H) where A has been replaced by H (Hypothesis) and B by D (observed Data).”
➔ Wat is de kans dat Hypothese (H) juist is, rekening houdende met de gegeven Data (D)
= Hoe waarschijnlijk dat de data juist is rekening houdende met de Hypothese (x P(H))
P(H1|D) P(D|H1) ∗ P(H1)
P(H2|D)
= P(D|H2) P(H2)
→ Dit is de theorie als je twee Hypotheses hebt
Voorbeeld: Je hebt 2 zakken met daarin gouden en zilveren mundstukken
Wat is de kans dat deze munt uit zak 1 of zak 2 komt?
Je weet dat als je 1 munt neemt (ongeacht goud of zilver) dat je 50% (1/2) kans hebt dat het uit zak 1
komt.
150 1
P(H1|D) P(D|H1) ∗ P(H1) (
200
)∗( )
2
P(H2|D)
= P(D|H2) P(H2)
= 100 1 = (9/4) Hier kan je zien dat de kans groter is dat het muntstuk uit
( )∗( )
300 2
zak 1 komt. Met dit getal kan je alleen zien of de kans groter is dat het uit zak 1 komt. Je kan niks
anders uit dit getal halen.
P(H1|D) = Goud = (9/(9+4))= 9/13 → Dit is de kans dat het gouden muntstuk uit Zak 1 komt
➔ P (NotEvent) = 1 – P (Event) => P(H1|D) = Zilver = 1 – (9/13)= 4/13 kans dat het gouden stuk
uit zak 2 komt
2
, = Of het negatief of positief is kan je zelf bepalen, deze staan dus niet perse vast!
= Wel vast, deze kan je niet van plaats veranderen (wat logisch is):
Als je H2 accepteert en H2 is juist = TRUE
Als je H2 weigert en H2 is juist = False
Dit gaat over de Specifiteit en sensetiviteit van je test = Hoe betrouwbaar is de test eigelijk.
P 52
“Bayes’ Theorem is closely related to the definitions of Sensitivity and Specificity, which can be
illustrated for the case of a binary classification problem.”
Vb. Een systeem dat fraude kan detecteren. Als H1 is juist, dan is de transactie frauduleus. Dus er
wordt een systeem gecreëerd om te helpen beslissen of een transactie frauduleus is of niet. De
standaardvoorspelling die we maken is dat de transactie NIET frauduleus is (H2 is waar). We weten
dat maar 0,2% van alle transacties echt frauduleus is. Ook omdat we ervan uitgaan dat iets
onschuldig is tot de schuld is bewezen. Het is ook geen ramp als het systeem een fout maakt,
aangezien de meeste fraude achteraf nog uitkomt en nog kan recht worden gezet.
ZIE VB FAKE NEWS P. 54
➔ Wat leren we uit di voorbeeld?
Door te kijken naar waarschijnlijkheden kunnen we determineren of een groep (in dit geval
een bepaald woord) relevant is voor het onderzoek. Om een zo goed mogelijk resultaat te
bekomen, moet je zoeken naar de groepen waar de hoogste verschillen te zien zijn.
Er speelt zich ook een ander probleem af: namelijk de elementen kunnen met elkaar
interacten.
“Neglecting interaction effects, leads to wrong conclusions and this is something the Naive Bayes
method does not do automatically – it is the responsibility of the researcher to obtain the Likelihoods
of the relevant interaction effects.”
3
, Zero Probabilities: (p56)
Als we een artikel waar de woorden “Naive Bayes”, “Shocking” & “Horror” is voorkomen. Men kan er
vanuit gaan dat het om Fake News gaat, aangezien de woorden Shocking en Horror veel voorkomen
in Fake News artikelen. Maar in onze steekproef hebben we 0 artikelen tegengekomen waar het
woord “Naive Bayes” voorkwam in een Fake News. Dus de kans dat het woord “Naive Bayes”
voorkomt in een Fake News artikel is 0. Dit wilt zeggen dat als het woord “Naive Bayes” voorkomt in
een artikel dat het sowieso Real News is.
Uiteraard is de kans iets groter als 0. We gebruiken een integere waarde genaamd α ∈ N0. De
computer rekent de verschillende waarden uit als α 0 – 10 is. We kijken hier dus naar de sensitiviteit
en specificiteit.
Wet van de grote getallen: (p 58)
Voorbeeld van ziekenhuis:
Stad met 2 ziekenhuizen
Groot: gem 45 geboortes/dag
Klein: gem 15 geboortes/dag
Proportie geboortes jongens/meisjes: 50%
Welk ziekenhuis heeft meer dagen waarbij meer dan 60% vd geboortes jongens zijn.
a) Groot
b) Klein
c) Kan je niet weten
Oplossing: Zie spreadsheet
Logica: 2 sheets + simuleren 365 dagen dan zien hoeveel dagen er +60% jongen geboren zijn en die
optellen.
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller VdpArne. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $11.68. You're not tied to anything after your purchase.