Samenvatting Statistiek bachelor 2 of Schakelajaar
36 views 2 purchases
Course
Statistiek voor bedrijfswetenschappen 2
Institution
Katholieke Universiteit Leuven (KU Leuven)
Dit document bevat alle informatie uit de les. Het geeft elke illustratie en oefening duidelijk weer dat we in de les hebben gezien. Zelf had ik een samenvatting aangekocht, maar bleek niet in detail uitgelegd vanwaar alle cijfers kwamen... ik maak dit wel heel duidelijk in deze samenvatting! (ps: ...
U moet in staat zijn om alle voorbeelden te kunnen reproduceren.
Cursus schrijf: foto van de histogram met deze data => je kan het nalezen dan, maar dat wilt
niet zeggen dat je dan exact dezelfde histogram kan maken.
Voorbeeld:
Links: univariate dataset
C => bedrijf dat ik opstart is C.
P => waarschijnlijkheid dat het bedrijf succesvol is.(gaat laag getal zijn tussen 0 en 1, dus dicht bij 0)
Je hebt een teller en een noemer (een breuk!) in de teller staat dat X en C allebei voorkomen (slagen
+ goede partner) delen door een goede partner (gaat ENKEL als de noemer niet gelijk is aan 0)
/ => gegeven dat. De conditionele waarschijnlijkheid dat mijn bedrijf succesvol is, gegeven dat de
partner waarmee ik werk nog nooit een bedrijf heeft gerund, gaat die conditionele waarschijnlijkheid
er niks aan veranderen.
Waarschijnlijkheid? => zinloos als je niet weet of je spreekt over een gewone, conditionele
waarschijnlijkheid.. de informatie dat je krijgt heeft op een gegeven moment wel heel veel van
belang.
1
Maxine Vermeiren 2024
,De definitie van conditionele => kans dat ze allebei voorkomen/ kans van wat na het streepje komt..
Wat gebeurt er de waarschijnlijkheid van B(ervaren partner) gegeven A (slagen van bedrijf), wat is
dan de kans als je uw bedrijf verkoopt, wat is de kans dan dat uw business angel heeft gezorgd dat je
zoveel succes hebt gehad.. P(B/A) = P(BA)/P(A) => condtionele waarschijnlijkheden kunt herschrijven
en kunnen zorgen dat alles wat voor het streepje staat kan gewisseld worden met na het streepje.
Manier 2:
Vis teken => linker en rechter deel zijn aan elkaar proportioneel.
H => wat ik wil onderzoeken, hypothese
D => gegevens dat je hebt onderzocht
=>De kans dat de hypothese waar is, gegeven dat je bepaalde gegevens hebt onderzocht,
proportioneel met de kans dat ik de data observeer, indien de hypothese waarschijnlijkheid is *
waarschijnlijkheid dat de hypothese waar is.
Data is altijd hetzelfde, maar de hypothese is altijd verschillend… we gaan de 2 proporties opschrijven
en gaan we deze door elkaar delen.
likelyhood / prirehood
Voorbeeld
2 zakken (goud of zilver), de eerste zak noemen we hypothese 1 en tweede zak is hypothese 2.. zak 1
150 goud en 50 zilver, zak 2 is 100 goud, 200 zilver..
Wat is de kans als we goud trekken dat deze in zak 1 zit? =>
(eerste deel likehood, tweede deel prior want 50%)
2
Maxine Vermeiren 2024
,9+4 => 13+ (teller delen door de som)
Voorbeeld 2 (BINAIR!!) (boek puntje 7. Sensitivity and specificity)
2hypothese (terwijl 1 hypothese waar of terwijl de andere waar)
We hopen dat de percentages van sensitivity en specificity hoog zijn.
Stel u voor dat het systeem 99% sensitivity en specificity heeft, maar de prevalency is 0.2% (fraude).
Wat is de kans dat het werkelijk fraude is als het model zegt dat het positief is (fraude dus)
3
Maxine Vermeiren 2024
,Voorbeeld 3:
We kunnen shocking and royal family na kijken of dit correct is of niet in een fake artikel..
0 prohabiliteit => we gaan bij alle getallen iets bij tellen (heel klein, NOOIT met 0 vermenigvuldigen)
=> NAIVE BAYES
Wet van de grote getallen
Berekening willen maken, schatting van de waarschijnlijkheid ZONDER een theorie. Dan gaan
we dit simuleren.. dus naarmate je meer simulaties doet, gaat je waarschijnlijkheid vergroten
MAAR deze gaat niet zeggen hoe vaak je de waarschijnlijkheid moet uitvoeren.
4
Maxine Vermeiren 2024
,LES 2
Hoofdstuk 2: descriptive statiscs & exploratory data
Bernoulli distribution (binaire variabele) (11boek)
Kans dat (X=1)P
Kans dat het niet waar is 1-Q = P
Voorbeeld
1 geboorte 50% voor jongen, 50% voor een meisje. Er zijn twee statussen..
Variantie (p*q) => kans succes * kans falen
Binomial distribution (12 boek)
Je kan 3 verschillende kansen uitrekenen.
Voorbeeld (jongen x meisje)
In het grote ziekenhuis heb je gemiddeld 45 geboortes per dag.
Prohability to succes => 0.5
Evaluated => 27 => 60% van de 45
5
Maxine Vermeiren 2024
, 6.7% => is de kans!
Uniform distribution(14)
De dichtheidsfunctie begint bij een ONDERGRENS(3) en eindigt bij een BOVENGRENS(6) en is
HORIZONTAAL. ALLE getallen tussen 3 en 6 zijn EVEN waarschijnlijk.
Uniform distribution (cumulutatieve) => STIJGENDE LIJN!
- Skewenss => ALTIJD 0
- Kurtosis => gepiektheid? => DEF? => Het heeft te maken met de staarten van de
dichtheidsfunctie! Hoe dik zijn de staarten van de verdeling? Veel interessanter dan het
midden.
o Hoe groter de kurtoisis, hoe groter de kans dat je extreme waarden hebt en
dus grotere staarten.
o Dikte staarten ALTIJD 9/5
▪ Groter? Bepaalde waarden meer waarschijnlijk kunnen voorkomen.
Normal distribution (15)
Gaussian distributution
top => 5 breedte = 2
6
Maxine Vermeiren 2024
,Expected value => MU => voorspelling te maken => mu gebruiken als predicitie
Variance => sigma kwadradat
Standaardeviantie => sigma => de onzekerheid => de breedte => hoe zeker/onzeker ben je over de
predictie mu.
Goeie benadering? => Ik ben er zeker van dat er geen andere betere bestaat. DUS JA
Mean => 2.55
Sd => 0.37
Hier is het antwoord NEE => geen goeie benadering voor een voorspelling!
7
Maxine Vermeiren 2024
,Voorbeeld
Bepaalde eigenschappen:
1) Normaal verdeling en optelt bij een andere => normaalverdeling van de som
2) XI(normaalverdeling) N => N normaalverdelingen => de som van de kwadraten van de
normaalverdeling is een CHI kwadraten.
a.
3) …. (15…. Alle eigenschappen)
Gaussian naive bayes classifier (16)
Voorbeeld:
Sommige hebben diabetes (binaire) en sommige hebben geen diabetes.
- Type (1 of 0) => endogene variabele
- Npreg+ glu + bp => 3 ziektes
- Classes => 1 of 0
- Samples => aantal observaties in de dataset (aantal patiënten!) AANTAL RIJEN!!!!
- Features => 3 (3 verklarende factoren)
- Gaussian => 3 (we veronderstellen dat bloeddruk, aantal zwangerschappen en glucose
normaal verdeeld zijn.
- Prior => No or YES
8
Maxine Vermeiren 2024
,Gemiddelde, verwachte waarde bij rood is lager dan bij groen
Hoe GROTER het verschil, hoe BETER de voorspellende waarde is van de variabele dat we bekijken!
Hoe voorspellend is die variabele! De stelling van bays zegt de waarschijnlijkheid dat je diabetes hebt
gegeven dat je aantal zwangerschappen hebt gehad… HORIZONTAAL VER UIT ELKAAR => hoge
betrouwbaarheid.
ROOD = gemiddelde 3
GROEN = gemiddelde 5
Hoe meer het verschil is, hoe beter!
Geval 1 =>3% => TRUE NEGATIVE
Geval 2 => 97% => prediction Yes actual NO
Chi distribution(17)
=>gaan we NIET gebruiken in de oefeningen, maar we gaan wel de CHI KWADRAAT GEBRUIKEN
Chi squared distribution (18)
- Gaat NIET onder 0!!!!!
9
Maxine Vermeiren 2024
, Df => 10 => 10 is het aantal termen dat we gebruikt hebben in de som. 10 normaalverdelingen!
Df => 20 => Gaat MINDER scheef worden. => meer neigen naar een normaalverdeling
Skweness/kurtosis => hangen vast aan N (zie formules)
Voorbeeld
Echtscheidingen! => parameter 3.46 dat je tussen de 3 a 4 nodig hebt,maar je ziet aan deze curve
dat dit niet klopt!
=> kan nooit juiste benadering zijn, want CHI heeft maar 1 bult (hier 2)
Verhoudingen van 2 chi kwadraten is een F verhouding (gewoon weten dat het F is )
10
Maxine Vermeiren 2024
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller StudentHW2003. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $7.61. You're not tied to anything after your purchase.