Lecture 02: Probability & Discrete Distributions [Week 6]
All for this textbook (6)
Written for
Vrije Universiteit Amsterdam (VU)
Economie en Bedrijfseconomie
Quantitative Research Methods II
All documents for this subject (1)
9
reviews
By: sahilkhan- • 2 year ago
By: s00vu00 • 4 year ago
By: semwierdsma • 4 year ago
By: yilmazselcuk84 • 5 year ago
By: ninac330 • 5 year ago
By: tomevers1999 • 6 year ago
By: kingg-arthurr • 6 year ago
Show more reviews
Seller
Follow
joeyyvdB123
Reviews received
Content preview
Quantitative Research Methods II
Data
Statistiek is de studie van het verzamelen, analyseren, interpreteren, presenteren en
organiseren van gegevens. Data zijn geobserveerde feiten.
De rol van data:
- Het suggereren van theorieën (pizza’s met een hoge prijs zijn minder populair).
- Het testen van hypotheses
of beweringen (adverteren
verhoogt de verkopen).
Data in een matrix:
Binnen een matrix staan de
variabelen (variables) bij de
kolommen en het geval waar het
om gaat in de rijen (subjects/cases).
Binnen de cellen staan de
geobserveerde feiten. Er kan veel
informatie uit een matrix worden
gehaald. Zo kan er op basis van één
variabele al iets kunnen worden
geconcludeerd. Ook kunnen verschillende variabelen met elkaar worden vergeleken.
Eén variabele De gemiddelde leeftijd.
Twee variabalen De correlatie tussen de leeftijd en lengte.
Types data:
- Scale In woorden (categorical) of in cijfers (numerical).
- Countability Hele getallen (discrete) of kommagetallen (continuous).
- Range Oneindig (infinite) of begrensd (restricted).
- Coding Nominale of ordinale categorieën in cijfers vervangen.
- Recoding Het groeperen van categoriale of numerieke data.
Dummy 0 (nee) of 1 (ja).
Enige valkuilen:
- Er wordt data gemist.
- Dat gecodeerde categorieën als nummers worden behandeld.
- Data moet in de juiste unit worden genoteerd.
,Het verkrijgen van gegevens:
- Typen uit boeken
- Downloaden van online databases of algemene webpagina’s.
- Informatie uit al uitgevoerde onderzoeken.
- Zelf onderzoeken doen door middel van interviews, experimenten of observaties.
Meetniveaus:
- Ordinaal Hier is sprake van specifieke ordening tussen zaken. Denk hierbij aan
groot, groter en het grootst.
- Nominaal Onderscheid maken tussen zaken. Namen zijn voorbeelden hiervan. Er
is geen specifieke ordening van zaken.
- Interval Waarde kan geen 0 zijn.
- Ratio Waarde kan wel 0 zijn.
Data summaries
Er zijn twee soorten samenvattingen:
- Graphical summaries.
- Statistical summaries.
Numerical (Graphical summaries) Scatterplot.
Numerieke data (Statistical summaries) Mediaan, modus, gemiddelde, variantie,
standaardafwijking, minimum, maximum, range en skewness.
Numerieke data (box plot) Minimum, eerste kwartiel (𝑄1 ), mediaan, derde kwartiel (𝑄3 )
en maximum.
Numerieke data (histogram) Frequentieverdeling.
Categorische data (Graphical summaries) Cirkeldiagram of staafdiagram.
Categorische data (Statistical summaries) Frequenties, proporties of percentages.
Numerieke data (centrality):
1 𝑛
Gemiddelde 𝑥̅ = ∑ 𝑥
𝑛 𝑖=1 𝑖
𝑀𝑖𝑛𝑖𝑚𝑢𝑚+𝑚𝑎𝑥𝑖𝑚𝑢𝑚
Midrange
2
Range 𝑀𝑎𝑥𝑖𝑚𝑢𝑚 − 𝑀𝑖𝑛𝑖𝑚𝑢𝑚
Median Middelste getal.
Mode Meest voorkomend getal.
Geomatric mean De wortel van het product van de n aantal termen.
k% trimmed mean Gemiddelde waar k% van de hoogste en laagste waarnemingen wordt
weggelaten.
,Numerieke data (dispersion):
1
Variance 𝑠 2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛−1
Standard deviation 𝑠 = √𝑠 2
Interquartile range 𝐼𝑄𝑅 = 𝑄3 − 𝑄1
𝑠
Coefficient of variation 𝐶𝑉 = 𝑥̅
1
Standard deviation data as sample √𝑛−1 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
1
Standard deviation population as sample √𝑛 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
Numerieke data (shape):
Skewness Meetstaaf die de asymmetrie berekend.
1 x −x̅
Formule voor het berekenen van de skewness 𝑀3 ≈ 𝑛 ∑𝑛𝑖=1 ( is )3
x
Kurtosis Meetstaaf die de mate van vlakte berekend
1 x −x̅
Formule voor het berekenen van de kurtosis 𝑀4 ≈ 𝑛 ∑𝑛𝑖=1 ( is )4 − 3
x
Verschillende datatypes:
- Twee numerieke data vectoren Scatterplot, correlatie analyse.
- Eén numerieke data vector en één categoriale data vector.
- Twee categoriale data vectoren.
Samenvatting hangt af van verschillende factoren:
- Aard van de variabelen numerical vs categorical, numerical: dicrete vs continuous
of categorical: binary or not.
- Aantal variabelen Univariate, bivariate of multivariate.
- Range van de data/aantal categorieën.
- Niveau van detail en nauwkeurigheid.
- Publiek.
Risico van het samenvatten van data is dat je informatie kan verliezen.
, Basic probability
Data as a random sample Gegevens worden willekeurig uit de populatie verkregen.
1
Coin: 𝑃(ℎ𝑒𝑎𝑑𝑠) = 2
1
Die: 𝑃(𝑜𝑢𝑡𝑐𝑜𝑚𝑒 = 3) = 6
Types kansverdeling:
- Classical theory Wat is de kans dat ik vijf gooi met een dobbelsteen?
- Empirical Zelf onderzoek doen naar de kans van een bepaalde gebeurtenis aan de
hand van observaties.
- Subjective Wat is de kans dat Nederland wereldkampioen wordt?
𝑃(𝐴) Kans op specifieke gebeurtenis A.
𝑃(𝐵) Kans op specifieke gebeurtenis B.
′
𝑃(𝐴⋃𝐵) A of B of allebei.
𝑃(𝐴 ∩ 𝐵) Zowel A als B.
𝑃(𝐴′ ) = 1 − 𝑃(𝐴) Complement van A.
𝑃(𝐵 ′ ) = 1 − 𝑃(𝐵) Complement van B.
Cumulative distribution function: 𝐹𝑥 (𝑥) = 𝑃(𝑋 < 𝑥) = 𝐹(𝑥) = ∑𝑥𝑘=−∞ 𝑃(𝑋 = 𝑘)
Experiment met het gooien van een dobbelsteen:
1 1
𝑃(𝑋 = 2) = 6 𝑒𝑛 𝐹𝑥 (2) = 𝑃(𝑋 = 2) + 𝑃(𝑋 = 1) = 3
Expected value: 𝐸(𝑋) = ∑𝑛𝑖=1 𝑥𝑖 𝑃(𝑋 = 𝑥𝑖 )
,Bernoulli distribution:
Er is of succes of er is geen succes. Succes wordt genoteerd als 𝑃(𝑋 = 1) en geen succes
wordt genoteerd als 𝑃(𝑋 = 0).
X is aantal keren succes binnen een experiment. De kans van dat succes wordt bij de
Bernoulli distribution genoteerd als 𝜋 (0 < 𝜋 < 1).
𝑃(𝑋 = 1) = 𝜋
𝑃(𝑋 = 0) = 1 − 𝜋
𝑿~𝑩𝒆𝒓𝒏𝒐𝒖𝒍𝒍𝒊(𝝅) Bernoulli distribution met parameter 𝜋.
𝑬(𝑿) = 𝜋
𝑽𝒂𝒓(𝑿) = 𝜋(1 − 𝜋)
𝝈𝒙 = √𝜋(1 − 𝜋)
𝜋 𝑖𝑓 𝑥 = 1
𝑷𝑫𝑭: 𝑃(𝑥; 𝜋) = {
1−𝜋 𝑖𝑓 𝑥 = 0
Binomial distribution:
Y is aantal keren succes. De kans van dat succes wordt bij de Bionomial distribution
genoteerd als 𝜋 (0 < 𝜋 < 1).
𝑿~𝑩𝒊𝒏𝒐𝒎𝒊𝒂𝒍(𝒏, 𝝅) Binomial distribution met parameters n en 𝜋.
𝑬(𝑿) = 𝑛𝜋
𝑽𝒂𝒓(𝑿) = 𝑛𝜋(1 − 𝜋)
𝝈𝒙 = √𝑛𝜋(1 − 𝜋)
𝑷𝑫𝑭: 𝑃(𝑥; 𝑛; 𝜋) = (𝑛𝑥) ∗ 𝜋 𝑥 (1 − 𝜋)𝑛−𝑥
𝑪𝑫𝑭: 𝐹(𝑥; 𝑛; 𝜋) = ∑𝑥𝑘=0 𝑃(𝑥; 𝑛; 𝜋)
X is aantal gebeurtenissen in een tijd interval.
Eén parameter λ gemiddeld aantal gebeurtenissen tijdens een bepaald interval.
Als n > 20 is en 𝜋 ≤ 0,05 Gebruik Poisson verdeling.
𝑿~𝑷𝒐𝒊𝒔𝒔𝒐𝒏(𝝀) Poisson distribution met parameter λ.
𝑬(𝑿) = 𝜆
𝑽𝒂𝒓(𝑿) = 𝜆
𝜆𝑥 𝑒 −𝜆
𝑷𝑫𝑭: 𝑃(𝑋 = 𝑥; 𝜆) = 𝑥!
𝑥 𝜆𝑘 𝑒 −𝜆
𝑪𝑫𝑭: 𝐹(𝑥; 𝜆) = ∑𝑘=0 𝑃(𝑘; 𝜆) = ∑𝑥𝑘=0 𝑘!
,Hypergeometric distribution:
De hypergeometric distribution is erg vergelijkbaar met de binomial distribution. Alleen is er
bij deze verdeling sprake van zonder terugleggen.
𝑛
𝑁
≤ 0,05 Dan is deze verdeling OK.
𝑿~𝑯𝒚𝒑(𝒏, 𝑺, 𝑵) Hypergeometric distribution met parameters n, S en N.
𝑬(𝑿) = 𝑛𝜋
𝑁−𝑛
𝑽𝒂𝒓(𝑿) = 𝑛𝜋(1 − 𝜋) 𝑁−1
(𝑆 𝑁−𝑆
𝑥)( 𝑛−𝑥 )
𝑷𝑫𝑭: 𝑃(𝑋 = 𝑥) =
(𝑁
𝑛)
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller joeyyvdB123. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $5.94. You're not tied to anything after your purchase.