Statistiek voor psychologen deel 2 uitgeschreven in een overzichtelijk bestand vol uitleg tot en met het voorlaatste deel "parameterschatting" ("hypothesetoetsing" niet samengevat).
STATISTIEK VOOR PSYCHOLOGEN DEEL 2
Inductieve statistiek: inferenties maken vanuit de gegevens (de steekproef) over eigenschappen van een populatie.
Het inductieve statistische proces bestaat uit de volgende 5 stappen:
1) STATISTISCH MODEL KIEZEN
2) KEUZE VAN (EEN) STATISTIEK(EN)
3) BEPALEN VD STEEKPROEVENVERDELING VD STATISTIEK(EN)
4) PARAMETERSCHATTING
of
5) HYPOTHESETOETSING
1) STATISTISCH MODEL KIEZEN
Eenvoudige modellen:
• Voor 1 discrete variabele:
BERNOULLI model
(Bernoulli-)toevalsvariabele X met twee mogelijke uitkomsten:
X (succes) = 1
X (mislukking) = 0
X ~ Bern (θ) (0 < θ < 1) θ = P(succes) in 1 TE
πx (1) = P(X=1) = θ ja / succes
πx (0) = P(X=0) =1– θ nee / mislukking
µx = θ en σx² = θ(1– θ) = θ – θ²
Bij n herhalingen van een Bernoulli-experiment: Xi iid (independent and identically distributed)
Bij de veronderstelling ∀ Xi’s ~ Bern(θ) geldt:
(1) eenzelfde waarde voor θ (stationariteit) → θ = P(succes) is constant
(2) en alle Xi’s zijn mutueel statistisch onafhankelijk
BINOMIAAL model
Toevalsvariabele Y:
# successen
in n beurten (Bern-exp)
discrete variabele
Y ~ Bin ( n , θ) (n ∈ N, n ≥ 1; θ ∈ ]0,1[ ) n = aantal beurten θ = P(succes) in 1 TE n ≥ 1
GEOMETRISCH model
Toevalsvariabele Z:
wachttijd tot (het eerste) succes
in n beurten/dagen (uitgedrukt)
discrete variabele
Z ~ Geo (θ) ( 0 < θ < 1) θ = P(succes) per beurt/dag
πz (k) = P(Z=k) = (1–θ)k–1 θ met k = 1,2,3,… k ≥ 1
1 1−𝜃
µz = en σz² =
𝜃 𝜃2
Indien # beurten t.e.m. rde (bv. 2de, 3de, 4de,…) succes = Y dan:
𝑟
Y = X1 + … + Xr met Xi ~ Geo(θ) , µy = en σy² = r σx²
𝜃
POISSON model (Siméon Denis Poisson)
Toevalsvariabele X:
# successen
in een continu medium (bv. tijdspanne, oppervlakte,…)
discrete variabele + als benadering van Bin( n, θ ) wanneer n > 30 en θ heel klein
X ~ Poisson (λ) (λ > 0) λ = (verwacht) # succes per tijds- of ruimte-interval
𝜆𝑘
πx (k) = P(X=k) = ⅇ−𝜆
𝑘!
µx = λ en σx² = λ λ = nθ
,• Voor 1 continue variabele:
UNIFORM model
Toevalsvariabele X is uniform verdeeld op [ a , b ] met a , b ∈ ℝ en a < b als elke waarde van X binnen interval [ a , b ] een
gelijke kans heeft om voor te komen:
ϕX
X ~ U ( a , b) (a , b ∈ ℝ ; a < b)
1
ϕX (x) = voor a x b
𝑏−𝑎
0 anders
𝑎+𝑏 (𝑎−𝑏)2
µX = en σX² =
2 12
𝑑−𝑐
als X ~ U ( a , b) en [ c , d ] [ a , b ] dan P(c x d) =
𝑏−𝑎
NORMAAL model (meest gebruikt)
Toevalsvariabele X is normaal verdeeld:
X ~ N ( µ , σ²) (σ > 0) (x ∈ ℝ)
1 1 𝑥−𝜇 2
𝑒 – 2( )
ϕX (x) = P(X=x) = 𝜎
√2π
µx = µ en σx² = σ2
! Bijzonder lid van deze familie:
STANDAARDNORMAAL model
Y ~ N ( 0 , 1)
µx = 0 en σx² = 1
Y(yi) = P(Y yi)
• P( a < X < b | X ~ N (µ, σ²)) = P( ζx(a) < ζx < ζx(b) ) = [ (ζx(b)) – (ζx(a)) ] → tabellenboekje
• P( X < a) = 0.90 (X = a) = 0.90 a = X.90 = .90-kwantiel van stand.norm.verd Z-score van a
Lineaire transformatie:
Als Y= aX + b , dan Y ~ N ( aµ + b , a² σ²) als X norm.verd., dan lineaire transformatie Y ook norm.verd.
1 −𝜇𝑥
a= ; b= x = Z–1(z) = µx + zσx
𝜎𝑥 𝜎𝑥
EXPONENTIEEL model
Toevalsvariabele T:
wachttijd (in intervaleenheden) tot (het eerste) succes
in een continu medium
continue variabele
T ~ Expon (λ) λ = (verwacht) # succes per eenheid
ϕT (t) = λ * e–λt als t ≥ 0
0 als t < 0
1 1 𝟏
µT = en σT² = 2 µ = gem wachttijd tot 1ste succes σT = = µT
𝜆 𝜆 𝝀
T (t) = P(T t) = 1 – e–λt als t ≥ 0 ea = 0.5 a = ln (0.5)
0 als t < 0
# successen wachttijd tot 1ste succes
discreet medium Bin(dTV) Geo(dTV)
(quasi-)continu medium Poisson(dTV) Expon(cTV)
,• Voor meerdere variabelen: Notaties:
2 toevalsvariabelen X en Y → bivariate gegevens: X ~ Bin(n, θ1) , Y ~ Bin(n, θ2)
→ Mogelijkheden: X ~ Geo(θ1) , Y ~ Geo(θ2)
o X en Y discreet
X ~ Poisson(λ1) , Y ~ Poisson(λ2)
o X en Y continu
X ~ U(a, b) , Y ~ U(c, d)
o (X discreet en Y continu)
T ~ Expon(λ1) , W ~ Expon(λ2)
→ Statistisch model:
X ~ N( µ1 , σ²1), Y ~ N( µ2 , σ²2)
o Discreet:
πX,Y (x, y) = P ( { | (X,Y)() = (x, y) } ) = gezamenlijke kansmassafunctie
o Continu:
ϕX,Y (x, y) = P ( a x b en c x d ) = gezamenlijke dichtheidsfunctie
→ Soms beperkt men zich tot het formuleren van een conditioneel model:
o Discreet:
πX,Y (x, y) = π X| Y= yj (x) * πY (yj) = π Y| X= xj (y) * πX (xj) = conditionele kansmassafunctie
o Continu:
ϕX,Y (x, y) = ϕX| Y= yj (x) * ϕY (yj) =ϕY| X= xj (y) * ϕX (xj) = conditionele dichtheidsfunctie
→ Bijzonder geval: Als X en Y statistisch onafhankelijk:
o Discreet:
πX,Y (x, y) = π X (x) * πY (y)
o Continu:
ϕX,Y (x, y) = ϕX (x) * ϕY (y)
o Cumulatieve verdelingsfunctie:
X,Y (x, y) = P ( { | X() x en Y() y } )
X,Y (x, y) = X (xj) * Y (yj ’)
→ Dus twee opties:
o Een onafhankelijk bivariaat normaalmodel:
−1
1 (𝜁𝑥 )2
ϕX (x) = ⋅𝑒 2 onafhankelijk
√2𝜋⋅𝜎
−1 2
1 (𝜁𝑦 )
ϕY (y) = ⋅𝑒 2
√2𝜋⋅𝜎
met X ~ N (µ1, σ²1) en Y ~ N (µ2, σ²2) en X, Y onafhankelijk
o Een afhankelijk bivariaat normaalmodel:
Hierbij is de correlatie niet 0 ( XY 0 )
−1 2𝜌∙(𝑥−µ1 )∙(𝑦−µ2 )
1 [(𝜁𝑥 )2 +(𝜁𝑦 )2 − ]
ϕX,Y (x, y) = 2⋅𝜋∙𝜎 2)
⋅𝑒 2(1−𝜌)2 𝜎1 ∙𝜎2
1 ∙𝜎2 (1−𝜌
Hierbij is de correlatie XY
Men kan dit noteren als: (X, Y) ~ N ( µ1, µ2 ; σ²1 , σ²2 , ) ! andere notatie
De conditionele verdeling van Y hangt af van X
afhankelijk
, Complexe modellen:
• MENGSEL modellen:
o Totale populatie = som van meerdere deelpopulaties m.b.t. 1 variabele (niet bivariaat!!)
o 3 criteria:
1. Onderzoekseenheden behoren tot verschillende deelpopulaties
2. Geen kennis over wie tot welke groep behoort (latent lidmaatschap)
3. Subpopulaties vertonen geen overlap
o πX (x) of ϕX (x) voor totale groep = optelling deelgroepen
MAAR: Gewichten toekennen!
▪ Naargelang de grootte van de deelgroepen
▪ Die grootte duiden we aan met de parameters λ en λ’
met λ + λ’ = 1
Bv: Bij normaalverdeling:
o Als λ = 0 dan wordt dit een gewoon normaalmodel
Dus: de familie van de normaalmodellen is een deelfamilie van een mengselmodel waarvan de componentmodellen
normaal verdeeld zijn.
Gewoon model mengselmodel
o Men kan ook meer dan twee componentmodellen hebben
Bv: πX = λ1 π X (1) + λ2 π X (2) + (1 – λ1 – λ2) π X (3)
o Men kan ook mengselmodellen hebben met meerdere variabelen (= multivariate mengselmodellen)
Bv: πX,Y = λ1 π X,Y (1) + λ2 π X,Y (2) + (1 – λ1 – λ2) π X,Y (3)
• REGRESSIE modellen:
Enkelvoudig lineair regressiemodel:
o Twee toevalsvariabelen X en Y met een correlatie ertussen
Bivariate gegevens: (x1, y1) , (x2, y2) , … , (xn, yn)
Bv: X: hoe frustrerend een situatie is voor ons individu
Y: de mate van agressie in de situatie van ons individu
o We kunnen (y1, y2, …, yn) opvatten als realisaties van de statistisch onafhankelijke toevalsvariabelen Y 1, Y2, …, Yn
o Maar we nemen niet aan dat deze toevalsvariabelen identiek verdeeld zijn
ϕY1 (1) ϕY2 (1) … ϕYn (1) want plausibel dat hoe frustrerender situatie, hoe meer agressief gedrag
o Er is een correlatie XY tussen X en Y X = predictor ; Y = criterium
Als XY positief : de verwachte waarde van Yi is groter naarmate x i groter is
Als XY negatief : de verwachte waarde van Yi is kleiner naarmate x i groter is (of omgekeerd)
o In het geval van positieve correlatie: 𝑌|𝑋=𝑥𝑗 ~ 𝑁 (𝛽0 + 𝛽1 𝑥𝑗 , 𝜎 2 )
−1 ( 𝑦 − 𝛽0 + 𝛽1 𝑥𝑗 ) 2
1 [ ]
met ϕY|X = xj (y) = ⋅𝑒 2 𝜎
√2𝜋 𝜎
3 parameters: 0 , 1 , = conditioneel model van het criterium, gegeven een bepaalde predictor-waarde ;
doet enkel uitspraken over conditionele verdeling YX, niet over bivariate verdeling!!
Andere notatie: Yi = 0 + 1 x i + E i met E i iid ~ N ( 0, 2 )
0 = intercept = snijpunt met de y-as = basisniveau van Y
1 = richtingscoëfficiënt = stijging in Yi per eenheid omhoog in X i = “gevoeligheid”
E i’s = (niet rechtstreeks geobserveerde) foutenvariabelen
= stukje Yi dat je niet kan modelleren als je X i kent
= mate waarin Y fluctueert ten gevolge van toevalsfactoren
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller evadecorte. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $3.24. You're not tied to anything after your purchase.