[( ) ( ) ]
n (Hoe toetsstatistiek varieert v steekproef tot steekpr.)
STATISTISCHE MODELLERING x−m1 2
y−m 2 2
1
(yest yi )2
1
x
− + 2
1 2 s1 s2 sy x = xi = 1 0 x 1
1. Eenvoudige modellen e n i1 i
2 ps1 s 2 x = opp onder =1 0<
1 discrete variabele 2. Complexe modellen
opm: |Ei|= absolute voorsp-fout |Ei|² = (yiest-yi)²
opm: b0 en b1 schatt. v β0 en β1 b0=β0 en b1=β1 x = P(T t)=x of x
opp onder grafiek v 0 tot t
X ~ Bern () 0<<1 Mengselmodellen (Dmv SPV kan men kans op voorkome v gevonde waarde stat T bep)
opm: Maar nog geen schatter (σ²) voor σ²
x(1) = P (X=1) = (succes) Som v meerdere modellen. Populatie opsplitsen III. Maximum likelihood methode dus: x*.05= a x(a)=.05 = p(X a)
x(0) = P (X=0) = 1- (geen succes) in deelpopulaties ((λ+1-λ)=1): Pm schatten zodat dat liklihood (L) v gegevens
µx = πx(x) = λπx(1) + (1-λ)πx(2) max. is: L=P(X=k| mp) I. Enumeratieve methode
φx(x) = λφx(1) + (1-λ)φx(2) Hoe? (L voor mogelijke pm-waarden berekenen. ~Alle mogelijke SP’en v omvang n
x² = (1-) = - 2
Uitgebreider, bv: (hoogste L is die waarvoor pm=X)) ~prop-functie v stat T bepalen (=kansfunctie v T)
Assumptie : iid + stationariteit
πx(x) = λ1πx(1) + λ2πx(2)+ (1-λ1- λ2) πx(3) Als X’en onafhankelijk zijn ~enkel mogelijk bij discrete TV’en.
φx,y(x,y) = λ1φx,y(1) + λ2φx,y(2)+ (1-λ1- λ2) φx,y(3) Discrete TV: L is gebaseerd op πx ~enkel mogelijk bij kleine n
Y ~ Bin (n, ) (TB. Pg7-11) n ≥ 1, k ≥ 0 - geordende SP (…) v n el MTL trekken uit
Y = totaal # successen in n beurten - L(X1, X2, Xn| modelparameter)
bv. 2 componentenmodellen: verz populatie v N el kan op Nn manieren
= kans op succes = π(X1|mp)* π(X2|mp)*… π: 0≤L≤1 - geordende SP v n el. ZTL trekken uit verz v N
X~ λN(μ1,σ21) + (1-λ)N(μ2,σ22)
n= # beurten (≠ steekproefgrootte) Continu TV: L is gebaseerd op φx φ: L ≥ 0 el kan op N! / (N-n)! manieren
( ) +( 1−λ )
2
1 x−μ 1
( )
2
1 x−μ2
− −
y(k) = P(Y=k) = (nk) k (1-)n-k(nk) = n!/[k!(n-k)!] 1 2 σ1 1 2 σ2 - L(X1, X2, Xn| modelparameter) - ongeordende SP {…} v. n el. MTL (op ZTW)
φ x ( x )=λ e e
µy = n (Bern() = Bin(1,)) √2 π σ 1 √2 π σ 2 = φ(X1|mp)* φ(X2|mp)*… trekken uit verz v N el geen formule!
Opm1: duidt familie v modellen aan ~Zelfde regels voor kans als liklihood - ongeordende SP van n el ZTL trekken uit verz v
y² = n(1-)
Opm2: Als =0 dan wordt model normaal model ~Als L na veel vermenigvuldigen te klein wordt N el. kan op N! / n!(N-n)! manieren (Nn)
Assumptie : iid
(door n= groot), dan ‘ln’ v/d L nemen
Opm: Bij prop successen (θ onbekend): II. Deductieve methode
Regressiemodellen ~Als meerdere schatters voor 1 pm mogelijk zijn,
Kansmassafunctie voor prop y/n successen in SPV wordt bepaald via wiskundige afleiding
Bivariate geg. (X,Y) of multiv. geg. (X1,X2,.., Y) gebruik die dat hoogste L-waarde uitkomt.
n beurten. Er geldt dat als Y~Bin(n,θ): ~Model met >1 pm: max.L-schatter voor alle Exacte beschrijving
1 var. voorspellen obv 1 of meer andere var.
μy/n = 1/n E[Y] = θ pm’s tegelijk= combinatie pm’s met grootste L Alle verdelingen
x= predictor y= criterium (y voorspellen obv x)
σ²y/n =(1/n²)σ²Y = θ(1-θ)/n ~X ~ U(a,b): L= (1/(b-a))n MTL (uit N= eindig (groot) of ZTL uit N=∞):
YX=xj ~ N(β0 + β1xj, σ²)
s2x
Lmax⇔(a,b)= kleinst mogelijk interval dat alle E [ X ] =m x
( )
2
1 y−(β 0+ β1 x j ) s 2x=
Z ~ Geo (θ) k>0 1 −
2 s SP-elementen omvat: a=Xmin ; b=Xmax
n
Z = wachttijd, # beurten tot 1e succes j y|x =x ( y )= e * voor alle continu TV is N=∞
j
√2 p s
= P(succes) per beurt/dag β0 =basisniveau Y 2. Keuze van toetsstatistieken *N↑⇒
s x ↑; n ↑ ⇒ s x ↓
opm : 0 is geen mogelijke waarde β1 =gevoeligh. X (=richtingscoëfficiënt, als ↑ dan steiler) Zoeken naar globale houdbaarheid v model in zijn geheel ZTL (uit N = eindig (kleiner dan 30))
z(k) = P(Z=k) = (1-)k-1 σ =fluctuatie v Y door toevalsfactoren of v bepaalde specifieke veronderstelling s 2 N −n
µz = 1/ j ~ taakafhankelijkheid
k ~ individu-afhankelijkheid
I. Algemene goodness-of-fit toetsstatistieken
Absolute goodness of fit
E [ X ] =m x s 2x= x
n N −1 ( )
z² = (1-) / ² *Als N zeer groot is tov n ⇒ σx² ≈ σx²/n
i ~ anders voor elke observatie/situatie Houdbaarheid v 1 model nagaan:
Assumptie : iid
Enkelvoudig lineair 1 predictor 1. parameterschatting (beste keuze v. pm) *N↑⇒
s x ↑ ; n↑ ⇒ s x ↓
opm: # beurten tem r-de succes:
Yi= β0 + β1xi + Ei met Ei ~ iid N (0, σ²) Normaalverdeling
μy=(rμy)=r/θ σy²=(rσy²)=r((1-θ)/θ2)
Als X ~ N(x, x²) dan X ~ N(x, x²/n)
# parameters: β0, β1 ,σ
X ~ Poisson (λ) (TB. Pg12-13) >0, k ≥0 (als Y= aX + b dan Y~N(aµx+b, a²²x))
Geg bep X is Y-score norm verd met =² en
X = totaal # successen in continu medium (Naar predictor toe (x) zijn er geen voorwaarde dus x moet Beperking SPV v X : SPV hangt mee af v σx,
=verwacht # succes per tijds-/ruimte-interval niet norm. verdeeld zijn) dus:
x(k) = P(X=k) = ( k/ k!)e-λ P(X=0)= e-λ Meervoudig: >1 predictor -Als x onbekend; Tx formule (TB pg 5)
µx= Yi= β0 + β1x1i + β2x2i + Ei met Ei ~ iid N (0, σ²) 2. waardegebied in stukken hakken -Als x bekend: ζx formule (TB pg 5)
x² = 3. Geobserv. freq bepalen (hele getallen en +) Als X~N(µx,x²) heeft T t- of student-verdeling
# parameters: β0 , β1, β2 ,σ ~met n-1 vrijheidsgraden (df)
Assumptie : iid, proportionaliteit 4. Kansmassafunctie v model ((x) berekenen met
Y hangt af v meer dan 1 X ~ Grafiek lijkt op normaalverd., belangrijkste verschil:
opm: ook gebruiken als benadering van Bin(n,θ) (als β2=0 wordt enkelv. regressiemodel)
formule v model dat men wil toetsen!)
dikkere staarten langs beide kanten
als n zeer groot (>30) en θ zeer klein is. 5. E kollom (π x spgrootte (n)) (geen heel getal) ~ Gelijkenis neemt toe naarmate # vrijheidsgraden
lim
n →¥
model met meervoudige individuen 6. Waarde v statistiek berekenen: stijgt (identiek als df = ∞)
-pearson-chi-kwadraat statistiek (X2)
q →0
Yik= β0 + β1xi + Eik met Eik ~ iid N (0, σ²)
nq→ λ
()
n
λk −λ
¿¿¿¿¿ q k (1 −q )n −k = e ¿ (Oi −Ei )2
¿
k k!
(alle indiv. zijn replicaties: geen indiv versch in β0, β1, xi) X 2 =∑ Benaderende beschrijving
----------------------------------------------------------- i Ei Gebruikt als X niet normaal verdeeld is
1 continue variabele Hiërarchisch: -X²↓ dan globale houdbaarheid model ↑ Voorbeeld 1: Centrale limietstelling (v. SPgem)
X ~ U(a,b) a<b Yik= 0 + 1kxi+Eik met 1k ~ N(µ,²) (²=σ2β1) X²↑ dan globale houdbaarheid model ↓ Als X1,….,Xn iid zijn (dus MTL of N=∞) met
genereer op toeval getal tss a en b en met Eik ~N (0, σ²) ⇒ Hoe kleiner X2, hoe dichter model bij de verwachte waarde μx en var σ²x.
gelijke kans op voorkomen exact 1 succes geobserveerde gegevens ligt (hoe beter fit) 1
binnen interval [a,b]
1k param. zijn hier individu specfiek β1k~ N(µ1,τ²1)
opm:
X n= ∑X
n i i
1k= helling v regressielijn (regressiecoeff.) (= Stel verder :
(x)= 1/(b-a) als a ≤ x ≤ b ~Bivariate gegevens X,Y onafh.: freq berekenen X n−mx
sterkte effect v X op Y =Y) VX =
=0 als anders dmv contingentietabel, dan θ schatten (analogie), n sx
Als er 2 types individuen zijn; deelpopulatie dan E(x,y) berekenen: bv. E(1,0) = n * θ1(1-θ2)
µx = (a+b)/ 2 En √n
mengselmodel voor gevoeligheden v X ~Wann ≠ categorieën samen: Ei= ∑ n*P(X=xi)
x² = (a-b)²/12 lim jV = j N ( 0,1)
vb. β1k ~ λN (μ1, τ²) + (1-λ) N (μ2, τ²) ~Continu→ intervallen → a<X<b = ϕx(b) – dan geldt: n→¥ xn
Als X~U(a,b) en [c,d] [a,b] dan:
ϕx(a) Dwz voor grote waarden van n (n>30 ) geldt:
P(c ≤ x ≤ d) = (d-c) / (b-a) Interactie-effect tss X-en: X n −μ x
Yi= 0+ 1X1i+2X2i+3X1iX2i + Ei (of) Goede toetsstatistiek om te bewijzen dat:
X ~ N(μ,σ²) σ>0 Yi= 0+ 1iX1i+2X2i+Ei met 1i = ’0 + ’1X2i ~ 2 (bern)variabelen statistisch onafhankelijk zijn
σ x/√n ~ N(0, 1) en Xn ~ N (µx ,
− ( )
2
1 x −m
1 2 s (geeft lineaire afhank. v 1i v. X2 weer) ~X~Bin beter dan op toeval (θ >.50). ²x/n)
e
x(x) = √2 p⋅s Geneste modellen = deelfamilies ( ) in pm (Als σx niet gekend: Tx formule)
µx = µ (bepaalt top)
Relatieve goodness-of-fit
=>
X n asymptotisch norm verdeeld is.
Wanneer welk model gebruiken? houdbaarheid v 2 (geneste!) modellen tov elkaar;
x²= ² (↑: breder, lagere top ↓: smaller, hogere top) 1) M0: meest beperkte model
Hoe groter n, hoe beter X-dichth. normale dichtheid ben.
Regr: bij voorsp: var niet onderling verwisselb. (centrale limietst. geldt voor alle verdelingen v X)
dus: (x) is symmetrisch en maximaal in μ Meng: bij groepen (=discrete var) * bereken max likelihoodsch. v pm (als nodig) Opm: als Xniid~Bern(θ) dan geldt er asymptotisch
KEUZE VAN STATISTIEKEN * bereken likelihood v/d gegevens onder M0 dat Xn~ N[θ, (θ(1-θ))/n] (prop. successen in reeks
Standaardnormaalmodel:Y ~ N(0,1) (TB.14-15) (geeft aan hoe goed model uit M0 bij gegevens past) onafh. bern trails is asympt. normaal verdeeld.)
Statistiek: vast recept dat toelaat om uit elke
y = (x-µ) / (z-transformatie) steekproef van gegevens 1 getal te bekomen.
2) M1: algemene model (groter model) Benadering is beter naarmate θ dichter bij ½ ligt
als Y= aX + b dan Y~N(aµx+b, a²²x) vragen beantw. ivm parametersch. en hypothesetoets. * bereken max likelihoodschatter
* bereken likelihood v/d gegevens onder M1 Voorbeeld 2: Absolute goodness of fit
(geeft aan hoe goed model uit M1 bij gegevens past) Als T de X2 statistiek, gebaseerd is op n onafhankelijke
T ~ Expon () Extra: autocorrelatie: T(ω1,…,ωn)= rXi Xi+1
(Correlatie tss waarnemingen en daaropvolgende waarn.) check: LM0 ≤ LM1 (M1 altijd even goed/beter doen) observaties v 1 of meer TV waarvan waardenbereik is
T = # tijdeenheden (tijd/afst) tot 1e succ
3) Bereken statistiek: LR= LM0 / LM1 (Altijd ≤1) opgedeeld in l categorieen en als ∀i : Ei > 0, dan is
= verwacht # succ per (tijd/ruimte)eenheid 1. Keuze van schatters (^) *LR dicht bij 1: beide mod. passen even goed lim j T = j
(µ = gem wachttijd tot 1ste succes) = statistiek die waarde v/d parameter schat *LR <<1: Algemeen model past beter n→¥ X 2 ( df =l−1−k )
-(t)= e-λt als t 0 (nooit om kans te berekenen) I. Analogiemethode *LR=1 best passende model uit M1 even goed past
(Schatter analoog def aan populatiepar. Door kans/dichtf.
k= # parameters geschat, l = # categorieen
=0 als t < 0 (tijd kan niet negatief zijn) als best model uit deel v M1 dat M0 heet
te vervangen door prop) (LR= liklihoodratio) Voorwaarde voor X2~X2df=l-1-k (TB.24)
-ФT (t) =P(X≤ t) =1 – e –λt (Om kans te berekenen) *n moet groot zijn
µt = 1/ x is analoge schatter voor μx 4) Bereken statistiek -2ln(LR)
*dicht bij 0: beide model. passen even goed *Ei’s moeten duidelijk verschill. v 0 (Ei>5)
²t = 1/ ² (t =µt) -μx=xi (xi) x =xi p(xi) =1/n xi *veel groter dan 0: algemene model past beter => X2 is asymptotisch chi-kwadraat verdeeld
Assumptie : iid, proportionaliteit Sx2 is analoge schatter voor σx2 (geen zuivere) *LR =1 :-2 ln (LR) ≈ 0 (Hoe meer vrijheidsgr, hoe beter X2 dichth norm verd. is)
----------------------------------------------------------- ⇒ uitbreiding naar M1 levert geen winst opm: Grote waarde X2 verdacht rechterstaart
-Sx² = 1/n (xi-x)² x² = (xj-µx)²(xj)
Meerdere variabelen * LR << 1 : -2 ln (LR) >> 0 Voorbeeld 3: Relatieve goodness-of-fit
x²=(xj-x)²p(xj)=1/n(xj-x)²freq(xj) ⇒ uitbreiding naar M1 levert wel winst
Statistische afhankelijkheid Relatieve goodness of fit v 2 geneste fam v mod. M0
rxy is analoge schatter voor xy bv. Model 1=M0: X~N(0,σ²) Model 2=M1: X~N(μ,σ²) M1, afwegen waarbij M1 als parameters (θ1 ... θk)
x,y(x,y)= XY=y(x)* Y(y)= YX=x(y)* X(x) -rxy = sxy /(sxsy) xy = xy/(xy) heeft en M0 neerkomt op hypothese θ1= c1, θ2=
x,y(x,y)= XY=y(x)* Y(y)= YX=x(y)* X(x) E[X2]= (xj)2(xj) = (xj)2p(xj) II. Specifieke toetsstatistieken c2, ...θr= cr, dan geldt (als M0 waar is):
bv. Afhankelijk bivar. normaalmodel ((x,y)= Specifieke modelveronderstellingen toetsen lim j−2 ln( LR ) =lim j = j X 2( df =r )
Y= f(x) E[Y]= f(xj) (xj) LM0
[( ) ( ) ]
2 2
1 x−μ1 y−μ2 2 ρ(x −μ 1 )( y−μ 2 ) *Nieuwe statistieken: bv. Autocorrelatie: = rxi xi+1 n→¥ n→¥ −2 ln( )
− + − LM1
1 2(1− ρ2 ) σ1 σ2 σ1 σ2 -Bv. Ook zelf maken: T= R(Sx)y
e II. Kleinste kwadratenmethode * Standaardstatistieken (zie TB. 1-4) r= # pm’s in M1 vastzetten om M0 te bekomen
2 πσ 1 σ 2 (1−ρ 2 ) Optimaal lineaire voorspelling uitvoeren: => 2ln(LR) is asympt Chi-kwadraat verdeeld
Statistisch onafhankelijk (correlatie=0) yiest = b0+b1xi met b1 = rxy(sy/sx) ZRM: a (Hoe meer vrijheidsgr, hoe beter χ²-dichth. norm verd. is)
BEPALEN V STEEKP.-VERDELING V STAT.
x,y(x,y)=X(x)*Y(y) b0 = y – b1x ZRM: b Opm: P(-2ln(LR)≥ a)= verdacht klein/grote kans,
1. Methoden om een SPV te bepalen dan M0 verwerpen. Grote waarde v -2ln(LR)
x,y(x,y)=X(x)*Y(y) Zodat gekwadrateerde standaardfout min. is:
SVP: kansmassa- of dichth-functie v/e statistiek wijst op evidentie tegen H0 rechterstaart
bv. Onafhankelijk bivar. normaalmodel ((x,y)=
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller charlottekerstens. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $11.15. You're not tied to anything after your purchase.