biomedische statistiek computationele biologie en informatieverwerking
bachelor in de diergeneeskunde
Geschreven voor
Universiteit Gent (UGent)
Bachelor In De Diergeneeskunde
Biomedische Statistiek Computationele Biologie En Informatieverwerving
Alle documenten voor dit vak (4)
Verkoper
Volgen
kwintenrfmasureel
Voorbeeld van de inhoud
UGENT
Statistiek: analyse
1e bachelor diergeneeskunde
Kwinten Masureel
,Inhoud
Hoofdstuk 3: kansverdelingen en dichtheidsfuncties ...........................................................................4
Begrippen, definities en symboliek ..................................................................................................4
Verdelingsfuncties ..........................................................................................................................5
Cumulatieve verdelingsfunctie van een discrete s.v. ....................................................................5
Verdelingsfunctie van een continue s.v. ......................................................................................5
Binomiale verdeling 𝑌~𝐵𝑛, 𝜋 ......................................................................................................5
Dichtheidsfuncties ..........................................................................................................................6
Dichtheidsfunctie van een continue s.v. ......................................................................................6
Normale verdeling 𝑌~𝑁𝜇, 𝜎2 ......................................................................................................6
De t-verdeling .............................................................................................................................8
De F-verdeling .............................................................................................................................9
Vraagstukken ................................................................................................................................ 10
Hoofdstuk 4: toetsen van hypotheses ............................................................................................... 16
Inleiding ........................................................................................................................................ 16
Algemene toetsingstheorie ........................................................................................................... 16
Het kritieke gebied voor het testen van de hypothese ............................................................... 16
Type I en type II fout ................................................................................................................. 16
Procedure voor het testen van hypothesen ............................................................................... 17
Alternatieve (meest gebruikte) procedure voor het testen van hypothesen .............................. 17
Vergelijken van 2 normale verdeelde gemiddelden ....................................................................... 17
De t-test met gelijke 𝜎12 = 𝜎22 ............................................................................................... 18
De t-test met ongelijke varianties 𝜎12 ≠ 𝜎22 ........................................................................... 20
Betrouwbaarheidsintervallen als testprocedure ............................................................................ 21
Betrouwbaarheidsintervallen (BI) definitie ................................................................................ 21
BI voor verschil 𝜇1 − 𝜇2 𝜎12 = 𝜎22 ......................................................................................... 21
BI voor verschil 𝜇1 − 𝜇2 𝜎12 ≠ 𝜎22 ......................................................................................... 23
De t-test – methode 3: Betrouwbaarheidsinterval ..................................................................... 23
Analyse van de variantie ............................................................................................................... 24
ANOVA -statistische modellen met één factor ........................................................................... 24
Schatten van modelparameters................................................................................................. 25
Hypothesen: één contrast ......................................................................................................... 26
Hypothesen: set van contrasten ................................................................................................ 28
Hypothesen: globale hypothese ................................................................................................ 29
ANOVA -statistische modellen met twee factoren ..................................................................... 31
Globale hypothesen .................................................................................................................. 34
, Model zonder interactie ............................................................................................................ 35
Voorbeeldoefeningen ................................................................................................................... 37
Vraagstukken ................................................................................................................................ 42
Uit herhalingsoefenzitting 1 .......................................................................................................... 42
Hoofdstuk 5: Lineaire regressie ......................................................................................................... 47
Basis ............................................................................................................................................. 47
Het lineaire regressie model.......................................................................................................... 48
Schatten van regressieparameters ................................................................................................ 48
Hoofdstuk 6: logistische regressie ..................................................................................................... 51
Basis ............................................................................................................................................. 51
Dosis-respons model ..................................................................................................................... 51
Model voor studie epilepsie ...................................................................................................... 51
Schatten tolerantieverdeling o.b.v. binaire gegevens ................................................................ 53
Basismodel ................................................................................................................................ 54
Probitmodel .............................................................................................................................. 54
Logistisch regressie model ............................................................................................................ 54
afleiding .................................................................................................................................... 54
Eigenschappen .......................................................................................................................... 56
Schatten van parameters door maximum likelihood (ML) techniek............................................ 56
Loglikelihoodfunctie toegepast op het voorbeeld ...................................................................... 59
Interpretatie dosis-respons model ................................................................................................ 60
,
,Hoofdstuk 3: kansverdelingen en dichtheidsfuncties
Begrippen, definities en symboliek
Functie 𝒇(. ): is een voorschrift dat elk element van een gegeven verzameling associeert met één
element van een andere verzameling. Op die manier ontstaan er dus paren (𝑎, 𝑏) waarin 𝑎 uit de
eerste verzameling komt, het domein, en 𝑏 uit de tweede verzameling, het beeld. Het toepassen van
het voorschrift 𝑓 (𝑎 ) → 𝑏
Stochastische veranderlijke (s.v.) 𝒀(. ): is een functie die als domein het universum Ω van een
experiment heeft en als beeld een deelverzameling van de reële getallen. De specifieke waarde van
de stochastische veranderlijke wordt als volgend genoteerd (𝑌 = 𝑦)
Soorten s.v
Discreet VERDELINGSFUNCTIE Continu DICHTHEIDSFUNCTIE
𝑌: Ω → 𝑅 eindig aantal waarden ∞ veel waarden binnen een eindig interval
Een specifieke gebeurtenis schrijft men als [𝑎, 𝑏]
{𝑌 = 𝑦𝑖 } en de kans op die specifieke
gebeurtenis als
𝑝𝑖 = 𝑃 (𝑌 = 𝑦𝑖 )
Populatieparameters:
- De kans op een gebeurtenis van een discrete s.v. 𝜋
Kansverdeling: de verzameling van de kansen voor alle mogelijke waarden die de s.v. 𝑌 kan
aannemen wordt de kansverdeling van 𝑌 genoemd.
Cumulatieve verdelingsfunctie: Deze functie geeft de probabiliteit weer dat de s.v. een waarde
aanneemt die gelijk is aan of kleiner is dan een specifieke waarde 𝑦𝑖 .
De verwachte waarde van een s.v. 𝑬(𝒀): zij 𝑌 een discrete s.v. die de waarden 𝑦1 , … , 𝑦𝑘 aanneemt
met als kansverdeling 𝑃 (𝑌 = 𝑦𝑖 ) = 𝑝𝑖 dan wordt de verwachte waarde van 𝑌 gegeven door:
𝑘 𝑘
𝐸(𝑌) : ∑ 𝑦𝑖 𝑃(𝑌 = 𝑦𝑖 ) = ∑ 𝑦𝑖 𝑝𝑖
𝑖=1 𝑖=1
Continue s.v.
+∞
𝐸(𝑌) ∫ 𝑦𝑓(𝑦)𝑑𝑦
−∞
De variantie van een s.v. 𝑽𝒂𝒓(𝒀): zij 𝑌 een discrete s.v. die de waarden 𝑦1 , … , 𝑦𝑘 aanneemt met als
kansverdeling 𝑃 (𝑌 = 𝑦𝑖 ) = 𝑝𝑖 dan wordt de variantie van 𝑌 gegeven door:
𝑘 𝑘
2 2
𝑉𝑎𝑟(𝑌) : ∑(𝑦𝑖 − 𝐸(𝑌)) 𝑃(𝑌 = 𝑦𝑖 ) = ∑(𝑦𝑖 − 𝐸 (𝑌)) 𝑝𝑖
𝑖=1 𝑖=1
Continue s.v.
, +∞
2
𝑉𝑎𝑟(𝑌) = ∫ (𝑦 − 𝐸(𝑌)) 𝑓 (𝑦)𝑑𝑦
−∞
Standaard deviatie 𝑺𝑻𝑫(𝒀): de standaard deviatie heeft als voordeel dat ze in dezelfde grootheden
uitgedrukt wordt als de verwachte waarde.
𝑆𝑇𝐷(𝑌) = √𝑉𝑎𝑟(𝑌)
Variatiecoëfficiënt 𝑪𝑽(𝒀):
𝑆𝑇𝐷 (𝑌)
𝐶𝑉 (𝑌) =
𝐸 (𝑌)
Verdelingsfuncties
Cumulatieve verdelingsfunctie van een discrete s.v.
Zij 𝑌 een discrete s.v. de functie 𝐹(𝑦), gedefinieerd als
𝐹 (𝑦) = 𝑃(𝑌 ≤ 𝑦𝑖 ) = ∑ 𝑝𝑗
𝑦𝑗≤𝑦𝑖
Grootst mogelijke waarde = 1
Verdelingsfunctie van een continue s.v.
Zij 𝑌 een continue s.v. een functie 𝐹 (𝑦), gedefinieerd als
𝑦
𝐹(𝑦) = 𝑃(𝑌 ≤ 𝑦) = ∫ 𝑓(𝑡)𝑑𝑡
−∞
Binomiale verdeling 𝑌~𝐵(𝑛, 𝜋)
Beschouw een experiment dat zodanig is dat het een zeker aantal keer na elkaar kan herhaald
worden onder dezelfde omstandigheden. Onderstel dat elke uitvoering van het experiment
aanleiding geeft tot 2 mogelijke uitslagen. In de binomiale verdeling hebben we de parameters
- 𝑛 = aantal mogelijke uitslagen
- 𝜋 = de kans op een mogelijke elementaire uitslag
- 𝑦 = de elementaire uitslag
Dan is de verdeling de volgende:
𝑛
𝑃(𝑌 = 𝑦) = ( ) 𝜋 𝑦 (1 − 𝜋)𝑛−𝑦
𝑦
𝑛!
Waarin (𝑛𝑦) de binomiaal coëfficiënt is die berekent kan worden als volgt 𝑦!(𝑛−𝑦)! (in RM =
combinatie van n uit y)
𝑬(𝒀) in 𝒀~𝑩(𝒏, 𝝅): 𝑛𝜋
𝑽𝒂𝒓(𝒀)in 𝒀~𝑩(𝒏, 𝝅): 𝑛𝜋 (1 − 𝜋)
,Dichtheidsfuncties
Dichtheidsfunctie van een continue s.v.
zij 𝑌 een continue s.v. een functie 𝑓(𝑦) met volgende eigenschappen
Normale verdeling 𝑌~𝑁(𝜇, 𝜎 2 )
Een continue s.v. 𝑌 heeft een normale verdeling met parameters 𝜇 en 𝜎 2 (−∞ < 𝜇 < +∞; 0 < 𝑦 <
+∞) indien haar dichtheidsfunctie gegeven is door
1 −(𝑦−𝜇)2
𝑓 (𝑦) = 𝑒 2𝜎2 (−∞ < 𝑦 < +∞)
𝜎√2𝜋
𝑬(𝒀) = 𝜇
𝑽𝒂𝒓(𝒀) = 𝜎 2
de overeenstemmende verdelingsfunctie van de normale verdeling wordt als volgend beschreven:
𝑦 −(𝑢−µ)2
1
𝐹(𝑦) = 𝑃 (𝑌 ≤ 𝑦) = ∫ 𝑒 2𝜎2 𝑑𝑢
𝜎√2𝜋 −∞
,Eigenschappen van de normale verdeling:
1. 𝑓 (𝑦) is symmetrisch rond 𝑦 = 𝜇; d.w.z. 𝑓 (𝜇 − 𝑦) = 𝑓 (𝜇 + 𝑦)
2. De limieten lopen naar + 𝑜𝑓 − ∞ = 0
3. 𝑓 (𝑦) heeft een maximum bij 𝑦 = 𝜇
4. 𝑓 (𝑦) stijgt voor E(Y) en daalt na E(Y).
5. Klokvormig uitzicht
Standaard normale verdeling 𝑌~𝑁 (0,1)
Als de verwachte waarde = 0 en de variantie gelijk aan 1 dan spreken we van een standaard normale
verdeling. Haar dichtheidsfunctie wordt gegeven door:
1 −𝑦 2
𝜙 (𝑦) = 𝑒 2 (−∞ < 𝑦 < ∞)
√2𝜋
De verdelingsfunctie wordt dan
Φ = 𝑃(𝑌 ≤ 𝑦)
Aangezien de verdelingsfunctie bekomen wordt na het integreren van de dichtheidsfunctie is deze
ook gelijk aan de oppervlakte onder de grafiek van de dichtheidsfunctie → van dit gegeven alsook de
klokvormige symmetrie in de dichtheidsfunctie moeten we gebruiken maken om sommige waarden
in de tabel 8.1 om te zetten naar andere waarden. Aangezien er enkel positieve waarden in de tabel
staan:
Voorbeeld oefening: Voor een variabele 𝑍 die standaard normaal verdeeld is (𝑍~𝑁(0; 1)) wordt
gevraagd de volgende kansen te berekenen:
a. 𝑃(𝑍 < 1.25) oplossing: de kans valt af te lezen uit de tabel 8.1 = 0.8944
c. 𝑃 (𝑍 < −1.25) oplossing: door de symmetrie van de kromme van Gauss kunnen we stellen dat .
𝑃 (𝑍 < −1.25) = 𝑃 (𝑍 > 1.25) = 0.1056
d. 𝑃 (𝑍 > −1.25) oplossing: gebruikmakend van de eigenschap dat de oppervlakte onder de curve
gelijk is aan 1 → 𝑃(𝑍 > −1.25) = 1 − 𝑃(𝑍 < −1.25) = 0.8944
e. 𝑃(0.25 < 𝑍 < 1.25) oplossing: herschrijf de kans als een verschil tussen 2 kansen 𝑃(𝑍 < 1.25 −
𝑃(𝑍 < 0.25)= 0.8944-0.5987 = 0.2957
f. 𝑃(−0.25 < 𝑍 < 1.25) oplossing: ook herschrijven van de kans als een verschil en gebruikmakend
van bovenstaande regels = 0.4931
,Standaardisatie van de normale verdeling 𝑍~𝑁(0; 1)
Als 𝑌~𝑁(𝜇, 𝜎 2 ) dan krijgen we een standaard normale verdeling door van zijn 𝑌 zijn gemiddelde af
te trekken en het geheel te delen door zijn standaard deviatie:
𝑍 = (𝑌 − 𝐸(𝑌))/√(𝑉𝑎𝑟(𝑌) ) = (𝑦 − 𝜇)/𝜎~𝑁(0; 1)
Waarvan de dichtheidsfunctie
1 −𝑧 2
𝑃 (𝑍 ≤ 𝑧) = 𝑒 2
2𝜋
Praktisch gevolg van deze standaardisatie
We kunnen nu kansuitspraken omtrent willekeurige normaal verdeelde s.v. herleiden tot
berekeningen aangaande de standaard normale verdeling:
Gegeven 𝑌~𝑁(𝜇; 𝜎 2 ), dan volgt
𝑦−𝜇
𝑃(𝑌 ≤ 𝑦) = Φ ( )
𝜎
𝑦1 − 𝜇 𝑦0 − 𝜇
𝑃(𝑦0 ≤ 𝑌 ≤ 𝑦1 ) = Φ ( ) − Φ( )
𝜎 𝜎
De verdeling van een lineaire combinatie van normaal verdeelde s.v.
Als 𝑌𝑖 ~𝑁(𝜇𝑖 ; 𝜎𝑖2 ), 𝑖 = 1, … , 𝑛 en 𝑌1 , … , 𝑌𝑛𝑛 zijn onafhankelijk, dan geldt
𝑛 𝑛
Deze stelling leert ons dat een gewogen som van onafhankelijke standaard normaal verdeelde s.v.
eveneens normaal verdeeld is
Toepassing: op een aselecte steekproef 𝑌𝑗 , 𝑗 = 1, … , 𝑛 met 𝑌𝑗 onafhankelijk en normaal verdeeld met
1
eenzelfde gemiddelde 𝜇 en eenzelfde variantie 𝜎 2 . 𝑌𝑗 ~𝑁(𝜇; 𝜎 2 ) Met 𝑎1 , … , 𝑎𝑛 = 𝑛 kunnen we de
stelling toeppassen op het steekproefgemiddelde, waaruit volgt:
𝜎2
𝑌̅~𝑁 (𝜇; )
𝑛
De t-verdeling
De normale verdeling laat toe een populatie op een eenvoudige manier te beschrijven aangezien alle
informatie met betrekking tot de populatie in twee parameters vervat zit: het populatiegemiddelde
en de populatievariantie. In de praktijk is het heel moeilijk om deze parameters exact te bepalen
aangezien de gehele populatie moet worden opgemeten. Daarom neemt men meestal een aselecte
steekproef, die de mogelijkheid dan bied om de parameters te schatten
Een schatter van de populatievariantie 𝜎 2 wordt gegeven door de steekproefvariantie 𝑺𝟐
2
∑𝑛𝑖=1(𝑌1 − 𝑌̅)²
𝑆 =
𝑛−1
*𝑛 − 1 verschillen zijn onafhankelijk voor het gemiddelde 𝑌̅ geldt immers:
, 𝑛
∑(𝑌1 − 𝑌̅) = 0
𝑖=1
Daaruit volgt dat als we 𝑛 − 1 verschillen kennen, ook het laatste verschil gekend is doordat de
verschillen moeten sommeren tot 0. In statistisch vakjargon wordt dan gezegd dat er 𝑛 − 1
vrijheidsgraden zijn.
De steekproefvariantie is een onvertekende schatter voor de populatievariantie:
𝐸(𝑆 2 ) = 𝜎 2
𝑆2
De variantie van het steekproefgemiddelde kan geschat worden door 𝑛
Als de populatievariantie gekend is, dan kunnen we, door standaardisatie naar de standaard normale
verdeling, schrijven dat
̅− 𝜇
𝑌.
~𝑁(0; 1)
2
√𝜎
𝑛
Als de populatievariantie niet gekend is, zullen we de ongekende populatievariantie 𝜎 2 vervangen
door de steekproefvariantie 𝑆 2 . We zullen dan met de volgende grootheid werken:
𝑌̅ − 𝜇
2
√𝑆
𝑛
Stelling: de t-verdeling voor het gemiddelde van een aselecte steekproef uit de normale verdeling
2
̅ Normaal verdeeld is met gemiddelde 𝜇 en variantie 𝜎 (met 𝜎 2 ongekend) dan geldt:
Als de s.v. 𝑌. 𝑛
𝑌̅ − 𝜇
~𝑡𝑛−1
2
√𝑆
𝑛
m.a.w. de grootheid heeft een t-verdeling met (𝑛 − 1) vrijheidsgraden
De F-verdeling
Veronderstel dat er 2 aselecte steekproeven genomen worden uit twee verschillende normaal
verdeelde populaties. Voor de 2 steekproevenkunnen we het steekproefgemiddelde en de
steekproefvariantie bepalen. De steekproef uit de eerste populatie met steekproefgrootte 𝑛1 geven
we weer als 𝑌11 , … , 𝑌1𝑛1 met
𝑛1
𝑌1𝑗
̅̅̅
𝑌1 . = ∑
𝑛1
𝑗=1
∑𝑛𝑗=1
1
(𝑌1𝑗 − ̅̅̅̅̅
𝑌1 )²
𝑆12 =
𝑛1 − 1
Analoog voor de tweede populatie nl.
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper kwintenrfmasureel. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €10,39. Je zit daarna nergens aan vast.