TOEGEPASTE BIOSTATISTIEK
LES 1
Dia 2
4 hoofdstukken bekijken
HF 14 person time data, opvolgen in de tijd, hoe analyseren
Dia 3
HF 11 beginnen we, we gaan eig kijken of er variabelen met elkaar gecorreleerd zijn
Dia 4
Zijn de variabelen gecorreleerd, correlatiecoefficient berekenen tussn 2 variabelen? Welke vd 2
beinvloed welke andere, wat is oorzaak? Wat is gevolg?
Correlatie; is er correlatie, geen uitspraak over wat veroorzaakt wat
Regressie; wat zijn de !re variabelen die andere beinvloeden (predictoren)
Simple lineair regression, 1 x en 1 y variable, dus 1 predictor variabele en 1 respons variabele
Bij multiple meerdere predictoren voor ene y , multiple linear regression
Beperken tot lineaire regressie:
X variabele nooit in moeilijke functies zetten, nooit in exponent, altijd lineair patroon
Simpele lineaire (te maken met een rechte) regressie; dus altijd een rechte met rico en intercept ,
fitten doorheen punten
3. meer dan 1 veranderlijke, niet meer spreken over rechte, mss over een vlak, meer dan 2, niet meer
echt k voorstellen in 3D ruimte, maar nog steeds over lineaire regressie spreken, omdat alle x
variabelen op een lineaire manier in verband w gebracht met y variabele, niet logaritmisch enz, x met
rico ervoor
X met rico ervoor, zo werken we
X variable, predictor variable
Continu (veel mogelijk uitkomsten bv bloeddruk) of categorisch (man of vrouw)
Meestal uitkomst variabele wel continue, predictor variabele kan continu of categorisch zijn
Dia 5
Eerste vb
Ook 11.2 uit hb
Voobeeld die we veel gn gebruiken
1
,Obv hormoonniveau (conc) van vrouw, schatten dat geboortegewicht kind te laag zal zijn
Ingrijpen voor vrouw bevalt, extra laten rusten of medicatie geven, bevalling uitstellen zodat baby
meer gewicht
31 vrouwen worden bekeken, estriol bekijken
Geboortegewicht in centigram dus x100 gewicht in gram, 2,5kg eerse baby
Telkens 2 meetwaarden bij 1 dezelfde persoon
Scatterplot van maken
Dia 6
Punten weergevne in x y diagram
X as estriol, varaibele die predictor is, die het andere veroorzaakt op x as
Variabele die veroorzaakt w komt op de y-as
Beste rechte proberen te fitten , door die punten, met statistiek, met lineaire regressie
Variatie moet zo klein mogelijk zijn , rechte die het meest aansluit bij die punten
Afwijkingen zo klein mogelijk houden
Schatting bekomen v intercept en slope ; bedeoling v lineaire regressie
Intercept: plaats waar y-as snijden , hoogte door de y as, hier zie je dat niet zo goed, omdat men met
onderbrekingen gewerkt heeft
Slope: rico, hellingsgraad, hoe stijl rechte is , 0,608 hier
Hoe berekenen we die alfa en beta
X onafhankelijk en y afhankelijke variabele
Y hangt af vd x
Dia 7
In statistiek werken we met modellen, we zien, proefondervindelijk, dat het goed of slecht is (trial
and error)
Model komt tot stand door veelvuldig de zaken toe te passen op gegevens
Besluiten die we trekken mogen we pas trekken wnnr aan bep vwn voldaan is
Vb t-test, normaliteit moesten we nagaan (2 groepen gegevens vergelijken)
Hier bij lineaire regressie ook vwde nagaan , ook hypothese nagaan , foutenterm!
Model maakt een fout van dia 6 (uitleg over hormoonniveau 12, 1 putnje staat er, baby met iets
meer dan 2,6 kg, rechte zegt dat gewicht 2,8 moestz ijn, maar dat was het niet, model, rechte maakt
een fout), de e op deze slide is dat, de foutenterm, error
2
,Veronderstelling nagaan, kijken of het klopt en enkel dan besluiten trekken (via aparte test nakijken,
enkel als dat klopt mogen we verder gaan)
E foutenterm moet normaal verdeeld zijn etc zie volgende sldie vanboven= veronderstelling die we
maken
Dia 8
Covariate is je predictor
Voor elke waarde van je x kan je meerdere punten hebben
Cfr ene vrouw van 12 estriol, nog meerdere vrouwen k dat hormoonniveau h, meerdere vrouwen
bevallen, meerdere geboortegewichten
Rode lijn is regressie lijn , die we moeten berekenen
Rechte geeft aan, waar die snijdt, dat is het gewicht dat het model zegt dat het zou moeten zijn
In veel gevallen maak je een fout , je zit er vaak wat rond
Blauwe curve als de kansverdeling van die zwarte punten bekijken
We willen dat de meeste van die zwarte punten in de buurt zitten van dat rode snijpunt , er kunnen
afwijkingen zijn, maar hopen dat die evenveel voorkomen aan rechter als linkerkant
We willen dat er een normale verdeling verschijnt, als je je blad 90 graden zou draaien (blauwe curve
stelt normale curve voor)
Model overschat het gewicht evenveel als onderschatten , normal distributed van die foutentermen
Gem moet nul zijn
We hopen dat die zwarte punten zo dicht mogelijk bij dat snijpunt liggen (want in snijpunt is er geen
fout, gem zal nul zijn, maar e ris altijd spreiding)
Spreiding is sigma kwadraat, kwadraat van de standaarddev, variance
Constant variance!!
Blauwe curves allemaal even breed getekend , het mag niet dat voor kleine waarden v x kleinere
spreiding en vcoor grote x grotere spreiding, mag niet zijn, in dat geval zou blauwe verdelingscurve
breder zijn aan R kant dan aan linker kant, dat mag niet, als dat zo is, niet dit simpel model volgen
Je moet de normaliteit nagaan van de residues ofs , dus nagaan of er normaliteit is van je
foutenterm, van je residius = foutentermen , moet normaal verdeeld zijn boven gem nul (dus top van
die normaal verdeling meot boven nul zitten) en evenveels preiding links, rechts, moet symmetrisch
zijn ,d us normaliteit van de residues moet je nagaan!!! Dus niet normaliteit van x of ynagaan, wel
van de residues, meestal wel zo als
X en y normaal verdeeld dan is e da ook, de foutentermen , niet noodzakelijk
Absolute voorwaarde
Komt later nog
3
, Dia 9
Normaal verdeling, Gaussian , komt voor bij veel metingen, waarden h dan een gemiddelde en is er
evenveel spreiding langs linker en rechterkant, dat is typisch, filmpje tonen
Galton’s board ; er vallen ballen uit een buis, valt op plankje, balletje kan links of rechts gaan, als
genoeg balletjes laten vallen, ongeveer evenveel L als R vallen, wet van grote aantallen die geldt,
verder kijken: alle balletjes komen terug samen en vallen ze weer naar beneden, ze vallen op pinnen,
weer L of R kiezen, allemaal mooi in het midden laten vallen, meeste balletjes zullen in middelste
terechtkomen, geneog laten vallen, evenveel L als R komen er, bernoulli verdeling zit hier achter, 2
keuzes altijd , veel na elkaar dan krijg je een binomiaal verdeling, veel fenomenen in den atuur
gedragen zich volgens normale drijfveer met afwijkingen in ene en andere richting die even groot zijn
Dia 10
Spreiding, blauwe curves van eerder
Je hoopt dat er zo weinig mogelijk spreiding is, goeie regressie dan
Bovenste, perfecte fit , geen spreiding, perfecte regressie, meestal zoals het 2 de, rechte zo goed
mogelijk proberen te fitten
Dia 11
Hellingsgraad, pos stijgend, neg dalend, nul voor quasi recht , rico
Verschillende situaties overlopen (hartritme daalt vanaf baby tot ouder worden)
Beta is de slope
Weinig correlatie op die 2, vanonder
Dia 12
Bedoeling is om vgl vd rechte te achterhalen , op te stellen
Hoe kom je aan die berekende waarde?
Op basis van je gegevens
31 vrouwen , estriol level als geboorte gewicht hebben
31 koppels van metingen, zo intercept en slope bepalen
Hoe?
Method of least squares (minste kwadraten)
De fouten gaan kwadrateren, optellen en eisen dat de som vd gekwadrateerde fouten zo klein
mogelijk is
Punt is getoond
4