100% tevredenheidsgarantie Direct beschikbaar na betaling Zowel online als in PDF Je zit nergens aan vast
logo-home
Samenvatting CSI Q7 Statistiek €5,49
In winkelwagen

Samenvatting

Samenvatting CSI Q7 Statistiek

2 beoordelingen
 189 keer bekeken  9 keer verkocht

Dit is een uitgebreide samenvatting van alle stof voor het tentamen CSI statistiek in Q7 voor de studie geneeskunde aan de Radboud Universiteit. De samenvatting is geschreven in 2020.

Voorbeeld 3 van de 21  pagina's

  • 7 juni 2020
  • 21
  • 2019/2020
  • Samenvatting
Alle documenten voor dit vak (22)

2  beoordelingen

review-writer-avatar

Door: alphonspieter • 2 jaar geleden

review-writer-avatar

Door: annikapiek • 3 jaar geleden

avatar-seller
GNKsamenvatting
Statistiek - CSI - Q7
———————————————————————————————————————————

Naast overeenkomsten bestaan er ook verschillen tussen de personen in een onderzoek. Wanneer
er metingen gedaan worden, dan verschillen namelijk de uitkomstgetallen. Een maat voor het
verschil tussen de getallen in een onderzoek is de eerder besproken variantie. De
standaarddeviatie is de wortel van de variantie. In deze cursus gaan we ons bezig houden met het
verklaren van die variantie. Bijvoorbeeld dat een deel van de variantie in de lengte kan worden
verklaard door verschillen in geslacht.
Bij experimentele onderzoeken is er sprake van randomisatie. Hierdoor is er in theorie maar één
systematisch verschil tussen de twee groepen in je studie. Dit is de onafhankelijke variabele.
Omdat dit het enige systematische verschil is, kunnen we de verklaarde variantie die we vinden
toewijzen aan het effect. Er is dus geen confounding.

Stel dat je het effect onderzoekt van een
bloeddrukverlagend medicijn. Je maakt
middels randomisatie twee groepen en de
ene groep krijgt het nieuwe medicijn en de
andere groep het traditionele medicijn. Na
toediening meet je de bloeddruk. De
waarden in de tabel zijn de uitkomsten.
Het effect van het medicijn is dan een bloeddrukdaling van 20 mmHg. Je vergelijkt namelijk twee
middelen. Het effect is dus niet het verschil tussen de baseline meting en de eindmeting. Als de
controlegroep een placebo had gekregen was het effect groter geschat. Als de voormeting 160
mmHg was geweest, was de effectmeting nog steeds 20mmHg geweest. Voor de analyse van
dergelijke studies hebben we eerder geleerd dat je de two sample t-test gebruikt. Je hebt namelijk
continue waarden en je vergelijkt twee onafhankelijke groepen. Stel je nu voor dat je
uitkomstvariabele y noemt en de groepclassificatie variabele x. Voor t-testen zou x dan twee
waarden kunnen aannemen, omdat er twee groepen zijn.

Er is echter ook een alternatieve manier om naar deze analyse te kijken, namelijk met het lineair
regressiemodel. Dit model wordt gebruikt om zo goed mogelijk een passende lijn door een
puntenwolk in een scatterplot te tekenen. Zo kan je aantonen dat twee factoren verband houden
met elkaar (dat ze correleren). Voor het lineair regressiemodel is het belangrijk dat de Y-variabele
continu is en de X-variabele ofwel continu ofwel categorieel. Neem bijvoorbeeld de twee continue
variabelen lengte en gewicht. De metingen van proefpersonen kan je uitzetten in een scatterplot.
De scatterplot kan vervolgens suggereren dat er een relatie is tussen lengte en gewicht. We
spreken van een lineaire relatie tussen x en y wanneer er een rechte lijn kan worden getrokken
door de punten.

De formule voor de rechte lijn in de scatterplot is Y = b0 + b1 x X

In de praktijk volgen de metingen echter geen optimale lijn. Ze zitten net onder of boven de lijn.
Wanneer meerdere personen dezelfde waarde van x hebben, dan hebben zij niet allemaal
dezelfde waarde van y. De spreiding rondom y heeft het gemiddelde 0 en een variantie. Bij een
specifieke waarde van x,
hoort een waarde van
y = b0 + b1 x X met een
variantie daaromheen:

Y = b0 + b1 x X + residu




1

,De optimale lineaire lijn zorgt ervoor dat de residuen, dit zijn de afstanden van de meting tot de
lijn, zo klein mogelijk zijn voor alle metingen. Een probleem hierbij is dat sommige residuen
negatief zijn en de andere residuen positief. In een berekening zouden de residuen elkaar dan
opheffen en lijkt het alsof er geen residuen zijn. Je moet daarom de residuen kwadrateren. Je kijkt
dan naar de som van de residuen in het kwadraat en die deel je vervolgens door de
vrijheidsgraden, n-2. Op deze manier kom je uit op de formule voor de variantie. De
vrijheidsgraden zijn n-2 omdat je door 2 punten altijd een perfecte lijn kan trekken en er dan dus
geen residu is. Voor een optimale lijn willen we de residuele variantie zo klein mogelijk krijgen. Dit
betekent dat we de afgeleide hiervan moeten nemen en die gelijk moeten stellen aan 0.
Deze methode voor het vinden van de optimale regressielijn heet de methode van ‘Least
Squares’. Met deze methode vind je dus de regressielijn.

Bij een regressieanalyse meten we hoe
dichtbij de observaties dus liggen bij de
perfecte rechte lijn die het lineaire verband
omschrijft. De correlatiecoëfficiënt (r) geeft
twee dingen aan:
- Of de correlatie positief of negatief is. Loopt
de lijn omhoog of omlaag.
- Hoe sterk de correlatie is. De
correlatiecoëfficiënt loopt van -1 tot +1. De
waarde geeft aan hoe dichtbij de punten bij
de lineaire lijn liggen. Indien r gelijk is aan -1
of +1, dan is er een perfect correlatie en
liggen al de punten op de lijn. Indien r=0,
dan is er geen lineaire correlatie.

De coëfficiënt van determinatie hangt samen
met de correlatiecoëfficiënt of r (pearson’s r).
De coëfficiënt van determinatie heet ook wel
de proportie verklaarde variantie. De
coëfficiënt van determinatie is het kwadraat
van de correlatiecoëfficiënt (r2). Als je de
relatie tussen leeftijd en salaris uitzet, dan
spelen naast leeftijd ook het soort werk, je
opleiding, je aantal werkuren, etc. een rol bij
het bepalen van je salaris. Niet alleen de
leeftijd die in jouw scatterplot is uitgezet. Stel
voor de relatie tussen tussen leeftijd en salaris
is de correlatiecoëfficiënt 0,6. De coëfficiënt
van determinatie is dan 0,36. Dit wil zeggen
dat 36% van de hoogte van het salaris wordt
bepaald door leeftijd. De rest dan door andere factoren. De coëfficiënt van determinatie zegt dus
welke fractie van de variatie verklaard kan woorden door de variatie in de onafhankelijke variabele
die jij onderzoekt. Je mag niet zeggen dat het ene het ander veróórzaakt voor een bepaalde
fractie. Het regressiemodel geeft namelijk aan dat factoren met elkaar samenhangen, maar het
model geeft nooit een oorzaak gevolgrelatie (causaliteit) weer.

De correlatiecoëfficiënt die hierboven is besproken geeft aan hoe goed de data rondom de rechte
lijn liggen. Het geeft echter niet aan wat de beste lijn is. De best passende rechte lijn kan
gevonden worden met het lineaire regressiemodel met de methode van least squares. De
regressielijn die je vindt geldt alleen voor de data in je onderzoek. Je hebt infertiele statistiek nodig
om de data ook toe te passen buiten je studie.

De gemiddelde waarde van Y bij een gegeven waarde van X, kan gevonden worden wanneer de
regressielijn bekend is. Hiervoor vul je de waarde van x in de formule van de regressielijn is. De
waarde is dan (x , b0+b1X).




2

, Stel u wilt nagaan of een speciaal dieet invloed heeft op het herstel van gewicht van personen die
een schildklierbehandeling hebben gehad. Deze personen moeten na de ingreep goed aankomen.
Er doen personen mee die net de schildklierbehandeling gehad hebben, deze groep wordt door
toeval verdeeld in twee groepen. De ene groep krijgt het speciale dieet, de andere groep het
standaard dieet. Je meet na een bepaalde tijd de gewichten en dit gewicht is de continue
uitkomstmaat Y.

X=0 als een persoon het standaarddieet krijgt
X=1 als de persoon het nieuwe dieet krijgt

Y = b0 + b1 * X + residu

Bij deelnemers in de standaardconditie was X=0. Dan krijgt je Y = b0 + residu
B0 = het gemiddelde van de personen in de controleconditie.

Voor deelnemers in de experimentele conditie met X=1 geldt het volgende:
Y = b0 + b1 + residu
b0 + b1 = het gemiddelde van de personen in de experimentele conditie
b1 = het verschil in de gemiddeldes (het effect van het dieet)
Ons dieet voor aankomen werkt indien b1 groter is dan 0.

Nu weten we dus hoe we een regressielijn op moeten stellen. Deze methode kan echter gebruikt
worden voor elke set data en dus moeten we nog criteria hebben die een goed passende lijn
onderscheiden van een lijn die niet goed bij de data past. De regressie-analyse toont een effect
aan indien b1 significant afwijkt van 0.

Het voordeel van een regressieanalyse is dat hij gemakkelijk is uit te breiden en daarom soms
handiger kan zijn dan een t-toets.

Stel er zijn nu twee nieuwe diëten: dieet A en dieet B. Dan hebben we nu dus drie groepen in ons
onderzoek. Dit wordt opgelost door twee dummy-variabelen te gebruiken. Dummy-variabele
betekent dat de variabele een waarde 0 of 1 kan aannemen.
Indien de persoon dieet A krijgt geldt Xa = 1
Indien de persoon dieet B krijgt geldt Xb = 1
Het controledieet, dus geen dieet, heeft de waarde Xa = 0 en Xb =0

De volledige regressieformule is dan: Y = b0 + b1 x Xa + b2 x Xb + residu

Voor een persoon in in de controleconditie heeft X de waarde 0. Dit levert de formule:
Y = b0 + residu en b0 is dan het gemiddelde van de personen in de controleconditie.

Voor een persoon op dieet A heeft Xa de waarde 1. Dit levert de formule:
Y = b0 + b1 + residu. b1 is dan het verschil in het gemiddelde van de personen in de
controleconditie en het gemiddelde van de personen met dieet A. Indien b1 significant afwijkt van
0, heeft het dieet dus effect.

Voor een persoon op dieet B heeft Xb de waarde 1. Dit levert de formule:
Y = b0 + b2 + residu. b2 is dan het verschil in het gemiddelde van de personen in de
controleconditie en het gemiddelde van de personen met dieet B. Indien b2 significant afwijkt van
0, heeft het dieet dus effect.

Om te kijken of de diëten iets doen vergelijken we de modellen
Y = b0 + b1 x X + b2 x Xb + residu
En
Y = b0* + residu*

Als de diëten iets doen, verklaren ze de variantie van Y en zal de residu variantie van het bovenste
model kleiner zijn dan de residu* van het onderste model. Het onderste model is als het ware een
soort 0 hypothese. De werkelijkheid zou volgens dit model verlopen als er geen effect is.


3

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper GNKsamenvatting. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €5,49. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 53068 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen
€5,49  9x  verkocht
  • (2)
In winkelwagen
Toegevoegd