Dit is een samenvatting van de relevante stof uit de colleges van Statistiek B in de premaster Gezondheidswetenschappen. Zelf heb ik een 9,4 gehaald voor het vak.
Samenvatting colleges: Statistiek B
College 1: Correlatie en Lineaire regressie
Samenhang
We gaan na wat de samenhang, tussen vooral ratio en interval variabelen, is op drie manieren:
1. Spreidingsdiagram (of scatterplot)
Grafische weergave samenhang.
2. Correlatiecoëfficiënt en -analyse
Maat voor sterkte van de samenhang.
3. Regressieanalyse
Methode om de samenhang tussen twee (of meer) variabelen te beschrijven/bepalen met behulp
van de een functionele relatie.
Regressievergelijking: lijn die de gegevens in het spreidingsdiagram zo goed mogelijk beschrijft.
Let op: een vierde manier om de samenhang te toetsen is de Chi-Kwadraattoets (deze is behandeld in
Statistiek A).
Spreidingsdiagram
Rechts een voorbeeld van een spreidingsdiagram. De
afhankelijke variabelen (die je wil verklaren) zet je altijd op de
y-as. De onafhankelijke variabele, in dit voorbeeld de reistijd,
staat op de x-as.
Wat is het verband tussen ‘Aantal Facebook-vrienden’ en
‘Reistijd’? Er lijkt hier een negatief verband te zijn: hoe meer
tijd je reist naar de universiteit, hoe minder facebook vrienden
die je hebt.
Welke lijn past het beste? Proberen we op te lossen met
regressie analyse.
Correlatiecoëfficiënt: algemeen
De correlatiecoëfficiënt is een maat voor lineaire
samenhang tussen 2 variabelen. Zie formule
(rechts). De correlatiecoëfficiënt hoef je niet
manueel uit te rekenen. Je ziet in de formule de
som van (xi-x) (de streep boven de x betekent het
gemiddelde) keer (yi-y). Je vult de formule voor
ieder persoon in om die som te krijgen. Je deelt dat door de vierkantswortel (en alles daaronder) en
dan heb je je correlatiecoëfficiënt.
Kenmerken:
Onderzoekt geen oorzakelijk/causaal verband;
Variabelen tenminste op intervalniveau gemeten;
Dimensieloze index: alles ligt tussen -1 en +1, hoe dichterbij -1 hoe negatiever het verband,
hoe dichterbij +1 hoe positiever het verband.
Ordinaal ??
,De correlatiecoëfficiënt is ongevoelig voor lineaire transformaties/dimensieloze index: r
(correlatiecoëfficiënt) voor lengte in cm en gewicht in kg is even groot als wanneer we lengte in
meters zouden uitdrukken en gewicht in ponden.
Belangrijk: correlatiecoëfficiënt gaat niet over een oorzakelijk of causaal verband. Je gaat enkel na of
er samenhang is.
Correlatiecoëfficiënt: interpretatie
Plaatjes: zijn de drie extreme voorbeelden.
R = 1 of -1: respectievelijk perfect positieve of negatieve lineaire samenhang.
R = 0: geen lineaire samenhang.
R = tussen de 0 en 1 of tussen -1 en 0: respectievelijk positieve/negatieve lineaire samenhang.
Aantal standaardafwijkingen verandering in y voor een standaardafwijking verandering in x:
interpretative van correlatiecoëfficiënt
Regressieanalyse: algemeen
De regressieanalyse is een methode om de samenhang tussen twee (of meer) variabelen te
beschrijven met behulp van een functionele relatie (= regressievergelijking). De techniek levert de
‘best passende’ lijn die de puntenwolk (zie spreidingsdiagram) zo goed mogelijk beschrijft.
Doelen:
Voorspellingen te doen (voornaamste doel)
Theorie te vormen/te toetsen: hoeveel betaal je voor je zorgverzekering en hangt dat af van
je inkomen? Hypotheses hierbij kan je nagaan met de regressie analyse.
Normen te stellen: groei baby consultatiebureau, wijkt het kind af van de groeicurve
(=regressielijn)?
Data te reduceren
Als onderzoeker veronderstel je een causaal verband op basis van theorie of veronderstellingen en
bepaal je dus zelf de richting (dat doet de data niet). Let dus op! Denk altijd na over het verband.
Regressieanalyse: onderdelen
1. Enkelvoudige lineaire regressie
2. Meervoudige lineaire regressie
3. Logistische regressie (college 2)
4. Ordinale regressie (wordt niet behandeld)
5. Multinomiale regressie (wordt niet behandeld)
De keuze (regressie-model) hangt af van meetniveau afhankelijke variabele!
Regressieanalyse: enkelvoudige lineaire regressie
Notatie (enkelvoudig): y = β0 + β1 * x + e waarbij: vergelijking van de beste passende lijn
, Y (op y-as): afhankelijke variabele
Meetniveau: altijd interval of ratio
X (op x-as): onafhankelijke variabele (of: outcome)
Meetniveau: interval of ratio, indien anders: herdefiniëren als 0-1 variabele
β0 & β1: regressiecoëfficiënten (of: parameters) waarbij
β0: snijpunt met y-as (of: intercept). Wanneer mijn lijn 0 is op de y-as, wat is dan mijn
uitkomst waarde? Dus in dit voorbeeld: als je reistijd 0 is hoeveel facebook vrienden heb
je dan?
β1: richtingscoëfficiënt (of: slope). B1 is de helling van de lijn. Als je aantal reisminuten
stijgt, hoeveel daalt je facebook vrienden dan.
De residuen zijn normaal verdeelt. e = residu (error / voorspellingsfout): je kan nooit een perfecte
voorspelling doen. Verdeling is N(0,σ))
Wat is de ‘best passende’ lijn?
Ideaal: y = β0 + β1 * x
Beschikbaar: meetpunten (xi, yi) waarbij i = 1, 2, …, n
• Dus: voorspelde waarde yi’ bij gegeven xi: yi’ = β0 +
β1 * xi
• En: regressievergelijking: y’ = β0 + β1 * x
Best passende lijn:
Je hoeft het niet wiskundig helemaal te begrijpen. Je hebt
voor ieder individu een waarde voor het residu. Je wilt
zoeken naar een lijn waar de som voor de
gekwadrateerde residuen zo laag mogelijk is. Je zoekt de
waardes van β0 en β1 waarvoor dat het geval is.
Waarom de gekwadrateerde waarde?
Is gewoon zo (plus alles wordt dan positief dus dat is fijn)
Fout in de voorspelling: residuen (afstand van de meetpunten tot voorspelde regressielijn)
Wiskundig: ei = yi – yi’= yi - (β0 + β1 * xi)
Gezocht: de lijn waarbij het kwadraat van de afstanden van alle punten tot die lijn zo klein mogelijk is
Wiskundig: minimalisering (kleinste kwadratencirterium). Uitgaande van het kleinste
kwadratencirterium kan wiskundig de vergelijking voor
de beste lijn worden afgeleid. We gebruiken daarvoor:
x en y
Je regressiecoëfficiënt is ook afhankelijk van je
correlatiecoëfficiënt (geeft sterkte van het lineaire
verband weer).
Voorbeeld: voor iedere euro extra inkomen, kan je het
aantal jaren studeren voorspellen? Dan ben je
geïnteresseerd in de helling, voor hoeveel euro extra
inkomen: hoeveel meer heb je dan gestudeerd?
, Enkelvoudige lineaire regressie: voorbeeld
• Steekproef van 192 personen
• y: Aantal Facebook-vrienden (= afhankelijke variabele)
• x: Reistijd (= onafhankelijke variabele)
R = -0,192 (er is dus een negatief verband)
Bepaal de regressievergelijking: y’ = β0 + β1x
Adjusted R-square (past aan aan het aantal variabele dat je toevoegt)= verklaarde variantie door je
regressie: dus 3,2% wordt verklaard, dus is best laag maar het is afhankelijk van de onderzoeksvraag.
Je kijkt eigenlijk altijd naar die Adjusted R-square omdat die ook het aantal variabelen opneemt die je
meeneemt in je analyse.
(Constant) = β0: intercept op de y-as, dus mensen die 0 minuten reizen hebben gemiddeld 260
facebookvrienden.
β1 = -0,86, dus voor iedere minuut dat je meer reist naar de universiteit heb je 0,86 facebook vriend
minder.
Als de t-waarde groter is in absolute waarde is dan 2, dan is dat sowieso statistisch significant. Dus de
helling is significant verschillend van 0. Hoe groter je steekproef is hoe sneller je vindt dat iets
statistisch significant is van 0.
De regressievergelijking: y’ = 259,460 - 0,859 x
Voorbeeld vraag: heeft reistijd (= β1) een significant effect op het aantal Facebook-vrienden?
Voorbeeld met het stappenplan
Stap 1: Bepaal de toets
Meetniveau variabelen:
Meetniveau afhankelijke variabele (y) ‘aantal Facebook-vrienden’: ratio
Meetniveau onafhankelijke variabele (x) ‘reistijd’: ratio
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper emilyvanewijk. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €3,99. Je zit daarna nergens aan vast.