Samenvatting

Samenvatting colleges Statistiek B (premaster)

Name: Samenvatting colleges Statistiek B (premaster)
SKU: doc_694272
Rating: 4.00 (1 reviews)
Author: emilyvanewijk

1 beoordeling

4 keer verkocht

Vak
Statistiek B

Instelling
Erasmus Universiteit Rotterdam (EUR)

Dit is een samenvatting van de relevante stof uit de colleges van Statistiek B in de premaster Gezondheidswetenschappen. Zelf heb ik een 9,4 gehaald voor het vak.

[Meer zien]

Voorbeeld 4 van de 33 pagina's

Bekijk voorbeeld

Geupload op 25 april 2020
Aantal pagina's 33
Geschreven in 2019/2020
Type Samenvatting

1 beoordeling

Door: isabelle7 • 3 jaar geleden

Volgen

emilyvanewijk Lid sinds 5 jaar 145 documenten verkocht

€3,99

In winkelwagen

Opslaan

100% tevredenheidsgarantie
Direct beschikbaar na je betaling
Lees online óf als PDF
Geen vaste maandelijkse kosten

Samenvatting colleges: Statistiek B
College 1: Correlatie en Lineaire regressie

Samenhang
We gaan na wat de samenhang, tussen vooral ratio en interval variabelen, is op drie manieren:
1. Spreidingsdiagram (of scatterplot)
Grafische weergave samenhang.

2. Correlatiecoëfficiënt en -analyse
Maat voor sterkte van de samenhang.

3. Regressieanalyse
Methode om de samenhang tussen twee (of meer) variabelen te beschrijven/bepalen met behulp
van de een functionele relatie.
Regressievergelijking: lijn die de gegevens in het spreidingsdiagram zo goed mogelijk beschrijft.

Let op: een vierde manier om de samenhang te toetsen is de Chi-Kwadraattoets (deze is behandeld in
Statistiek A).

Spreidingsdiagram
Rechts een voorbeeld van een spreidingsdiagram. De
afhankelijke variabelen (die je wil verklaren) zet je altijd op de
y-as. De onafhankelijke variabele, in dit voorbeeld de reistijd,
staat op de x-as.

Wat is het verband tussen ‘Aantal Facebook-vrienden’ en
‘Reistijd’? Er lijkt hier een negatief verband te zijn: hoe meer
tijd je reist naar de universiteit, hoe minder facebook vrienden
die je hebt.

Welke lijn past het beste? Proberen we op te lossen met
regressie analyse.

Correlatiecoëfficiënt: algemeen
De correlatiecoëfficiënt is een maat voor lineaire
samenhang tussen 2 variabelen. Zie formule
(rechts). De correlatiecoëfficiënt hoef je niet
manueel uit te rekenen. Je ziet in de formule de
som van (xi-x) (de streep boven de x betekent het
gemiddelde) keer (yi-y). Je vult de formule voor
ieder persoon in om die som te krijgen. Je deelt dat door de vierkantswortel (en alles daaronder) en
dan heb je je correlatiecoëfficiënt.

Kenmerken:
 Onderzoekt geen oorzakelijk/causaal verband;
 Variabelen tenminste op intervalniveau gemeten;
 Dimensieloze index: alles ligt tussen -1 en +1, hoe dichterbij -1 hoe negatiever het verband,
hoe dichterbij +1 hoe positiever het verband.
 Ordinaal ??

,De correlatiecoëfficiënt is ongevoelig voor lineaire transformaties/dimensieloze index: r
(correlatiecoëfficiënt) voor lengte in cm en gewicht in kg is even groot als wanneer we lengte in
meters zouden uitdrukken en gewicht in ponden.

Belangrijk: correlatiecoëfficiënt gaat niet over een oorzakelijk of causaal verband. Je gaat enkel na of
er samenhang is.

Correlatiecoëfficiënt: interpretatie

Plaatjes: zijn de drie extreme voorbeelden.

R = 1 of -1: respectievelijk perfect positieve of negatieve lineaire samenhang.
R = 0: geen lineaire samenhang.
R = tussen de 0 en 1 of tussen -1 en 0: respectievelijk positieve/negatieve lineaire samenhang.

Aantal standaardafwijkingen verandering in y voor een standaardafwijking verandering in x:
interpretative van correlatiecoëfficiënt

Regressieanalyse: algemeen
De regressieanalyse is een methode om de samenhang tussen twee (of meer) variabelen te
beschrijven met behulp van een functionele relatie (= regressievergelijking). De techniek levert de
‘best passende’ lijn die de puntenwolk (zie spreidingsdiagram) zo goed mogelijk beschrijft.

Doelen:
 Voorspellingen te doen (voornaamste doel)
 Theorie te vormen/te toetsen: hoeveel betaal je voor je zorgverzekering en hangt dat af van
je inkomen? Hypotheses hierbij kan je nagaan met de regressie analyse.
 Normen te stellen: groei baby consultatiebureau, wijkt het kind af van de groeicurve
(=regressielijn)?
 Data te reduceren

Als onderzoeker veronderstel je een causaal verband op basis van theorie of veronderstellingen en
bepaal je dus zelf de richting (dat doet de data niet). Let dus op! Denk altijd na over het verband.

Regressieanalyse: onderdelen
1. Enkelvoudige lineaire regressie
2. Meervoudige lineaire regressie
3. Logistische regressie (college 2)
4. Ordinale regressie (wordt niet behandeld)
5. Multinomiale regressie (wordt niet behandeld)
De keuze (regressie-model) hangt af van meetniveau afhankelijke variabele!

Regressieanalyse: enkelvoudige lineaire regressie
Notatie (enkelvoudig): y = β0 + β1 * x + e waarbij: vergelijking van de beste passende lijn

,  Y (op y-as): afhankelijke variabele
 Meetniveau: altijd interval of ratio
 X (op x-as): onafhankelijke variabele (of: outcome)
 Meetniveau: interval of ratio, indien anders: herdefiniëren als 0-1 variabele
 β0 & β1: regressiecoëfficiënten (of: parameters) waarbij
 β0: snijpunt met y-as (of: intercept). Wanneer mijn lijn 0 is op de y-as, wat is dan mijn
uitkomst waarde? Dus in dit voorbeeld: als je reistijd 0 is hoeveel facebook vrienden heb
je dan?
 β1: richtingscoëfficiënt (of: slope). B1 is de helling van de lijn. Als je aantal reisminuten
stijgt, hoeveel daalt je facebook vrienden dan.

De residuen zijn normaal verdeelt. e = residu (error / voorspellingsfout): je kan nooit een perfecte
voorspelling doen. Verdeling is N(0,σ))

Wat is de ‘best passende’ lijn?
Ideaal: y = β0 + β1 * x

Beschikbaar: meetpunten (xi, yi) waarbij i = 1, 2, …, n
• Dus: voorspelde waarde yi’ bij gegeven xi: yi’ = β0 +
β1 * xi
• En: regressievergelijking: y’ = β0 + β1 * x

Best passende lijn:
Je hoeft het niet wiskundig helemaal te begrijpen. Je hebt
voor ieder individu een waarde voor het residu. Je wilt
zoeken naar een lijn waar de som voor de
gekwadrateerde residuen zo laag mogelijk is. Je zoekt de
waardes van β0 en β1 waarvoor dat het geval is.

Waarom de gekwadrateerde waarde?
Is gewoon zo (plus alles wordt dan positief dus dat is fijn)

Fout in de voorspelling: residuen (afstand van de meetpunten tot voorspelde regressielijn)
Wiskundig: ei = yi – yi’= yi - (β0 + β1 * xi)

Gezocht: de lijn waarbij het kwadraat van de afstanden van alle punten tot die lijn zo klein mogelijk is
Wiskundig: minimalisering (kleinste kwadratencirterium). Uitgaande van het kleinste
kwadratencirterium kan wiskundig de vergelijking voor
de beste lijn worden afgeleid. We gebruiken daarvoor:
x en y
Je regressiecoëfficiënt is ook afhankelijk van je
correlatiecoëfficiënt (geeft sterkte van het lineaire
verband weer).

Voorbeeld: voor iedere euro extra inkomen, kan je het
aantal jaren studeren voorspellen? Dan ben je
geïnteresseerd in de helling, voor hoeveel euro extra
inkomen: hoeveel meer heb je dan gestudeerd?

, Enkelvoudige lineaire regressie: voorbeeld
• Steekproef van 192 personen
• y: Aantal Facebook-vrienden (= afhankelijke variabele)
• x: Reistijd (= onafhankelijke variabele)

R = -0,192 (er is dus een negatief verband)

Bepaal de regressievergelijking: y’ = β0 + β1x

Adjusted R-square (past aan aan het aantal variabele dat je toevoegt)= verklaarde variantie door je
regressie: dus 3,2% wordt verklaard, dus is best laag maar het is afhankelijk van de onderzoeksvraag.
Je kijkt eigenlijk altijd naar die Adjusted R-square omdat die ook het aantal variabelen opneemt die je
meeneemt in je analyse.

(Constant) = β0: intercept op de y-as, dus mensen die 0 minuten reizen hebben gemiddeld 260
facebookvrienden.
β1 = -0,86, dus voor iedere minuut dat je meer reist naar de universiteit heb je 0,86 facebook vriend
minder.

Als de t-waarde groter is in absolute waarde is dan 2, dan is dat sowieso statistisch significant. Dus de
helling is significant verschillend van 0. Hoe groter je steekproef is hoe sneller je vindt dat iets
statistisch significant is van 0.

De regressievergelijking: y’ = 259,460 - 0,859 x

Voorbeeld vraag: heeft reistijd (= β1) een significant effect op het aantal Facebook-vrienden?
Voorbeeld met het stappenplan

Stap 1: Bepaal de toets
Meetniveau variabelen:
 Meetniveau afhankelijke variabele (y) ‘aantal Facebook-vrienden’: ratio
 Meetniveau onafhankelijke variabele (x) ‘reistijd’: ratio

Dit zijn jouw voordelen als je samenvattingen koopt bij Stuvia:

Bewezen kwaliteit door reviews

Studenten hebben al meer dan 850.000 samenvattingen beoordeeld. Zo weet jij zeker dat je de beste keuze maakt!

In een paar klikken geregeld

Geen gedoe — betaal gewoon eenmalig met iDeal, creditcard of je Stuvia-tegoed en je bent klaar. Geen abonnement nodig.

Direct to-the-point

Studenten maken samenvattingen voor studenten. Dat betekent: actuele inhoud waar jij écht wat aan hebt. Geen overbodige details!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper emilyvanewijk. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €3,99. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 66184 samenvattingen verkocht

Opgericht in 2010, al 15 jaar dé plek om samenvattingen te kopen

Begin nu gratis

Samenvatting

Samenvatting colleges Statistiek B (premaster)

Document informatie

Onderwerpen

Geschreven voor

1 beoordeling

Verkoper

Ontvangen beoordelingen

Voorbeeld van de inhoud

Dit zijn jouw voordelen als je samenvattingen koopt bij Stuvia:

Bewezen kwaliteit door reviews

In een paar klikken geregeld

Direct to-the-point

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Tevredenheidsgarantie: hoe werkt dat?

Van wie koop ik deze samenvatting?

Zit ik meteen vast aan een abonnement?

Is Stuvia te vertrouwen?