100% tevredenheidsgarantie Direct beschikbaar na betaling Zowel online als in PDF Je zit nergens aan vast
logo-home
Statistiek 3 Aantekeningen €9,99   In winkelwagen

College aantekeningen

Statistiek 3 Aantekeningen

 44 keer bekeken  2 keer verkocht

Dit document bevat zeer uitgebreide aantekeningen van de cursus Statistiek 3, academisch jaar 2021/2022. Het zijn aantekeningen met alle uitleg die mevrouw Van Krimpen erbij heeft gegeven. Het bevat veel illustraties voor een duidelijke uitleg. Alle dia's zijn in de aantekeningen verwerkt.

Laatste update van het document: 2 jaar geleden

Voorbeeld 10 van de 105  pagina's

  • 1 juni 2022
  • 6 juni 2022
  • 105
  • 2021/2022
  • College aantekeningen
  • Edith van krimpen
  • Alle colleges
book image

Titel boek:

Auteur(s):

  • Uitgave:
  • ISBN:
  • Druk:
Alle documenten voor dit vak (5)
avatar-seller
jlmkuipers
Statistiek III aantekeningen
College 1: Introductie
Statistiek: altijd kijken naar de associatie die bestaat tussen de verschillende variabelen.



Vandaag

1. Opbouw van de cursus
- Achtergrondinformatie
- Samenstelling eindcijfer
- Hoorcolleges
- Consultatie
- Rooster
- Opdrachten
2. Overzicht van de inhoud van de cursus
- Inleiding
- Multipele regressie
- Niet-lineaire regressie
- ANOVA / Herhaalde metingen ANOVA
- ANCOVA

Elke week komen er opgaves op nestor, en ook aangeraden opdrachten uit Agresti.

Statistische onderwerpen

“Vijf” hoofdonderwerpen

1. (Algemene achtergrond, herhaling statistiek 2)
2. Multipele regressie
3. Niet-lineaire regressie: bijv. als we willen voorspellen of iemand stat3 haalt, op basis van
zijn/haar cijfer van stat2.
4. ANOVA
5. ANCOVA  analysis of covariance. Covariaat: continue variabele, naast een categorische
variabele.
6. Herhaalde metingen ANOVA  uitbreiding van de paired t-test.



Samenstelling eindcijfer

Opdrachten:

- Twee verplichte opdrachten, analyse van datasets
- Verplicht
- Scoring: Voldoende of onvoldoende
- Voldoende voor beide opdrachten noodzakelijk voor deelname aan tentamen
- Later meer informatie (Nestor)

Zijn grote opdrachten, waar je twee weken aan werkt. Er worden in deze weken geen colleges
gegeven, zodat je volop met de opdrachten bezig kunt gaan.

,Tentamen:

- Meerkeuze tentamen aan het eind van blok 2b in A.J. Hal
- Enkele formules op formulekaart (binnenkort op Nestor te vinden) en tabellen

Eindcijfer Stat3

- Als beide opdrachten voldoende: Eindcijfer = cijfer op het tentamen (of herkansing)

We hebben in totaal 10 hoorcolleges, 5 in blok 2a en 5 in blok 2b.

Achtergrond theorie, introductie opdrachten, bespreken voorbeeldtentamen.

Niet alles dat “belangrijk” is wordt besproken op de hoorcolleges!

Consultatie

Biedt extra ondersteuning bij het maken van de opdrachten.

Hoe precies? Wordt binnenkort bekend gemaakt op Nestor/

GEEN vervanging van hoorcolleges.

Heb het volgende bij de hand:

- Je dataset
- Je output en SPSS Syntax
- Je specifieke vragen  dus niet: ik weet niet waar ik moet beginnen.

Bereid jezelf voor voordat je een beroep doet op consultatie!



Belangrijke data

Start & deadline Opdracht 1 (blok 2a) 10 maart 15:00 – 23 maart 17:00

Start & deadline Opdracht 2 (blok 2b) 19 mei 15:00 – 1 juni 17:00

Tentamen: 13 juni 12.15 – 14.15 uur A.J. Hal

Herkansing: 6 juli 12.15 – 14.15 uur A.J. Hal



Opdrachten

Wat komt er in je opdracht

- Beschrijving van de data
- Onderzoeksvragen
- Verklaring waarom de gekozen methode geschikt is
- Controle assumpties (indien van toepassing)
- Resultaten (bijvoorbeeld met SPSS, JASP)
- Verklaring / interpretatie van resultaten: statistisch en algemeen

,Wat komt er NIET in je opdracht

- Delen van output-tabellen die je niet gebruikt
o Bijvoorbeeld: dubbelklik op een figuur/tabel in SPSS om onnodige info te
verwijderen
- Irrelevante informatie

Verder:

- Spelling: niet het meest belangrijke onderdeel, maar wel relevant.
- Consultatie: Wacht niet tot het laatste moment.
- Gebruik het template, te downloaden via Nestor (.doc).
- Inleveren:
o Word bestand
o Noem je opdracht “groep_XX_opdracht1.doc” en “groep_XX_opdracht2.doc”
o Uploaden/inleveren via Nestor
- Slechts enkele delen van de opdrachten worden beoordeeld (de delen die direct
gerelateerd zijn aan de statistische analyses).
- Meer informatie volgt bij de start van de opdrachten.



Hoe slim, effectief & efficiënt studeren?

- Voorbereiding  download & print de slides & lees literatuur.
- College  ga naar college, reken na afloop de voorbeeld in de slides zelf na.
- Oefenen deel I: maar exercises van betreffende week (genereer output en reken
handmatig van alles na) (vanaf week 2).
- Oefenen deel II: maak nog enkele opgaven uit Agresti (Nestor) (vanaf week 2)
- Vragen stellen: stuur een mail en ik (Edith) maak een video (vanaf week 2)



Inleiding

Statistiek 3 gaat verder waar Statistiek 2 is gebleven.

- Meer ANOVA, meer Regressie en verdieping.
- Vijf hoofdonderwerpen:
1. Multipele regressie
2. Niet-lineaire regressie
3. ANOVA
4. ANCOVA
5. Herhaalde metingen ANOVA

Deze week:

- Grootste deel herhaling van statistiek 2 kennis
- Voornamelijk enkelvoudige regressie en controle aannames

,Overzicht van de inhoud van de cursus

Multipele regressie

Doel van een model: Het geven van een helder, goed te interpreteren overzicht van de populatie.
Een zo goed mogelijke beschrijving van samenhang van de variabelen in de populatie. Het liefst een
zo eenvoudig mogelijk model, die wel een goede beschrijving van de populatie geeft. Deze twee
dingen gaan niet samen.

Wat wil je in een model:

- Model dat de populatie goed beschrijft (hoge 𝑅2 )  goede model fit.
- Model dat goed te interpreteren is:
o (A) 𝑌 = 𝑎 + 𝑏1𝑋 is eenvoudiger dan
o (B) 𝑌 = 𝑎 + 𝑏1𝑋1 + 𝑏2𝑋2+…+𝑏10𝑋10  niet makkelijk te interpreteren, doordat
er meer variabelen in het model zitten, dus ook meer partiële correlaties.
- Hoewel de 𝑅2 voor B beter is dan voor A

Wisselwerking tussen aantal variabelen en verklaarde variantie. Hoe beslissen? We kunnen hiervoor
bijv. kijken naar de partiële en de semi-partiële correlaties. Is winst in 𝑅2 significant?

Multipele regressive – voorbeeld

- Afhankelijke variabele: 𝑌 = salary
- IVs: 𝑋1 = time, 𝑋2 = pubs, 𝑋3 = female dummy , 𝑋4 = cits
- Doel: voorspellen van 𝑌 met zo min mogelijk IVs




Alle variabelen, behalve FEMALE, hebben significante correlatie met Y.

,Maar het is niet noodzakelijk alle IV’s te gebruiken (multicollineariteit).




Wat als we alle variabelen gebruiken, de eerste tabel. Dan hebben we een R 2 van 0.503.

Wat als we FEMALE eruit halen, tweede tabel, dan zien we dat de R 2 waarde nauwelijks kleiner
wordt. Een piepklein verschil, maar het model wordt er wel eenvoudiger door, aangezien we nu één
variabele minder hebben.

We kunnen ervanuit gaan, dat als iemand veel publiceert, deze persoon waarschijnlijk ook wel veel
geciteerd wordt. Je zou er dus voor kunnen kiezen om of alleen de hoeveelheid publicaties, of alleen
de hoeveelheid citaties in het model op te nemen.

Dus wat nou als je alleen citations en werkervaring opneemt in je model, hoeveel R 2 moet je dan
inleveren? Dan krijgen we een R2 van 0.491, het is dus wel iets minder, maar de modelpassing is nog
steeds best prima en we hebben een eenvoudiger model. Kiezen we voor het model met de iets
hogere R2 en dus een betere model passing, maar wel een ingewikkelder model? Of ga ik voor het
model met minder variabelen, dus eenvoudiger, maar daarmee ook een iets minder goede model
passing.

We willen zo goed mogelijke voorspelling krijgen, waar natuurlijk de samenhang tussen de variabelen
in verpakt zit. Als we naar het plaatje kijken dan zien we rode en groene stippen. De groene stippen
zijn de voorspelde waardes met het volledige model, dus met 4 variabelen. Als we kijken naar het
eenvoudigere model, met drie variabelen, de rode stippen, dan zien we dat de rode en de groene
stippen enorm dichtbij elkaar liggen. Dus, dat het betreft de voorspellingen, niet echt veel verschilt.

,Niet-lineaire regressie – CH14, CH15

Onderscheid niet-linaire relaties & niet-lineaire modellen  CH14.

Een curvi lineaire relatie: iets is niet lineair, maar er is wel een relatie.
Hierbij kun je dus soms wel een lineair model gebruiken.

Logistische regressie (een niet-lineair model): als DV Y dichotoom (0,
1 variabele) is  CH15

Niet-lineaire regressie: Kwadratische regressie

Plot: X1 vs. Y en regressielijn



Regressielijn helpt bij voorspelling, maar is niet perfect

Plot X1 vs. residu = Y – Y^ (ŷ

met hoofdletter).

Duidelijk niet-lineair patroon. Een niet-lineaire samenhang. Ook wel
een curvi-lineaire relatie. 

Als we een parabool kunnen maken, dan spreken we van een
kwardratische regressie.



Plot: X1 vs. Residuen van de regressie 𝑌^ = 𝑎 + 𝑏1𝑋 + 𝑏2 𝑋 2

Residuen kleiner en geen patroon  betere fit

Polynome regressie, we kunnen beter komen met een parabool dan
een recht lijn.

Hier hebben curvi-lineaire relatie gefixed met een lineair model.



Simple linear regression: Y^i = a + byxXi

Multiple linear regression: Y^ = a + b1X1 + … + bpXp

Onafhankelijke variabelen (IV’s):

- Continue variabelen en code variabelen.

In een lineair regressiemodel:

- Afhankelijke variabele Y is continue variabele

Maar wat als:

,Niet-lineaire regressie: logistische regressie




In dit voorbeeld: of iemand op de basis van het aantal publicaties wat diegene heeft, wel of niet
promotie krijgt. Als we alleen naar de output tabellen kijken, dan lijkt er niet veel mis te zijn. Daarom
moeten we plaatjes maken. We zien hier dat de output nergens op slaat, aangezien onze y-waarde
alleen maar 0 of 1 is. We hebben te maken met een slechte fit en een moeilijke interpretatie. Maar
cruciaal: er zijn aannames geschonden, waardoor we geen fatsoenlijke conclusies kunnen trekken.




We hebben bijvoorbeeld problemen met homoscedasticiteit, met normaliteit van residuen, etc.

Als we de logit-transformatie toepassen, dan schatten we een S puntenwolk. Je kijkt nu ook een
intercept en een helling, maar ze zijn niet meer lineair.

,Volgende blok: ANOVA / repeated measures ANOVA – CH12

Vergelijken van gemiddelden van meer dan twee groepen.

- Uitbreiding van two-sample t-test

Als regressiemodel met code-variabelen als onafhankelijke variabelen

Repeated Measures : meerdere metingen per persoon, het zijn geen
onafhankelijke gemiddeldes. We gaan per lijntje kijken. Zien we bij
iedereen een positief verschil tussen de eerst en tweede meting, en
dan weer een positief verschil tussen de tweede en derde meting. We
gaan kijken of we de verschillen in de personen kunnen vergelijken.

- Uitbreiding van paired-samples t-test

ANCOVA – CH13

We gaan verschillende groepen vergelijken, maar we hebben nu bijv. een continue variabele die ook
samenhangt met de uitkomst. We willen de
verschillen tussen de regressielijnen onderzoeken.

Er wordt een continue voorspeller (covariaat, fixed
value) toegevoegd aan ANOVA modellen. Dan gaan
we de verschillen tussen de gemiddeldes van de
groepen vergelijken, we kijken dan naar de adjusted
means.

Je kunt statistisch controleren/aanpassen voor
verschillen in covariaat.

Interacties tussen continue en categorische
voorspellers.

Verminderde error variantie

Statistics overview – college 9

Welke procedure wanneer gebruiken? Wat als er niet aan de assumpties is voldaan?

,College 2: Multiple regression
Vandaag

1. Wat willen we nu eigenlijk onderzoeken?
2. Simple linear regression
3. Multiple linear regression
- Multipele regressie met 2 IV’s
- Berekenen van regressiecoëfficiënten
- Maten voor associatie:
o Multiple 𝑅 en 𝑅 2
o Semi-partiële / partiële correlatiecoëfficiënten
- Multipele regressie met >2 IV’s
- Statistische inferentie met >2 IV’s



Wat willen we nu eigenlijk onderzoeken?

Samenhang tussen verschillende variabelen onderzoeken.

Is er een relatie tussen …

- Cell phone use (CPU) & Anxiety & Academic performance & General life satisfaction?
- Alcoholconsumptie & Mortality & Leeftijd? We weten allemaal dat hoe ouder je bent,
hoe eerder je dood zal gaan. We moeten dit soort feiten ook meenemen in onderzoek.
- Anger expression & Geslacht & Sport?

Wat willen we nu eigenlijk onderzoeken? Waarom regressie?

Samenhang / associatie onderzoeken tussen verschillende variabelen.

Lineaire regressie kan heel veel van dit soort relaties onderzoeken:

- Simple linear regression: 1 DV & 1 IV
- Multiple linear regression: 1 DV & meerdere IV’s plus eventuele interacties
- 1-ANOVA: 1 DV & 1 categorische IV met code-variabelen
- 2-ANOVA: 1 DV & 2 categorische IV’s met code-variabelen voor elke
factor

Regressiemodel

= prediction model, alles draait om voorspellen.

= een eenvoudige maar veelzijdige benadering van de relatie tussen variabelen

Maar: associatie ≠ causaliteit

Binnen de gedragswetenschap zijn lineaire modellen simpelweg het model om onzze data mee te
analyseren.

, Simple linear regression

𝑥 = Onafhankelijke variabele, IV, voorspeller, predictor

𝑦 = Afhankelijke variabele, DV, response variabele

Geschatte regressielijn: ŷ = a + bx

b = regressiecoëfficiënt / helling / slope

a = intercept, geschatte waarde van ŷ bij x = 0, het snijpunt
met de y-as.

e = residuen steekproef

We hebben nu een model, waarmee we op verschillende
manier dingen kun schatten. Bijv. het kleinste kwadraten
criterium, de fout die we maken in de voorspelling willen we
zo klein mogelijk houden. OLS  ordinary least squared. We
kunnen hiermee de helling schatten, als zijnde de correlatie tussen y en x, vermenigvuldigt met de
standaarddeviate van y, gedeeld door de sd van x. De intercept kunnen we dan ook gemakkelijk
uitrekenen.

Formules (OLS) methode:

Assumpties simple linear regression

Assumptie 1: lineariteit

- We verwachten dat het gemiddelde van y. lineair gerelateerd is aan x. We
veronderstellen een lineaire relatie tussen 𝑥 en het gemiddelde van 𝑦: 𝜇𝑦 = 𝛼 + 𝛽𝑥
Verwachte waarde van 𝑦 gegeven waarde 𝑥:



Assumptie 2: homoscedasticiteit

- Alle subpopulaties voor elke waarde van 𝑥 zijn normaal
verdeeld met gelijke variantie ơ. Voor de conditionele
verdelingen die we zien, dat die allemaal dezelfde
spreiding hebben, bijv. dezelfde standaarddeviatie of
dezelfde variantie. Voor elke subpopulatie, gedefinieerd
door een x-waarde, vinden we een normale verdeling
van y-scores, maar de standaarddeviatie is elke keer gelijk. De spreiding rondom de
regressielijn is overal ongeveer gelijk.

Assumptie 3: onafhankelijkheid en normaliteit van de residuen

- Residuen 𝜀𝑖~𝑁 0, 𝜎 zijn onafhankelijk van x. gemiddelde van 0 en een constante variantie.

Als er voldaan is aan al deze voorwaarden, dan krijg je output die je met goed fatsoen kan
interpreteren.

Het gaat erom: wat betekent het allemaal? Wat kan ik ermee? Welke conclusies kan ik trekken?

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper jlmkuipers. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €9,99. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 67866 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen
€9,99  2x  verkocht
  • (0)
  Kopen