Lecture notes

Statistiek 3 Aantekeningen

2 purchases

Module
Statistiek 3 (PSBA12)

Institution
Rijksuniversiteit Groningen (RuG)

Book
Statistical Methods for the Social Sciences, Global Edition

Dit document bevat zeer uitgebreide aantekeningen van de cursus Statistiek 3, academisch jaar 2021/2022. Het zijn aantekeningen met alle uitleg die mevrouw Van Krimpen erbij heeft gegeven. Het bevat veel illustraties voor een duidelijke uitleg. Alle dia's zijn in de aantekeningen verwerkt.

[Show more]

Last document update: 2 year ago

Preview 10 out of 105 pages

View example

Uploaded on June 1, 2022
File latest updated on June 6, 2022
Number of pages 105
Written in 2021/2022
Type Lecture notes
Professor(s) Edith van krimpen
Contains All classes

statistiek
statistics
semi partiele correlatie
correlatie
regressie
f waarde
t waarde
partiele correlatie
multipele regressie
spss
lineaire relaties
curvilineaire relaties
transformatie
sequentiele re

Book Title:Statistical Methods for the Social Sciences, Global Edition

Author(s):Alan Agresti, Barbara Finlay

Edition:april 2018
ISBN:9781292220314
Edition:5

Institution
Rijksuniversiteit Groningen (RuG)
Education
Psychologie
Module
Statistiek 3 (PSBA12)

jlmkuipers

Member since 4 year 163 documents sold

$11.68

Add to cart

Save

100% satisfaction guarantee
Immediately available after payment
Both online and in PDF
No strings attached

Statistiek III aantekeningen
College 1: Introductie
Statistiek: altijd kijken naar de associatie die bestaat tussen de verschillende variabelen.

Vandaag

1. Opbouw van de cursus
- Achtergrondinformatie
- Samenstelling eindcijfer
- Hoorcolleges
- Consultatie
- Rooster
- Opdrachten
2. Overzicht van de inhoud van de cursus
- Inleiding
- Multipele regressie
- Niet-lineaire regressie
- ANOVA / Herhaalde metingen ANOVA
- ANCOVA

Elke week komen er opgaves op nestor, en ook aangeraden opdrachten uit Agresti.

Statistische onderwerpen

“Vijf” hoofdonderwerpen

1. (Algemene achtergrond, herhaling statistiek 2)
2. Multipele regressie
3. Niet-lineaire regressie: bijv. als we willen voorspellen of iemand stat3 haalt, op basis van
zijn/haar cijfer van stat2.
4. ANOVA
5. ANCOVA  analysis of covariance. Covariaat: continue variabele, naast een categorische
variabele.
6. Herhaalde metingen ANOVA  uitbreiding van de paired t-test.

Samenstelling eindcijfer

Opdrachten:

- Twee verplichte opdrachten, analyse van datasets
- Verplicht
- Scoring: Voldoende of onvoldoende
- Voldoende voor beide opdrachten noodzakelijk voor deelname aan tentamen
- Later meer informatie (Nestor)

Zijn grote opdrachten, waar je twee weken aan werkt. Er worden in deze weken geen colleges
gegeven, zodat je volop met de opdrachten bezig kunt gaan.

,Tentamen:

- Meerkeuze tentamen aan het eind van blok 2b in A.J. Hal
- Enkele formules op formulekaart (binnenkort op Nestor te vinden) en tabellen

Eindcijfer Stat3

- Als beide opdrachten voldoende: Eindcijfer = cijfer op het tentamen (of herkansing)

We hebben in totaal 10 hoorcolleges, 5 in blok 2a en 5 in blok 2b.

Achtergrond theorie, introductie opdrachten, bespreken voorbeeldtentamen.

Niet alles dat “belangrijk” is wordt besproken op de hoorcolleges!

Consultatie

Biedt extra ondersteuning bij het maken van de opdrachten.

Hoe precies? Wordt binnenkort bekend gemaakt op Nestor/

GEEN vervanging van hoorcolleges.

Heb het volgende bij de hand:

- Je dataset
- Je output en SPSS Syntax
- Je specifieke vragen  dus niet: ik weet niet waar ik moet beginnen.

Bereid jezelf voor voordat je een beroep doet op consultatie!

Belangrijke data

Start & deadline Opdracht 1 (blok 2a) 10 maart 15:00 – 23 maart 17:00

Start & deadline Opdracht 2 (blok 2b) 19 mei 15:00 – 1 juni 17:00

Tentamen: 13 juni 12.15 – 14.15 uur A.J. Hal

Herkansing: 6 juli 12.15 – 14.15 uur A.J. Hal

Opdrachten

Wat komt er in je opdracht

- Beschrijving van de data
- Onderzoeksvragen
- Verklaring waarom de gekozen methode geschikt is
- Controle assumpties (indien van toepassing)
- Resultaten (bijvoorbeeld met SPSS, JASP)
- Verklaring / interpretatie van resultaten: statistisch en algemeen

,Wat komt er NIET in je opdracht

- Delen van output-tabellen die je niet gebruikt
o Bijvoorbeeld: dubbelklik op een figuur/tabel in SPSS om onnodige info te
verwijderen
- Irrelevante informatie

Verder:

- Spelling: niet het meest belangrijke onderdeel, maar wel relevant.
- Consultatie: Wacht niet tot het laatste moment.
- Gebruik het template, te downloaden via Nestor (.doc).
- Inleveren:
o Word bestand
o Noem je opdracht “groep_XX_opdracht1.doc” en “groep_XX_opdracht2.doc”
o Uploaden/inleveren via Nestor
- Slechts enkele delen van de opdrachten worden beoordeeld (de delen die direct
gerelateerd zijn aan de statistische analyses).
- Meer informatie volgt bij de start van de opdrachten.

Hoe slim, effectief & efficiënt studeren?

- Voorbereiding  download & print de slides & lees literatuur.
- College  ga naar college, reken na afloop de voorbeeld in de slides zelf na.
- Oefenen deel I: maar exercises van betreffende week (genereer output en reken
handmatig van alles na) (vanaf week 2).
- Oefenen deel II: maak nog enkele opgaven uit Agresti (Nestor) (vanaf week 2)
- Vragen stellen: stuur een mail en ik (Edith) maak een video (vanaf week 2)

Inleiding

Statistiek 3 gaat verder waar Statistiek 2 is gebleven.

- Meer ANOVA, meer Regressie en verdieping.
- Vijf hoofdonderwerpen:
1. Multipele regressie
2. Niet-lineaire regressie
3. ANOVA
4. ANCOVA
5. Herhaalde metingen ANOVA

Deze week:

- Grootste deel herhaling van statistiek 2 kennis
- Voornamelijk enkelvoudige regressie en controle aannames

,Overzicht van de inhoud van de cursus

Multipele regressie

Doel van een model: Het geven van een helder, goed te interpreteren overzicht van de populatie.
Een zo goed mogelijke beschrijving van samenhang van de variabelen in de populatie. Het liefst een
zo eenvoudig mogelijk model, die wel een goede beschrijving van de populatie geeft. Deze twee
dingen gaan niet samen.

Wat wil je in een model:

- Model dat de populatie goed beschrijft (hoge 𝑅2 )  goede model fit.
- Model dat goed te interpreteren is:
o (A) 𝑌 = 𝑎 + 𝑏1𝑋 is eenvoudiger dan
o (B) 𝑌 = 𝑎 + 𝑏1𝑋1 + 𝑏2𝑋2+…+𝑏10𝑋10  niet makkelijk te interpreteren, doordat
er meer variabelen in het model zitten, dus ook meer partiële correlaties.
- Hoewel de 𝑅2 voor B beter is dan voor A

Wisselwerking tussen aantal variabelen en verklaarde variantie. Hoe beslissen? We kunnen hiervoor
bijv. kijken naar de partiële en de semi-partiële correlaties. Is winst in 𝑅2 significant?

Multipele regressive – voorbeeld

- Afhankelijke variabele: 𝑌 = salary
- IVs: 𝑋1 = time, 𝑋2 = pubs, 𝑋3 = female dummy , 𝑋4 = cits
- Doel: voorspellen van 𝑌 met zo min mogelijk IVs

Alle variabelen, behalve FEMALE, hebben significante correlatie met Y.

,Maar het is niet noodzakelijk alle IV’s te gebruiken (multicollineariteit).

Wat als we alle variabelen gebruiken, de eerste tabel. Dan hebben we een R 2 van 0.503.

Wat als we FEMALE eruit halen, tweede tabel, dan zien we dat de R 2 waarde nauwelijks kleiner
wordt. Een piepklein verschil, maar het model wordt er wel eenvoudiger door, aangezien we nu één
variabele minder hebben.

We kunnen ervanuit gaan, dat als iemand veel publiceert, deze persoon waarschijnlijk ook wel veel
geciteerd wordt. Je zou er dus voor kunnen kiezen om of alleen de hoeveelheid publicaties, of alleen
de hoeveelheid citaties in het model op te nemen.

Dus wat nou als je alleen citations en werkervaring opneemt in je model, hoeveel R 2 moet je dan
inleveren? Dan krijgen we een R2 van 0.491, het is dus wel iets minder, maar de modelpassing is nog
steeds best prima en we hebben een eenvoudiger model. Kiezen we voor het model met de iets
hogere R2 en dus een betere model passing, maar wel een ingewikkelder model? Of ga ik voor het
model met minder variabelen, dus eenvoudiger, maar daarmee ook een iets minder goede model
passing.

We willen zo goed mogelijke voorspelling krijgen, waar natuurlijk de samenhang tussen de variabelen
in verpakt zit. Als we naar het plaatje kijken dan zien we rode en groene stippen. De groene stippen
zijn de voorspelde waardes met het volledige model, dus met 4 variabelen. Als we kijken naar het
eenvoudigere model, met drie variabelen, de rode stippen, dan zien we dat de rode en de groene
stippen enorm dichtbij elkaar liggen. Dus, dat het betreft de voorspellingen, niet echt veel verschilt.

,Niet-lineaire regressie – CH14, CH15

Onderscheid niet-linaire relaties & niet-lineaire modellen  CH14.

Een curvi lineaire relatie: iets is niet lineair, maar er is wel een relatie.
Hierbij kun je dus soms wel een lineair model gebruiken.

Logistische regressie (een niet-lineair model): als DV Y dichotoom (0,
1 variabele) is  CH15

Niet-lineaire regressie: Kwadratische regressie

Plot: X1 vs. Y en regressielijn

Regressielijn helpt bij voorspelling, maar is niet perfect

Plot X1 vs. residu = Y – Y^ (ŷ

met hoofdletter).

Duidelijk niet-lineair patroon. Een niet-lineaire samenhang. Ook wel
een curvi-lineaire relatie. 

Als we een parabool kunnen maken, dan spreken we van een
kwardratische regressie.

Plot: X1 vs. Residuen van de regressie 𝑌^ = 𝑎 + 𝑏1𝑋 + 𝑏2 𝑋 2

Residuen kleiner en geen patroon  betere fit

Polynome regressie, we kunnen beter komen met een parabool dan
een recht lijn.

Hier hebben curvi-lineaire relatie gefixed met een lineair model.

Simple linear regression: Y^i = a + byxXi

Multiple linear regression: Y^ = a + b1X1 + … + bpXp

Onafhankelijke variabelen (IV’s):

- Continue variabelen en code variabelen.

In een lineair regressiemodel:

- Afhankelijke variabele Y is continue variabele

Maar wat als:

,Niet-lineaire regressie: logistische regressie

In dit voorbeeld: of iemand op de basis van het aantal publicaties wat diegene heeft, wel of niet
promotie krijgt. Als we alleen naar de output tabellen kijken, dan lijkt er niet veel mis te zijn. Daarom
moeten we plaatjes maken. We zien hier dat de output nergens op slaat, aangezien onze y-waarde
alleen maar 0 of 1 is. We hebben te maken met een slechte fit en een moeilijke interpretatie. Maar
cruciaal: er zijn aannames geschonden, waardoor we geen fatsoenlijke conclusies kunnen trekken.

We hebben bijvoorbeeld problemen met homoscedasticiteit, met normaliteit van residuen, etc.

Als we de logit-transformatie toepassen, dan schatten we een S puntenwolk. Je kijkt nu ook een
intercept en een helling, maar ze zijn niet meer lineair.

,Volgende blok: ANOVA / repeated measures ANOVA – CH12

Vergelijken van gemiddelden van meer dan twee groepen.

- Uitbreiding van two-sample t-test

Als regressiemodel met code-variabelen als onafhankelijke variabelen

Repeated Measures : meerdere metingen per persoon, het zijn geen
onafhankelijke gemiddeldes. We gaan per lijntje kijken. Zien we bij
iedereen een positief verschil tussen de eerst en tweede meting, en
dan weer een positief verschil tussen de tweede en derde meting. We
gaan kijken of we de verschillen in de personen kunnen vergelijken.

- Uitbreiding van paired-samples t-test

ANCOVA – CH13

We gaan verschillende groepen vergelijken, maar we hebben nu bijv. een continue variabele die ook
samenhangt met de uitkomst. We willen de
verschillen tussen de regressielijnen onderzoeken.

Er wordt een continue voorspeller (covariaat, fixed
value) toegevoegd aan ANOVA modellen. Dan gaan
we de verschillen tussen de gemiddeldes van de
groepen vergelijken, we kijken dan naar de adjusted
means.

Je kunt statistisch controleren/aanpassen voor
verschillen in covariaat.

Interacties tussen continue en categorische
voorspellers.

Verminderde error variantie

Statistics overview – college 9

Welke procedure wanneer gebruiken? Wat als er niet aan de assumpties is voldaan?

,College 2: Multiple regression
Vandaag

1. Wat willen we nu eigenlijk onderzoeken?
2. Simple linear regression
3. Multiple linear regression
- Multipele regressie met 2 IV’s
- Berekenen van regressiecoëfficiënten
- Maten voor associatie:
o Multiple 𝑅 en 𝑅 2
o Semi-partiële / partiële correlatiecoëfficiënten
- Multipele regressie met >2 IV’s
- Statistische inferentie met >2 IV’s

Wat willen we nu eigenlijk onderzoeken?

Samenhang tussen verschillende variabelen onderzoeken.

Is er een relatie tussen …

- Cell phone use (CPU) & Anxiety & Academic performance & General life satisfaction?
- Alcoholconsumptie & Mortality & Leeftijd? We weten allemaal dat hoe ouder je bent,
hoe eerder je dood zal gaan. We moeten dit soort feiten ook meenemen in onderzoek.
- Anger expression & Geslacht & Sport?

Wat willen we nu eigenlijk onderzoeken? Waarom regressie?

Samenhang / associatie onderzoeken tussen verschillende variabelen.

Lineaire regressie kan heel veel van dit soort relaties onderzoeken:

- Simple linear regression: 1 DV & 1 IV
- Multiple linear regression: 1 DV & meerdere IV’s plus eventuele interacties
- 1-ANOVA: 1 DV & 1 categorische IV met code-variabelen
- 2-ANOVA: 1 DV & 2 categorische IV’s met code-variabelen voor elke
factor

Regressiemodel

= prediction model, alles draait om voorspellen.

= een eenvoudige maar veelzijdige benadering van de relatie tussen variabelen

Maar: associatie ≠ causaliteit

Binnen de gedragswetenschap zijn lineaire modellen simpelweg het model om onzze data mee te
analyseren.

, Simple linear regression

𝑥 = Onafhankelijke variabele, IV, voorspeller, predictor

𝑦 = Afhankelijke variabele, DV, response variabele

Geschatte regressielijn: ŷ = a + bx

b = regressiecoëfficiënt / helling / slope

a = intercept, geschatte waarde van ŷ bij x = 0, het snijpunt
met de y-as.

e = residuen steekproef

We hebben nu een model, waarmee we op verschillende
manier dingen kun schatten. Bijv. het kleinste kwadraten
criterium, de fout die we maken in de voorspelling willen we
zo klein mogelijk houden. OLS  ordinary least squared. We
kunnen hiermee de helling schatten, als zijnde de correlatie tussen y en x, vermenigvuldigt met de
standaarddeviate van y, gedeeld door de sd van x. De intercept kunnen we dan ook gemakkelijk
uitrekenen.

Formules (OLS) methode:

Assumpties simple linear regression

Assumptie 1: lineariteit

- We verwachten dat het gemiddelde van y. lineair gerelateerd is aan x. We
veronderstellen een lineaire relatie tussen 𝑥 en het gemiddelde van 𝑦: 𝜇𝑦 = 𝛼 + 𝛽𝑥
Verwachte waarde van 𝑦 gegeven waarde 𝑥:

Assumptie 2: homoscedasticiteit

- Alle subpopulaties voor elke waarde van 𝑥 zijn normaal
verdeeld met gelijke variantie ơ. Voor de conditionele
verdelingen die we zien, dat die allemaal dezelfde
spreiding hebben, bijv. dezelfde standaarddeviatie of
dezelfde variantie. Voor elke subpopulatie, gedefinieerd
door een x-waarde, vinden we een normale verdeling
van y-scores, maar de standaarddeviatie is elke keer gelijk. De spreiding rondom de
regressielijn is overal ongeveer gelijk.

Assumptie 3: onafhankelijkheid en normaliteit van de residuen

- Residuen 𝜀𝑖~𝑁 0, 𝜎 zijn onafhankelijk van x. gemiddelde van 0 en een constante variantie.

Als er voldaan is aan al deze voorwaarden, dan krijg je output die je met goed fatsoen kan
interpreteren.

Het gaat erom: wat betekent het allemaal? Wat kan ik ermee? Welke conclusies kan ik trekken?

The benefits of buying summaries with Stuvia:

Guaranteed quality through customer reviews

Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.

Quick and easy check-out

You can quickly pay through credit card for the summaries. There is no membership needed.

Focus on what matters

Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller jlmkuipers. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $11.68. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews)

76388 documents were sold in the last 30 days

Founded in 2010, the go-to place to buy revision notes and other study material for 15 years now

Start selling

Seller

Summary ·

Lecture notes ·

Summary ·

Summary ·

Essay ·

Lecture notes

Statistiek 3 Aantekeningen

Document information

Subjects

Connected book

Written for

Seller

Reviews received

Content preview

The benefits of buying summaries with Stuvia:

Guaranteed quality through customer reviews

Quick and easy check-out

Focus on what matters

Frequently asked questions

What do I get when I buy this document?

Satisfaction guarantee: how does it work?

Who am I buying these notes from?

Will I be stuck with a subscription?

Can Stuvia be trusted?

Recently viewed by you

Summary ·

Samenvatting Groepsdynamica

Lecture notes ·

Antropologie aantekeningen

Summary ·

Samenvatting Sociaal Recht

Summary ·

Summary - Criminal Law

Essay ·

Minimum Wage 9 Marker