Garantie de satisfaction à 100% Disponible immédiatement après paiement En ligne et en PDF Tu n'es attaché à rien
logo-home
Statistiek 3 Aantekeningen €9,99   Ajouter au panier

Notes de cours

Statistiek 3 Aantekeningen

 44 vues  2 fois vendu
  • Cours
  • Établissement
  • Book

Dit document bevat zeer uitgebreide aantekeningen van de cursus Statistiek 3, academisch jaar 2021/2022. Het zijn aantekeningen met alle uitleg die mevrouw Van Krimpen erbij heeft gegeven. Het bevat veel illustraties voor een duidelijke uitleg. Alle dia's zijn in de aantekeningen verwerkt.

Dernier document publié: 2 année de cela

Aperçu 10 sur 105  pages

  • 1 juin 2022
  • 6 juin 2022
  • 105
  • 2021/2022
  • Notes de cours
  • Edith van krimpen
  • Toutes les classes
avatar-seller
Statistiek III aantekeningen
College 1: Introductie
Statistiek: altijd kijken naar de associatie die bestaat tussen de verschillende variabelen.



Vandaag

1. Opbouw van de cursus
- Achtergrondinformatie
- Samenstelling eindcijfer
- Hoorcolleges
- Consultatie
- Rooster
- Opdrachten
2. Overzicht van de inhoud van de cursus
- Inleiding
- Multipele regressie
- Niet-lineaire regressie
- ANOVA / Herhaalde metingen ANOVA
- ANCOVA

Elke week komen er opgaves op nestor, en ook aangeraden opdrachten uit Agresti.

Statistische onderwerpen

“Vijf” hoofdonderwerpen

1. (Algemene achtergrond, herhaling statistiek 2)
2. Multipele regressie
3. Niet-lineaire regressie: bijv. als we willen voorspellen of iemand stat3 haalt, op basis van
zijn/haar cijfer van stat2.
4. ANOVA
5. ANCOVA  analysis of covariance. Covariaat: continue variabele, naast een categorische
variabele.
6. Herhaalde metingen ANOVA  uitbreiding van de paired t-test.



Samenstelling eindcijfer

Opdrachten:

- Twee verplichte opdrachten, analyse van datasets
- Verplicht
- Scoring: Voldoende of onvoldoende
- Voldoende voor beide opdrachten noodzakelijk voor deelname aan tentamen
- Later meer informatie (Nestor)

Zijn grote opdrachten, waar je twee weken aan werkt. Er worden in deze weken geen colleges
gegeven, zodat je volop met de opdrachten bezig kunt gaan.

,Tentamen:

- Meerkeuze tentamen aan het eind van blok 2b in A.J. Hal
- Enkele formules op formulekaart (binnenkort op Nestor te vinden) en tabellen

Eindcijfer Stat3

- Als beide opdrachten voldoende: Eindcijfer = cijfer op het tentamen (of herkansing)

We hebben in totaal 10 hoorcolleges, 5 in blok 2a en 5 in blok 2b.

Achtergrond theorie, introductie opdrachten, bespreken voorbeeldtentamen.

Niet alles dat “belangrijk” is wordt besproken op de hoorcolleges!

Consultatie

Biedt extra ondersteuning bij het maken van de opdrachten.

Hoe precies? Wordt binnenkort bekend gemaakt op Nestor/

GEEN vervanging van hoorcolleges.

Heb het volgende bij de hand:

- Je dataset
- Je output en SPSS Syntax
- Je specifieke vragen  dus niet: ik weet niet waar ik moet beginnen.

Bereid jezelf voor voordat je een beroep doet op consultatie!



Belangrijke data

Start & deadline Opdracht 1 (blok 2a) 10 maart 15:00 – 23 maart 17:00

Start & deadline Opdracht 2 (blok 2b) 19 mei 15:00 – 1 juni 17:00

Tentamen: 13 juni 12.15 – 14.15 uur A.J. Hal

Herkansing: 6 juli 12.15 – 14.15 uur A.J. Hal



Opdrachten

Wat komt er in je opdracht

- Beschrijving van de data
- Onderzoeksvragen
- Verklaring waarom de gekozen methode geschikt is
- Controle assumpties (indien van toepassing)
- Resultaten (bijvoorbeeld met SPSS, JASP)
- Verklaring / interpretatie van resultaten: statistisch en algemeen

,Wat komt er NIET in je opdracht

- Delen van output-tabellen die je niet gebruikt
o Bijvoorbeeld: dubbelklik op een figuur/tabel in SPSS om onnodige info te
verwijderen
- Irrelevante informatie

Verder:

- Spelling: niet het meest belangrijke onderdeel, maar wel relevant.
- Consultatie: Wacht niet tot het laatste moment.
- Gebruik het template, te downloaden via Nestor (.doc).
- Inleveren:
o Word bestand
o Noem je opdracht “groep_XX_opdracht1.doc” en “groep_XX_opdracht2.doc”
o Uploaden/inleveren via Nestor
- Slechts enkele delen van de opdrachten worden beoordeeld (de delen die direct
gerelateerd zijn aan de statistische analyses).
- Meer informatie volgt bij de start van de opdrachten.



Hoe slim, effectief & efficiënt studeren?

- Voorbereiding  download & print de slides & lees literatuur.
- College  ga naar college, reken na afloop de voorbeeld in de slides zelf na.
- Oefenen deel I: maar exercises van betreffende week (genereer output en reken
handmatig van alles na) (vanaf week 2).
- Oefenen deel II: maak nog enkele opgaven uit Agresti (Nestor) (vanaf week 2)
- Vragen stellen: stuur een mail en ik (Edith) maak een video (vanaf week 2)



Inleiding

Statistiek 3 gaat verder waar Statistiek 2 is gebleven.

- Meer ANOVA, meer Regressie en verdieping.
- Vijf hoofdonderwerpen:
1. Multipele regressie
2. Niet-lineaire regressie
3. ANOVA
4. ANCOVA
5. Herhaalde metingen ANOVA

Deze week:

- Grootste deel herhaling van statistiek 2 kennis
- Voornamelijk enkelvoudige regressie en controle aannames

,Overzicht van de inhoud van de cursus

Multipele regressie

Doel van een model: Het geven van een helder, goed te interpreteren overzicht van de populatie.
Een zo goed mogelijke beschrijving van samenhang van de variabelen in de populatie. Het liefst een
zo eenvoudig mogelijk model, die wel een goede beschrijving van de populatie geeft. Deze twee
dingen gaan niet samen.

Wat wil je in een model:

- Model dat de populatie goed beschrijft (hoge 𝑅2 )  goede model fit.
- Model dat goed te interpreteren is:
o (A) 𝑌 = 𝑎 + 𝑏1𝑋 is eenvoudiger dan
o (B) 𝑌 = 𝑎 + 𝑏1𝑋1 + 𝑏2𝑋2+…+𝑏10𝑋10  niet makkelijk te interpreteren, doordat
er meer variabelen in het model zitten, dus ook meer partiële correlaties.
- Hoewel de 𝑅2 voor B beter is dan voor A

Wisselwerking tussen aantal variabelen en verklaarde variantie. Hoe beslissen? We kunnen hiervoor
bijv. kijken naar de partiële en de semi-partiële correlaties. Is winst in 𝑅2 significant?

Multipele regressive – voorbeeld

- Afhankelijke variabele: 𝑌 = salary
- IVs: 𝑋1 = time, 𝑋2 = pubs, 𝑋3 = female dummy , 𝑋4 = cits
- Doel: voorspellen van 𝑌 met zo min mogelijk IVs




Alle variabelen, behalve FEMALE, hebben significante correlatie met Y.

,Maar het is niet noodzakelijk alle IV’s te gebruiken (multicollineariteit).




Wat als we alle variabelen gebruiken, de eerste tabel. Dan hebben we een R 2 van 0.503.

Wat als we FEMALE eruit halen, tweede tabel, dan zien we dat de R 2 waarde nauwelijks kleiner
wordt. Een piepklein verschil, maar het model wordt er wel eenvoudiger door, aangezien we nu één
variabele minder hebben.

We kunnen ervanuit gaan, dat als iemand veel publiceert, deze persoon waarschijnlijk ook wel veel
geciteerd wordt. Je zou er dus voor kunnen kiezen om of alleen de hoeveelheid publicaties, of alleen
de hoeveelheid citaties in het model op te nemen.

Dus wat nou als je alleen citations en werkervaring opneemt in je model, hoeveel R 2 moet je dan
inleveren? Dan krijgen we een R2 van 0.491, het is dus wel iets minder, maar de modelpassing is nog
steeds best prima en we hebben een eenvoudiger model. Kiezen we voor het model met de iets
hogere R2 en dus een betere model passing, maar wel een ingewikkelder model? Of ga ik voor het
model met minder variabelen, dus eenvoudiger, maar daarmee ook een iets minder goede model
passing.

We willen zo goed mogelijke voorspelling krijgen, waar natuurlijk de samenhang tussen de variabelen
in verpakt zit. Als we naar het plaatje kijken dan zien we rode en groene stippen. De groene stippen
zijn de voorspelde waardes met het volledige model, dus met 4 variabelen. Als we kijken naar het
eenvoudigere model, met drie variabelen, de rode stippen, dan zien we dat de rode en de groene
stippen enorm dichtbij elkaar liggen. Dus, dat het betreft de voorspellingen, niet echt veel verschilt.

,Niet-lineaire regressie – CH14, CH15

Onderscheid niet-linaire relaties & niet-lineaire modellen  CH14.

Een curvi lineaire relatie: iets is niet lineair, maar er is wel een relatie.
Hierbij kun je dus soms wel een lineair model gebruiken.

Logistische regressie (een niet-lineair model): als DV Y dichotoom (0,
1 variabele) is  CH15

Niet-lineaire regressie: Kwadratische regressie

Plot: X1 vs. Y en regressielijn



Regressielijn helpt bij voorspelling, maar is niet perfect

Plot X1 vs. residu = Y – Y^ (ŷ

met hoofdletter).

Duidelijk niet-lineair patroon. Een niet-lineaire samenhang. Ook wel
een curvi-lineaire relatie. 

Als we een parabool kunnen maken, dan spreken we van een
kwardratische regressie.



Plot: X1 vs. Residuen van de regressie 𝑌^ = 𝑎 + 𝑏1𝑋 + 𝑏2 𝑋 2

Residuen kleiner en geen patroon  betere fit

Polynome regressie, we kunnen beter komen met een parabool dan
een recht lijn.

Hier hebben curvi-lineaire relatie gefixed met een lineair model.



Simple linear regression: Y^i = a + byxXi

Multiple linear regression: Y^ = a + b1X1 + … + bpXp

Onafhankelijke variabelen (IV’s):

- Continue variabelen en code variabelen.

In een lineair regressiemodel:

- Afhankelijke variabele Y is continue variabele

Maar wat als:

,Niet-lineaire regressie: logistische regressie




In dit voorbeeld: of iemand op de basis van het aantal publicaties wat diegene heeft, wel of niet
promotie krijgt. Als we alleen naar de output tabellen kijken, dan lijkt er niet veel mis te zijn. Daarom
moeten we plaatjes maken. We zien hier dat de output nergens op slaat, aangezien onze y-waarde
alleen maar 0 of 1 is. We hebben te maken met een slechte fit en een moeilijke interpretatie. Maar
cruciaal: er zijn aannames geschonden, waardoor we geen fatsoenlijke conclusies kunnen trekken.




We hebben bijvoorbeeld problemen met homoscedasticiteit, met normaliteit van residuen, etc.

Als we de logit-transformatie toepassen, dan schatten we een S puntenwolk. Je kijkt nu ook een
intercept en een helling, maar ze zijn niet meer lineair.

,Volgende blok: ANOVA / repeated measures ANOVA – CH12

Vergelijken van gemiddelden van meer dan twee groepen.

- Uitbreiding van two-sample t-test

Als regressiemodel met code-variabelen als onafhankelijke variabelen

Repeated Measures : meerdere metingen per persoon, het zijn geen
onafhankelijke gemiddeldes. We gaan per lijntje kijken. Zien we bij
iedereen een positief verschil tussen de eerst en tweede meting, en
dan weer een positief verschil tussen de tweede en derde meting. We
gaan kijken of we de verschillen in de personen kunnen vergelijken.

- Uitbreiding van paired-samples t-test

ANCOVA – CH13

We gaan verschillende groepen vergelijken, maar we hebben nu bijv. een continue variabele die ook
samenhangt met de uitkomst. We willen de
verschillen tussen de regressielijnen onderzoeken.

Er wordt een continue voorspeller (covariaat, fixed
value) toegevoegd aan ANOVA modellen. Dan gaan
we de verschillen tussen de gemiddeldes van de
groepen vergelijken, we kijken dan naar de adjusted
means.

Je kunt statistisch controleren/aanpassen voor
verschillen in covariaat.

Interacties tussen continue en categorische
voorspellers.

Verminderde error variantie

Statistics overview – college 9

Welke procedure wanneer gebruiken? Wat als er niet aan de assumpties is voldaan?

,College 2: Multiple regression
Vandaag

1. Wat willen we nu eigenlijk onderzoeken?
2. Simple linear regression
3. Multiple linear regression
- Multipele regressie met 2 IV’s
- Berekenen van regressiecoëfficiënten
- Maten voor associatie:
o Multiple 𝑅 en 𝑅 2
o Semi-partiële / partiële correlatiecoëfficiënten
- Multipele regressie met >2 IV’s
- Statistische inferentie met >2 IV’s



Wat willen we nu eigenlijk onderzoeken?

Samenhang tussen verschillende variabelen onderzoeken.

Is er een relatie tussen …

- Cell phone use (CPU) & Anxiety & Academic performance & General life satisfaction?
- Alcoholconsumptie & Mortality & Leeftijd? We weten allemaal dat hoe ouder je bent,
hoe eerder je dood zal gaan. We moeten dit soort feiten ook meenemen in onderzoek.
- Anger expression & Geslacht & Sport?

Wat willen we nu eigenlijk onderzoeken? Waarom regressie?

Samenhang / associatie onderzoeken tussen verschillende variabelen.

Lineaire regressie kan heel veel van dit soort relaties onderzoeken:

- Simple linear regression: 1 DV & 1 IV
- Multiple linear regression: 1 DV & meerdere IV’s plus eventuele interacties
- 1-ANOVA: 1 DV & 1 categorische IV met code-variabelen
- 2-ANOVA: 1 DV & 2 categorische IV’s met code-variabelen voor elke
factor

Regressiemodel

= prediction model, alles draait om voorspellen.

= een eenvoudige maar veelzijdige benadering van de relatie tussen variabelen

Maar: associatie ≠ causaliteit

Binnen de gedragswetenschap zijn lineaire modellen simpelweg het model om onzze data mee te
analyseren.

, Simple linear regression

𝑥 = Onafhankelijke variabele, IV, voorspeller, predictor

𝑦 = Afhankelijke variabele, DV, response variabele

Geschatte regressielijn: ŷ = a + bx

b = regressiecoëfficiënt / helling / slope

a = intercept, geschatte waarde van ŷ bij x = 0, het snijpunt
met de y-as.

e = residuen steekproef

We hebben nu een model, waarmee we op verschillende
manier dingen kun schatten. Bijv. het kleinste kwadraten
criterium, de fout die we maken in de voorspelling willen we
zo klein mogelijk houden. OLS  ordinary least squared. We
kunnen hiermee de helling schatten, als zijnde de correlatie tussen y en x, vermenigvuldigt met de
standaarddeviate van y, gedeeld door de sd van x. De intercept kunnen we dan ook gemakkelijk
uitrekenen.

Formules (OLS) methode:

Assumpties simple linear regression

Assumptie 1: lineariteit

- We verwachten dat het gemiddelde van y. lineair gerelateerd is aan x. We
veronderstellen een lineaire relatie tussen 𝑥 en het gemiddelde van 𝑦: 𝜇𝑦 = 𝛼 + 𝛽𝑥
Verwachte waarde van 𝑦 gegeven waarde 𝑥:



Assumptie 2: homoscedasticiteit

- Alle subpopulaties voor elke waarde van 𝑥 zijn normaal
verdeeld met gelijke variantie ơ. Voor de conditionele
verdelingen die we zien, dat die allemaal dezelfde
spreiding hebben, bijv. dezelfde standaarddeviatie of
dezelfde variantie. Voor elke subpopulatie, gedefinieerd
door een x-waarde, vinden we een normale verdeling
van y-scores, maar de standaarddeviatie is elke keer gelijk. De spreiding rondom de
regressielijn is overal ongeveer gelijk.

Assumptie 3: onafhankelijkheid en normaliteit van de residuen

- Residuen 𝜀𝑖~𝑁 0, 𝜎 zijn onafhankelijk van x. gemiddelde van 0 en een constante variantie.

Als er voldaan is aan al deze voorwaarden, dan krijg je output die je met goed fatsoen kan
interpreteren.

Het gaat erom: wat betekent het allemaal? Wat kan ik ermee? Welke conclusies kan ik trekken?

Les avantages d'acheter des résumés chez Stuvia:

Qualité garantie par les avis des clients

Qualité garantie par les avis des clients

Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.

L’achat facile et rapide

L’achat facile et rapide

Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.

Focus sur l’essentiel

Focus sur l’essentiel

Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.

Foire aux questions

Qu'est-ce que j'obtiens en achetant ce document ?

Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.

Garantie de remboursement : comment ça marche ?

Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.

Auprès de qui est-ce que j'achète ce résumé ?

Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur jlmkuipers. Stuvia facilite les paiements au vendeur.

Est-ce que j'aurai un abonnement?

Non, vous n'achetez ce résumé que pour €9,99. Vous n'êtes lié à rien après votre achat.

Peut-on faire confiance à Stuvia ?

4.6 étoiles sur Google & Trustpilot (+1000 avis)

83750 résumés ont été vendus ces 30 derniers jours

Fondée en 2010, la référence pour acheter des résumés depuis déjà 14 ans

Commencez à vendre!
€9,99  2x  vendu
  • (0)
  Ajouter