100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached
logo-home
Samenvatting Alle Hoorcolleges en Sample Sessions PDA () $7.43
Add to cart

Summary

Samenvatting Alle Hoorcolleges en Sample Sessions PDA ()

2 reviews
 179 views  26 purchases
  • Course
  • Institution

Een samenvatting over alle hoorcolleges (+aantekeningen) en sample sessions van het vak Practicum Data-Analyse aan de UU. Inclusief figuren die terugkomen in de hoorcolleges om de stof beter te begrijpen.

Preview 8 out of 45  pages

  • January 21, 2021
  • 45
  • 2020/2021
  • Summary

2  reviews

review-writer-avatar

By: •renske•1 • 2 year ago

review-writer-avatar

By: jheemskerk • 3 year ago

avatar-seller
Universiteit Utrecht



Samenvatting
Sample
Sessions en
Hoorcolleges
PDA
Practicum data-analyse




Collegejaar 2020-2021

,Inhoudsopgave
Week 1 HC: Schatten en toetsen............................................................................................................4
Schatten en toetsen............................................................................................................................4
Week 1 SS: Schatting en toetsen............................................................................................................7
Puntschattingen..................................................................................................................................7
Betrouwbaarheidsintervallen.............................................................................................................7
Betrouwbaarheidsinterval voor het gemiddelde................................................................................8
Betrouwbaarheidsinterval voor een proportie...................................................................................8
Principe van toetsing..........................................................................................................................8
Elementen van een statistische toets.................................................................................................9
Toets voor een gemiddelde................................................................................................................9
Toetsen in SPSS: teststatistiek en betrouwbaarheidsinterval (CI)......................................................9
Toets voor een proportie in SPSS......................................................................................................10
Gemiddelden vergelijken van onafhankelijke steekproeven............................................................10
Soorten fouten bij hypothese toetsen..............................................................................................10
Conclusie trekken a.d.h.v. kleine steekproef voor een gemiddelde: T-toets....................................11
Week 2 HC: Verbanden tussen categorische variabelen......................................................................11
Herhaling meetniveau......................................................................................................................11
Indexering van kruistabellen............................................................................................................11
Van frequenties naar kansen............................................................................................................12
Toetsen met kruistabellen................................................................................................................13
Assumpties.......................................................................................................................................13
Wat betekent een significante X2?....................................................................................................13
Verband tussen ordinale variabelen.................................................................................................13
Gamma als maat van samenhang.....................................................................................................14
Kendall’s Tau.....................................................................................................................................14
Week 2 SS: Samenhang........................................................................................................................14
Samenhang.......................................................................................................................................14
Residuele analyse.............................................................................................................................15
Samenhang tussen ordinale variabelen............................................................................................16
Exacte testen....................................................................................................................................17
Week 3 HC: Regressie en correlatie......................................................................................................17
Ptolemeus.........................................................................................................................................17
Kwadratensommen (sums of squares).............................................................................................18
Toetsen.............................................................................................................................................19

, Assumpties.......................................................................................................................................19
Correlatie..........................................................................................................................................19
Week 3 SS: Enkelvoudige lineaire regressie..........................................................................................20
Introductie........................................................................................................................................20
Enkelvoudige lineaire regressie........................................................................................................20
Enkelvoudige regressie resultaten interpreteren.............................................................................20
Model assumpties en schendingen..................................................................................................21
Week 4 HC: Multiple regressie.............................................................................................................21
F-toets vrijheidsgraden.....................................................................................................................21
Herhaling vorige week......................................................................................................................22
Meerdere categorieën......................................................................................................................23
Multiple regressie.............................................................................................................................24
Variabelen toevoegen (nested models)............................................................................................26
Incremental F-test............................................................................................................................26
Redenen voor multiple regressie......................................................................................................26
Multicolineariteit..............................................................................................................................26
Week 4 SS: Multiple regressie..............................................................................................................27
Enkelvoudige lineaire regressie met een dichotome X-variabele.....................................................27
Multiple regressie.............................................................................................................................27
Omgaan met discrete verklarende variabelen met meer dan twee waarden..................................27
Incrementele F-toets........................................................................................................................27
Multicollineariteit.............................................................................................................................27
Week 5 HC: Interactie...........................................................................................................................28
Welke toets wanneer gebruiken?.....................................................................................................28
Regressie (herhaling)........................................................................................................................29
Interactie met continue predictoren................................................................................................30
Andere regressiemodellen................................................................................................................30
Week 5 SS: Interacties..........................................................................................................................32
Interactie tussen een continue variabele en een dummy variabele.................................................32
Een tweede voorbeeld......................................................................................................................33
Interactie tussen een continue variabele en meerdere dummy variabelen.....................................33
Interactie tussen twee continue variabelen.....................................................................................33
Opmerkingen....................................................................................................................................34
Week 6: Vakantie..................................................................................................................................34
Week 7 HC: Non-lineaire regressie.......................................................................................................34
Herhaling..........................................................................................................................................34

, Multiple regressie zonder interactie.................................................................................................34
Multiple regressie met interactie.....................................................................................................34
Non-lineaire effecten........................................................................................................................34
Effect op een specifieke waarde.......................................................................................................35
Extrapoleren.....................................................................................................................................35
Polynominale modellen....................................................................................................................36
Causaliteit.........................................................................................................................................37
Week 7 SS: Non-lineaire regressie........................................................................................................38
Kwadratische modellen....................................................................................................................38
De betekenis van “effect” in kwadratische modellen.......................................................................38
Dummy up........................................................................................................................................39
Week 8 HC: Directe en indirecte effecten, mediatie............................................................................39
Volledige en gedeeltelijke mediatie..................................................................................................40
Mediatiemodel schatten...................................................................................................................40
Totaal, direct en indirect..................................................................................................................40
Alternatieve verklaringen.................................................................................................................41
Week 8 SS: Padanalyse.........................................................................................................................41
Het Blau en Duncan padmodel.........................................................................................................41
Multivariate verbanden: wat gebeurt er als je extra onafhankelijke variabelen toevoegt aan een
model?..............................................................................................................................................42
Omitted variable bias........................................................................................................................43
Typen multivariate verbanden.........................................................................................................43
Uitgebreide padmodellen.................................................................................................................43
Causaliteit.........................................................................................................................................44
Beperkingen OLS regressie...............................................................................................................44

,Week 1 HC: Schatten en toetsen
Schatten en toetsen
- Schatten: o.b.v. een steekproef een gok doen over een waarde in de populatie;
o Je gebruikt Romeinse letters (s);
o Er heerst altijd een onzekerheid;
- Toetsen: vaststellen of de populatieparameter (waarschijnlijk) afwijkt van een verwachte
waarde;
o Je gebruikt Griekse letters (σ);
o Voor beiden gebruik je een steekproef/sample.

Populatieparameters schatten o.b.v. de sample

- ALS de sample representatief is voor de populatie, DAN kunnen we een “geïnformeerde gok”
doen over populatieparameters;
- Als een sample random is, dan is het meestal representatief (iedereen even grote kans om
getrokken te worden);
- Samples zijn in de praktijk zelden willekeurig, dus denk na over manier waarop jouw sample
verschilt van de populatie, en daarom wellicht een misleidend beeld geeft.

Sampling error: het verschil tussen het gemiddelde van de gehele populatie (mu) en het gemiddelde
van de steekproef (M).

 De steekproef zit er vrijwel altijd iets naast.

Stel dat je alle mogelijke steekproeven in een groep trekt. Het gemiddelde van al deze steekproeven
is dan gelijk aan het werkelijke populatiegemiddelde. De standaardafwijking van deze sampling
distribution kan je interpreteren als “de gemiddelde afwijking van steekproefgemiddelden t.o.v. het
populatiegemiddelde”, ofwel de standard error.

Standard error: een maat van onzekerheid over je schatting en een “gemiddelde” afwijking van
steekproefgemiddelden t.o.v. het populatiegemiddelde.

 Notatie: SE, SEm.

Standaard fout schatten

- Probleem: de standard error kan je niet uitrekenen o.b.v. één steekproef, terwijl je in de
praktijk vaak wel maar één steekproef trekt;
o Oplossing: de standard error ook schatten o.b.v. de sample
s standaarddeviatie∈de steekproef
o Formule: SEm= ofwel SEm=
√n √ grootte van steekproef
Standaardafwijking: “gemiddelde” afwijking van observaties t.o.v. het gemiddelde.

 Het geeft weer hoe gespreid je data zijn;
 Notatie: s, sigma of SD.

Betrouwbaarheidsinterval: een “venster” om de schatting, gebaseerd op SE, waarbinnen de
populatieparameter waarschijnlijk valt.

 Interpretatie: als je 100 identieke samples zou trekken en voor elk een 95% confidence
interval zou berekenen, dan bevat 95% van die intervals de populatieparameter.

, o Maar: je weet nooit zeker of dit confidence interval de populatiewaarde bevat, of
wáár die valt.

Meetniveaus

- Nominaal: categorisch, verschilt enkel in naam;
o Voorbeeld: blauw, geel, paars, groen, rood;
- Ordinaal: categorieën met volgorde;
o Voorbeeld: hoogopgeleid, midden opgeleid, laagopgeleid;
- Interval: continu met betekenisvolle afstanden (intervallen). Elke stap is even groot;
o Voorbeeld: 1e plaats, 2e plaats, 3e plaats;
- Ratio: heeft een absoluut nulpunt, en daarom zijn verhoudingen (ratio’s) ook betekenisvol;
o Voorbeeld: thermometer met Kelvin en Celcius.

Toetsen

- Omdat er geen data over de gehele populatie is, is het onmogelijk om te bewijzen dat,
bijvoorbeeld, het populatiegemiddelde groter is dan 0;
- Daarom tonen we aan dat het heel onwaarschijnlijk is om onze data te verkrijgen, ALS het
populatiegemiddelde 0 zou zijn;
- Wat is de kans om data te observeren die “minstens zo extreem zijn” als onze steekproef,
ALS de nulhypothese waar zou zijn dat het populatiegemiddelde 0 is?

Stappenplan toetsing:

1. Hypotheses formuleren: H0 en Ha;
2. Test-statistiek berekenen;
a. Deze beschrijft hoeveel standaard errors het steekproefgemiddelde afligt van het
gemiddelde onder de nulhypothese;
3. P-waarde uitrekenen (kans op deze data of nog extremer, als H 0 waar is);
4. Conclusie trekken over nulhypothese.

Hypothese: toetsbare verwachting over een populatieparameter. Soorten hypotheses:

- Is het populatiegemiddelde groter dan 0?
- Is er een verschil tussen de populatiegemiddelden van twee groepen?
- Is het verband tussen twee variabelen groter dan 0?

P-waarde: hoe groot is de kans dat je een waarde in de steekproef vindt die minstens zo groot is als
wat ik heb gevonden als H0 waar zou zijn?

Soorten hypotheses:

- Ha: alternatieve hypothese, wat we denken dat er écht aan de hand is;
- H0: nulhypothese: er is “niets aan de hand”;
o Deze proberen we te verwerpen.

Je moet Ha zo formuleren dat deze H0 uitsluit.

- Non-directionele/ongerichte hypothese;
o Het gemiddelde verschilt (niet);
- Directionele/gerichte hypothese;
o Het gemiddelde is gelijk of kleiner dan/groter dan.

,Teststatistiek: waarde die aangeeft hoeveel SE’s je geobserveerde data afliggen van de verwachting
onder de nulhypothese.

 Gebruik de t-test.

s
Standaardfout: SEm=
√n
Dan kijken we hoe “ver” ons geobserveerde steekproefgemiddelde M is t.o.v. de nulhypothese:
X−mu 0
Z=
SEM
Significantieniveau: als de kans (p-waarde) kleiner is dan deze drempelwaarde (alpha) verwerpen we
H0. Deze waarde is meestal alpha = .05.

 Een strengere drempelwaarde zorgt voor minder foutieve bevestigingen van H a.

Tweezijdige toets: alpha = .05 is verdeeld over beide staarten van de sampling distribution
(normaalverdeling). Bij een eenzijdige toets ligt deze waarde volledig in één staart.

Met een eenzijdige toets heb je meer power om een H 0 te verwerpen ALS het effect in de verwachte
richting is. Je hebt echter geen power om de H 0 te verwerpen bij een effect in de omgekeerde
richting.

Power: het vermogen om H0 terecht te verwerpen.

Als p < alpha: je effect is statistisch significant.

Z: de standaard normaalverdeling. Als je de populatiestandaardafwijking weet, kan je deze waarde
uitrekenen.

 Probleem: we weten bijna nooit wat sigma is;
 Oplossing: we passen een “straf” toe om rekening te houden met de grotere onzekerheid die
ontstaat over onze toets, wanneer we sigma schatten o.b.v. de steekproef, en niet sigma uit
de populatie gebruiken;
o Deze straf leidt tot een verdeling met dikkere staarten dan de Z-verdeling en dit heet
de t-verdeling.

T-verdeling: maakt het moeilijker om een significante p-waarde te krijgen, omdat door de dikkere
staarten de p-waardes hoger worden.

 Als n groot is, maakt deze straf niet meer uit en is t ongeveer gelijk aan Z.

( M 1−M 2 )−(mu 01−mu 02)
t=
SE( M 1−M 2)
- M1-M2 = geobserveerde verschil;
- Mu01-mu02 = verwachte verschil onder H 0;
- SE(M1-M2) = standard error voor het gemiddelde verschil.

Let op: we spreken van het verwerpen van H 0, nooit van het accepteren ervan, omdat er altijd
onzekerheid bestaat over conclusies o.b.v. een steekproef.

Logica toetsen gaat alleen op als je eerst een willekeurige steekproef trekt en dan je kansrekening
toepast.

,  Je mag niet eerst een zeldzaam fenomeen observeren en die als je steekproef gebruiken en
dan een kansberekening uitvoeren.



De power wordt beïnvloed door:

- Grootte van het effect;
- Grootte van de “ruis” in je data (standaardafwijking);
- Aantal proefpersonen.

Type I fout: ten onrechte H0 verwerpen (voorbeeld Lucia de B.).

Type II fout: ten onrechte H0 niet verwerpen (voorbeeld Lance Armstrong).

Waarheid
Schuldig Onschuldig
Veroordelen Juiste beslissing! Type I fout: alpha
Vrij spreken Type II fout: bèta Juiste beslissing!

Week 1 SS: Schatting en toetsen
Puntschattingen
Populatieverdeling: de verdeling van een variabele in de populatie.

Gebruikte puntschattingen bij verschillende variabelen:

- Continue variabelen (ratio/interval meetniveau): steekproefgemiddelde;
- Discrete variabelen (nominaal/ordinaal): steekproefproportie.

De relevante puntschatting hangt dus altijd af van het meetniveau (inspecteren d.m.v. FREQUENCIES
commando).

Het gemiddelde en de proporties zijn maten voor centrale tendentie (central tendency).
Standaarddeviatie/-afwijking en ook het bereik (range) zijn maten voor de variantie (variance).

 Let op: een proportie is eigenlijk het gemiddelde van een 0-1 variabele en daarom kan
dezelfde methode worden toegepast als bij het schatten van het populatiegemiddelde van
een continue variabele (je kijkt dus net als bij het berekenen van het gemiddelde ook bij
DESCRIPTIVES in de mean tabel bij het berekenen van de proportie).

Het is belangrijk je syntax te bewaren i.v.m. repliceerbaarheid van het onderzoek.

Populatiestandaardafwijking (sigma; σ) wordt geschat door de steekproefstandaardafwijking/-
deviate (s of SD). De noemer van s is n-1 en heet ook wel “vrijheidsgraden” of “degrees of freedom”.

Betrouwbaarheidsintervallen
Puntschattingen zijn onnauwkeurig, tenzij de steekproef de gehele populatie omvat. Een
puntschatting zelf heeft dus een verdeling, de steekproevenverdeling/sample distribution: het
resultaat van het herhaaldelijk steekproeven trekken uit een populatie en het vormen van de
verdeling van de puntschattingen.

Standaardfout/standard error: de standaarddeviatie van een sampling distribution. De
standaardfout van een steekproefgemiddelde hangt af van de populatiestandaarddeviatie (sigma) en
de steekproefomvang (n).

The benefits of buying summaries with Stuvia:

Guaranteed quality through customer reviews

Guaranteed quality through customer reviews

Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.

Quick and easy check-out

Quick and easy check-out

You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.

Focus on what matters

Focus on what matters

Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller LaurienCM. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $7.43. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews)

51662 documents were sold in the last 30 days

Founded in 2010, the go-to place to buy study notes for 15 years now

Start selling
$7.43  26x  sold
  • (2)
Add to cart
Added