(CAT) Causal Analysis Techniques for International Students (EN/NL) - Tilburg University (2021/2022)
33 views 0 purchase
Course
Causal Analysis Techniques - NL (424024)
Institution
Tilburg University (UVT)
(1e kans exam gehaald met een 7,9)
Alle PowerPoints + College aantekeningen + informatie uit het benodigde boek samengevoegd in één bestand. Dit is direct het tentamenstof. Beschreven met de Engelse begrippen met Nederlandse uitleg
Max de Rooij
Causal Analysis Techniques for International Students – MAX DE ROOIJ
Lecture 1
Waarom squaren?: Als je correlations squared krijg je variances
Which techniques will you learn, and why?
In this course, we deal with the following statistical techniques:
1. (ANOVA)One-Way Between-Subjects Analysis of Variance
2. Estimation of Pearson’s (Partial) Correlation Coefficient
3. Bivariate Regression
4. Multiple Regression
5. Elaboration Logic
6. Path Analysis
7. Logistic Regression Analysis
Waarom zijn deze technieken belangrijk? Wat hebben ze gemeen en wat onderscheidt ze?
1. Ze zijn belangrijk omdat ze ons helpen bij het beantwoorden van wat en waarom onderzoeksvragen
2. Ze hebben gemeen: schat hoeveel de variantie in een afhankelijke variabele Y systematisch varieert met (‘co-varieert’) de
variantie in andere gemeten verklarende variabele(n) X; technieken gaan ervan uit dat hat-scores op afhankelijke variabele Y
kunnen worden voorspeld door
a) X variabelen die we hebben gemeten en opgenomen als voorspellers die de afhankelijke variabele systematisch
beïnvloeden
b) variabelen die we niet hebben gemeten en niet als voorspellers hebben opgenomen, maar die de afhankelijke
variabele systematisch beïnvloeden (ε à systematic error/residual)
c) variabelen die we niet hebben gemeten en die alleen random de afhankelijke variabele beïnvloeden also ε → random
error/residual)
• Variations is hetzelfde als verschillen
• Dependent variable; is vaak Y (bijv. helping behaviour) (dependent variable)
• Independent variable: X = bijv. mood
• Je hebt variation in dependent variable en independent variable
• X (mood) → Y (helping behaviour) --- (error; systematic influences of non-stystematic/random influcenset)
• Het is random als het niet reproduceerbaar is (als het de volgende keer niet op dezelfde resultaten zou uitkomen)
• In de praktijk kan je alleen maar kijken naar relatie tussen X en Y.
3. Ze onderscheiden zich door:
(a) measurement levels of dependent variables,
(b) the measurement level of the explanatory variables,
(c) the number of variables the technique can deal with (complexity of the theory)
Complexity of associations
One-Way Between-Subjects Analysis of Variance (Eenrichtingsanalyse van variantie tussen proefpersonen)
Important remark: we use the concepts
• ‘X variables’
• ‘independent variables’
• ‘explanatory variables’
• ‘predictors’ interchangeably
Bivariate regression analysis
Multiple regression analysis
X is independent, Y is dependent
Pijl naar andere pijl → moderation
,Path analysis
Path model gaat over mechanismen. Waarm zijn variabelen related met elkaar; je kijkt niet naar interactie.
Bijv: Salary is nu ook dependent, die is explained by team en gender
Bivariate binary logistic regression analysis
Multiple binary logistic regression analysis
⎯ Onder zie je de interactie; de moderation.
⎯ Boven zie je de dependent; is nominal 0 of 1
Summary table
Dependent variable
Independent Quantitative Qualitative (nominal)
Variabels (continuous:
interval/ratio)
Small number One-Way Between- Subjects Table-analysis or Log-linear analysis
(1 or 2) Analysis of Variance (not part of this course)
qualitative
Every number Bivariate and multiple Bivariate en multiple logistic
Qualitative regression analysis and path regression analysis
and/or analysis
quantitative
One-Way Between-Subjects Analysis of Variance
Logic of ANOVA
,Substantive hypothesis:
De mate van organisatorische betrokkenheid van een persoon (Y) hangt af van het team waarin de persoon werkt (X)
• Vraag: als de hypothese klopt, wat zou je dan verwachten te vinden met betrekking tot verschillen in gemiddelde inzet
tussen de teams?
• Stel je voor dat we gegevens hebben verzameld van metingen van organisatiebetrokkenheid voor 3 teams
• 2 scenario's met betrekking tot de gegevens...
In welk van de datascenario's zou je eerder geneigd zijn te concluderen dat er een verband is tussen het team waarin iemand
werkt en organisatiebetrokkenheid?
→ 2e zie je minder variation binnen de groepen, hierdoor zie je meer verschillen tussen de groepen.
Kerngedachte van ANOVA is:
Als er 2 of meer groepen zijn, kunnen we dan een uitspraak doen over mogelijk -significante- verschillen tussen de gemiddelde
scores van de groepen?
➔ ANOVA analyseert de verhouding (ratio) van de twee componenten van de totale variantie in gegevens:
between-group variance and within-group variance
ANOVA analyseert de verhouding waarin
• Between-group variance systematische verschillen meet tussen groepen en alle andere variabelen die Y beïnvloeden
(systematisch of willekeurig (‘residual variance’ or ‘error’)
• Within-group variance meet de invloed van alle andere variabelen die Y beïnvloeden, (systematisch of willekeurig
(‘residual variance’ or ‘error’)
Belangrijk:
1. Verschillen binnen een groep kunnen niet te wijten zijn aan verschillen tussen de groepen omdat iedereen in een
bepaalde groep dezelfde groepsscore heeft; dus verschillen binnen de groep moeten te wijten zijn aan systematische niet-
gemeten factoren (bijvoorbeeld individuele verschillen) of willekeurige meetfouten.
2. Alle waargenomen verschillen tussen groepen zijn waarschijnlijk niet alleen pure verschillen tussen groepen, maar ook
verschillen als gevolg van systematische niet-gemeten factoren of willekeurige meetfouten
➔ So, basically, we are comparing between-group variability (= systematic group effect + error) to within-group
variability (= error) to learn about the size of the systematic group effect
Wanneer is een factor random? → Als je het niet kan replicaten in een nieuw onderzoek
, Statistical null hypothesis = Mean scores van k populations die overeenkomen met de groepen in het onderzoek zijn allemaal
gelijk aan elkaar:
Test statistics = vertaling van een steekproefresultaat naar een theoretische statistische verdeling
Intermezzo
Why prefer One-Way Between-S ANOVA instead of seperate t-tests for means(Warner, p. 220)?
In ons voorbeeld met 3 teams kunnen we ook 3 aparte t-tests for means:
*H0 = het is gelijk
*Ha = het is niet gelijk (→ alternatief)
→ Bijv. u1 staat voor mannen en u2 voor vrouwen. Als mannen en vrouwen gelijk verdienen, is het Ho. Als mannen meer
verdienen dan vrouwen, is het Ha.
Significant betekend dat het niet op toeval is gebaseerd. (Hoe vaker je een test doet, hoe sneller je een Significant resultaat)
Alpha = Type 1 error
Belangrijk:
Probleem van deze benadering: Type I-error = Hoe groter het aantal tests dat op een dataset wordt toegepast, hoe groter
de kans dat de nulhypothese wordt verworpen terwijl deze correct is
inflated risk of Type I error’ = hoe meer tests we uitvoeren, hoe gemakkelijker het is om een uitzonderlijk resultaat te
vinden. Men zal gemakkelijker de fout maken om te concluderen dat er een effect is, terwijl dat niet het geval is: ‘ (Warner, p.
220)
Formule voor kansberekening op 1 of meer Type I-errors in een serie C-toetsen met significance level α:
Bijvoorbeeld: Bij 3 afzonderlijke tests met α = .05 (5%) de kans op onterechte verwerping van de nulhypothese:
➔ 1 − (1 − 0.05)3 = .143 (meer dan het gebruikelijke 0.05 omdat je meerdere t-testen hebt gedaan)
➔ Solution: One-Way ANOVA → één enkele omnibustest voor de nulhypothese dat de gemiddelden van K-populaties gelijk
zijn, met kans op Type I-error = .05
Calculations: Sums of Squares
If we want to test the statistical null hypothesis
H 0 : μ1 = μ2 = … = μ k
with an ANOVA, the F-distribution is used
Om te bepalen of een specifiek steekproefresultaat verwacht ('significant') is in de veronderstelling dat de statistische
nulhypothese correct is, moet de test-statistic F worden berekend.
Hoe werkt dat? Eerste ‘formules’, volgende inhoudelijk rekenvoorbeeld
Strategie: Partition van scores in componenten
◦ Onderdeel van de score die wel wordt geassocieerd met ‘groep’ (groepsverschillen, onafhankelijke variabele)
◦ Onderdeel van de score die niet is gekoppeld aan 'groep'
Hoe kan je dit doen? Bereken afwijkingsscores
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller maxderooij. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $8.97. You're not tied to anything after your purchase.