Summary

Korte samenvatting PC-labs Data-Analyse 1 (KUL)

53 views 7 purchases

Course
Kwantitatieve onderzoeksmethoden: data analyse 1 (S0F15A)

Institution
Katholieke Universiteit Leuven (KU Leuven)

Een beknopte samenvatting die ik heb gemaakt bij de PC-labs 0 tem 5 voor het vak Data-Analyse 1 aan de KUL. Het zijn beknopte puntjes uitleg en soort van "stappen" die je moet volgen bij het maken van je oefeningen. De formules die je nodig hebt staan in het formularium online.

[Show more]

Preview 10 out of 24 pages

View example

Uploaded on May 31, 2024
Number of pages 24
Written in 2023/2024
Type Summary

data analyse
regressie analyse
logistische regressie
lineaire regressie
pca
glm
pc labs

Institution
Katholieke Universiteit Leuven (KU Leuven)
Education
Politieke Wetenschappen En De Sociologie
Course
Kwantitatieve onderzoeksmethoden: data analyse 1 (S0F15A)

inakeuppens

Member since 1 year 128 documents sold

R99,66

Added

Add to cart

Add to wishlist

100% satisfaction guarantee
Immediately available after payment
Both online and in PDF
No strings attached

MINI SAMENVATTING DATA-ANALYSE 1
PC-LABS

PC0

Samenhang twee categorische variabelen (nominaal of ordinaal)

 Kruistabellen
o Uitspraken over aard en richting van het verband
 Chi2-test
o H0: geen samenhang tussen de twee variabelen
o Ha: wel samenhang tussen de twee variabelen

Sterkte van het verband:

Of

Of

Correlatie

r = 1 Perfect positieve lineaire samenhang

0.5 < r < 1 Sterke positieve lineaire samenhang

0.3 < r < 0.5 Matige positieve lineaire samenhang

0 < r < 0.3 Zwakke positieve lineaire samenhang

r = 0 Lineaire onafhankelijkheid

-0.3 < r < 0 Zwakke negatieve lineaire samenhang

-0.5 < r < -0.3 Matige negatieve lineaire samenhang

-1 > r > -0.5 Sterke negatieve lineaire samenhang

r = -1 Perfect negatieve lineaire samenhang

 Correlatietest
o H0: geen lineair verband
o Ha: wel een lineair verband

, o Kijken naar p-waarde

PC1

BIVARIATE REGRESSIE

Afhankelijke en onafhankelijke variabele

Scatterplot

Afh var  Y-as

Onafh var  X-as

Lineair verband of niet?

naam_model <- lm(Y ~ X1 + X2 + X3 + ... + Xn , data="naam_dataset",
weights="naam_dataset$gewicht")

Y = afhankelijke var

X = onafhankelijke var

Nulmodel = Y ~ 1 (alleen intercept)

Doelstellingen :

Aard van de samenhang: estimates

Intercept: iemand die 0 scoort op onafh var, scoort intercept op afh
variabele

Regressiecoëficiënt: verandering in verwachte waarde van Y zorgt voor een
eenheidsstijging van X

Sterkte van de samenhang:

Multiple R-squared: hoeveel de regressie van de variantie verklaard van de
totale variantie

Veralgemenen naar populatie:

F-test

H0: full model verklaart niet meer dan reduced model

Ha: full model verklaart wel meer dan reduced model

Kijken naar p-waarde

T-test

, Gaat na of paramaters niet gelijk zijn aan 0

Indien significant  niet gelijk aan 0

Kijken naar sterren naast p-waarde

MULTIVARIATE REGRESSIE

Toevoegen van een bijkomende onafh var  zuiverdere schatting

model2 <- lm(Y ~ X1 + X2, …., Xn, data=, weights =)

Y = afh var

X = onafh var

Doelstellingen:

Aard van de samenhang

Intercept: wanneer iemand 0 scoort op alle onafh variabelen

Partiële regressiecoëfficiënten: effect op intercept, gecontroleerd voor
andere variabelen

Wanneer X1 met een eenheid toeneemt, neemt Y met output X1 toe

Veralgemenen naar populatie

T-test: kijken naar significatie p-waarde  verschillend van 0?

F-test  volledige model  p-waarde  verschillend van 0?

Één van de regressiecoëfficiënten, want bekijkt volledig model

Is het full model significant beter dan het reduced model?

Sterkte van de samenhang

Hoe goed kan de variantie van Y verklaard worden door de onafh
variabelen?

Determinatiecoëfficiënten  R-squared

R-squared van reduced model - R-squared van full model

= extra verklaarde variantie

Bekijken welk effect het grootste is  gestandaardiseerde partiële
regressiecoëfficiënten

Lm.beta()

Interpreteren in standaardafwijkingen! Als X1 met een
standaardafwijking toeneemt terwijl X2 gelijk blijft, dan zal intercept
met output X1 toenemen

, Is effect X1 of X2 het grootste?

MODELLEN VERGELIJKEN

Anova ()

Heeft het toevoegen van een onafh var X mijn model verbeterd in vgln met een model
zonder X?

Kijken naar F-change en p-waarde

Sign  wel verbeterd

Niet sign  niet verbeterd

GECENTREERDE VARIABELEN

Probleem: Intercept vaak niet interpreteren want verwijst naar situatie waarin de
respondent op alle onafh var 0 scoort

Oplossing: gecentreerde variabelen

Gem van oorspronkelijke var aftrekken

Gecentreerde var aanmaken

Hoe ver iemand van het gem ligt

Bv. -10 op age = 10 jaar jonger dan gemiddeld

PC2

REGRESSIEDIAGNOSTIEK

LINEAIRITEIT

Lineaire relatie afh en onafh variabele

Scatterplot

Indien schending lineariteitsassumptie  modelvergelijkingsprocedure

Past een niet-lineaire modelspecificatie beter dan een lineair model?

Voor onafh var een kwadratische term toevoegen  vergelijken met model zonder
kwadr term

Anova ()

ADDITIVITEIT

Twee stappen:

Productterm * van interactie toevoegen aan model

, Modellen vergelijken met anova ()

!! beide variabelen die in de interactie gebruikt worden ook toevoegen als
hoofdeffect

Bv. Model <- lm(Y ~ X1 + X2 + X1*X2 , data=, weights =)

MULTICOLINEARITEIT

Package car  vif ()

VIF > 10 = problematisch

Tolerace  1/VIF

Tolerance < 0.10 = problematisch

OUTLIERS

Observaties met residu van 3 of meer sd’s van gemiddelde = outlier

Naar gestandaardiseerde residuen kijken

Rstandard()

Summary ()  kijken naar min en max  meer dan -3 en 3?

Sum()  hoeveel outliers?

Which()  welke rijen?

Predict()  voorspelde waarden bekijken

Kijken of antwoorden van resp effectief kunnen kloppen  formule

Scatterplot met gestandaardiseerde residuen ifv gestandaardiseerde voorspelde

Gestandaardiseerde voorspelde  z-transformatie van model

Gestand residuen op Y-as

Gestand residuen op X-as

HEFBOOMPUNTEN

Manier 1

Regressie x aantal keer uitvoeren en telkens een observatie uit de analyse laten;
invloed van weglaten op de regressieparameters bekijken

Invloed op regressieparameters opslaan als aparte variabelen

Gestandaardiseerde DFBETA’s van een model

Gestand DFBETA > 1 en gestand DFBETA < -1 = problematisch

, Kijken naar beschrijvende statistieken  veranderingen van meer dan 1
sd?

DUS: als weglaten van een observatie een verandering van > 1 sd-
afwijking van een regressieparameter veroorzaakt = hefboompunt

Gestandaardiseerde DFBETA’s voor de twee onafh var plotten  dfbetasPlots()

Manier 2

Cook’s distance

Algehele invloed observatie op het model

>1 = problematisch

Cooks.distance()  summary()  min en max bekijken

REGRESSIE MET CATEGORISCHE PREDICTOREN

Onafh var  nominaar of ordinaal meetniveau  dummy-variabelen

# dummy-var = afh van aantal categorieën

k categorieën  k – 1 dummy-var

DICHOTOME ONAFHANKELIJKE VARIABELE

Één dummy-var nodig (k-1 = 1)

Altijd nodig!:

Dummy-var coderen als factor

Antwoordcategorieën coderen als 0-1

!! R ziet in regressiemodellen var die gecod zijn als 1-2 of “man”-“vrouw”
gecod als 0-1

Eerste categorie is dan referentiecategorie

Referentiecategorie wijzigen

Contrasts()  base is nummer van referentiecat

Alfanumerieke variabelen gebruiken als dummy’s

!! R ziet karakterelementen automatisch als 0-1

Eerste categorie is dan referentiecategorie en dus 0

Doelstellingen:

Aard van de samenhang

Sterkte van de samenhang

Veralgemeenbaarheid

,POLYTOME ONAFHANKELIJKE VARIABELE

!! Meerdere antwoordcategorieën  R maakt automatisch verborgen dummy’s

Factor maken

Levels ()  categorieën maken

Niet gelijste categorie = referentiecategorie

Doelstellingen:

Aard van de samenhang  estimates

Sterkte van de samenhang  R-squared (verklaarde variantie)

Veralgemeenbaarheid  t-waarde en p-waarde

Model met en zonder categorische predictoren vgl

Anova()

Modellen met veel onafh var  coëfficiënten plotten

Modelplot () van package modelsummary

Kijken of effect verschilt van 0

Als het betrouwbaarheidsinterval 0 omvat = effect variabele niet
significant

INTERACTIES

X1*X2

!! altijd ook de hoofdeffecten van de variabelen in de interactie opnemen in het
model

Bv. lm(Y ~ X1 + X2 + X1*X2, data="naam_dataset",
weights="naam_dataset$gewicht")

Effect = basiseffect + interactie-effect

Interactie-effecten plotten

Plot_model() uit package sjPlot

Indien BI 0 omvat  niet signif

TWEE METRISCHE VARIABELEN

Indien niet significant  geen significant gezamenlijk effect

Indien wel significant  effect van de ene variabele is afhankelijk van de andere
variabele

,TWEE CATEGORISCHE VARIABELEN

Bij categorische var vaak meerdere categorieën  meerdere interactietermen in output

!! in model wel gewoon één interactieterm ingeven  in output autom opgedeeld
in cat

Indien significant: rekening houden met verschillen in effecten tussen groepen

Invloed van één afh var kan variëren afh van de niveaus van de andere var
waarmee het interacteert

METRISCHE EN CATEGORISCHE VARIABELEN

Bv. Het effect van een metrische variabele op verschillende leeftijdscategorieën

PC3: GLM

Wanneer welke toets:

t-test Vergelijken van 2 (on)afhankelijke groepen

ANOVA Vergelijken van > 2 (on)afhankelijke groepen

ANCOVA Vergelijken van > 2 onafhankelijke groepen, met uitsluiting van de
invloed van 1 of meerdere (continue) predictoren.

Dus controleren voor de invloed van andere predictoren.

Factorial Vergelijken van > 2 onafhankelijke groepen met minstens 2
AN(C)OVA categorische predictoren, eventueel met uitsluiting van de invloed
van 1 of meerdere (continue predictoren)

Effectgroottes

Een gestandaardiseerde maat voor een waargenomen effect

++ vergelijkbaarheid en interpretatie van resultaten

Soorten effectgroottes

r (pearson correlatie)

r = 0.10  klein effect

r = 0.30  medium effect

r = 0.50  groot effect

η2/ η2p

η2 = 0.01  klein effect

η2 = 0.06  medium effect

η2 = 0.14  groot effect

, Cohen’s d

d = 0.20  klein effect

d = 0.50  medium effect

d = 0.80  groot effect

!! voor AN(C)OVA  standaardsetting aanpassen

Resultaten SPSS

options(contrasts = c("contr.helmert", "contr.poly"))

T-TESTS

Vergelijken of gemiddelde van een bepaalde var tussen 2 (on)afh groepen
verschilt

H0: geen significant verschil tss gem in twee groepen

Ha: wel significant verschil tss gem in twee groepen

Nodig:

Continue afh var (AV)

Categorische onafh var (OV)

DEPENDENT T-TEST

Individuen in de twee categorieën zijn dezelfde

Bv. Twee keer een experiment op dezelfde kindjes

Rekening houden met individuele verschillen

Gemiddelde van twee variabelen vergelijken

Analyse + gemiddelde + sd

P-waarde  sign verschil?

Nagaan effectgrootte!

r (pearson correlatie)  formule

Interpreteren

INDEPENDENT T-TEST

Individuen in de twee categorieën zijn verschillend

Bv. Verschillend # uren bij jongens en meisjes

Levene’s test

, Varianties gelijk in twee groepen? Voor OV

Y = AV en group = factorvar met 2 cat

H0: var niet significant verschillend  var.equal = TRUE

Ha: wel significant verschillend  var.equal = FALSE

Analyse

AV in zelfde kolom

 aparte resultaten voor twee groepen opvragen: tapply-functie

Sd en mean

Effectgrootte

r (pearson correltatie)  formule

ONE-WAY INDEPENDENT ANOVA

Nagaan of gemiddelde score op de AV significant verschilt tussen 3 of meer
onafh groepen van de categorische OV

Bv. Invloed van placebo, lage dosis viagra of hoge dosis viagra op libido

Speciale toepassing van lineaire regressie  lm()  AV ~ OV

Voor ANOVA  .sav bestand  anders importeren

Levene’s test

Assumptie van gelijke varianties nagaan voor OV

H0: var niet significant verschillend

Eerst lineair model met lm()

Dan Anova() (!! Hoofdletter)

Omnibus test: we weten niet welke groepen van elkaar verschillen

Oplossing = contrasts en post-hoc tests

Ha: wel significant verschillend

oneway.test ()

Contrasten of post-hoc test

Effectgrootte + eindrapportering

Gem en sd’s per cat van OV vermelden

CONTRASTEN (ALGEMEEN)

Wanneer er specifieke verwachtingen/hypothesen zijn

The benefits of buying summaries with Stuvia:

Guaranteed quality through customer reviews

Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.

Quick and easy check-out

You can quickly pay through EFT, credit card or Stuvia-credit for the summaries. There is no membership needed.

Focus on what matters

Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying this summary from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller inakeuppens. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy this summary for R99,66. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews)

74534 documents were sold in the last 30 days

Founded in 2010, the go-to place to buy summaries for 14 years now

Start selling

Popular books for Arts, Humanities and Cultures

Popular books for Business and Economics

Popular books for Law and Public Services

Popular books for Medicine, Health and Social Sciences

Popular books for Technological and Physical Sciences

Notes & summaries for UNISA

Popular Universities

Popular Colleges

Popular High Schools

Summary

Korte samenvatting PC-labs Data-Analyse 1 (KUL)

Document information

Subjects

Written for

Seller

Reviews received

Content preview