100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached
logo-home
Korte samenvatting PC-labs Data-Analyse 1 (KUL) R99,66   Add to cart

Summary

Korte samenvatting PC-labs Data-Analyse 1 (KUL)

 53 views  7 purchases
  • Course
  • Institution

Een beknopte samenvatting die ik heb gemaakt bij de PC-labs 0 tem 5 voor het vak Data-Analyse 1 aan de KUL. Het zijn beknopte puntjes uitleg en soort van "stappen" die je moet volgen bij het maken van je oefeningen. De formules die je nodig hebt staan in het formularium online.

Preview 10 out of 24  pages

  • May 31, 2024
  • 24
  • 2023/2024
  • Summary
avatar-seller
MINI SAMENVATTING DATA-ANALYSE 1
PC-LABS




PC0

Samenhang twee categorische variabelen (nominaal of ordinaal)

 Kruistabellen
o Uitspraken over aard en richting van het verband
 Chi2-test
o H0: geen samenhang tussen de twee variabelen
o Ha: wel samenhang tussen de twee variabelen



Sterkte van het verband:

Of




Of

Correlatie

r = 1 Perfect positieve lineaire samenhang

0.5 < r < 1 Sterke positieve lineaire samenhang

0.3 < r < 0.5 Matige positieve lineaire samenhang

0 < r < 0.3 Zwakke positieve lineaire samenhang

r = 0 Lineaire onafhankelijkheid

-0.3 < r < 0 Zwakke negatieve lineaire samenhang

-0.5 < r < -0.3 Matige negatieve lineaire samenhang

-1 > r > -0.5 Sterke negatieve lineaire samenhang

r = -1 Perfect negatieve lineaire samenhang

 Correlatietest
o H0: geen lineair verband
o Ha: wel een lineair verband

, o Kijken naar p-waarde




PC1

BIVARIATE REGRESSIE

Afhankelijke en onafhankelijke variabele

Scatterplot

Afh var  Y-as

Onafh var  X-as

Lineair verband of niet?



naam_model <- lm(Y ~ X1 + X2 + X3 + ... + Xn , data="naam_dataset",
weights="naam_dataset$gewicht")

Y = afhankelijke var

X = onafhankelijke var

Nulmodel = Y ~ 1 (alleen intercept)



Doelstellingen :

Aard van de samenhang: estimates

Intercept: iemand die 0 scoort op onafh var, scoort intercept op afh
variabele

Regressiecoëficiënt: verandering in verwachte waarde van Y zorgt voor een
eenheidsstijging van X

Sterkte van de samenhang:

Multiple R-squared: hoeveel de regressie van de variantie verklaard van de
totale variantie

Veralgemenen naar populatie:

F-test

H0: full model verklaart niet meer dan reduced model

Ha: full model verklaart wel meer dan reduced model

Kijken naar p-waarde

T-test

, Gaat na of paramaters niet gelijk zijn aan 0

Indien significant  niet gelijk aan 0

Kijken naar sterren naast p-waarde




MULTIVARIATE REGRESSIE

Toevoegen van een bijkomende onafh var  zuiverdere schatting

model2 <- lm(Y ~ X1 + X2, …., Xn, data=, weights =)

Y = afh var

X = onafh var

Doelstellingen:

Aard van de samenhang

Intercept: wanneer iemand 0 scoort op alle onafh variabelen

Partiële regressiecoëfficiënten: effect op intercept, gecontroleerd voor
andere variabelen

Wanneer X1 met een eenheid toeneemt, neemt Y met output X1 toe

Veralgemenen naar populatie

T-test: kijken naar significatie p-waarde  verschillend van 0?

F-test  volledige model  p-waarde  verschillend van 0?

Één van de regressiecoëfficiënten, want bekijkt volledig model

Is het full model significant beter dan het reduced model?

Sterkte van de samenhang

Hoe goed kan de variantie van Y verklaard worden door de onafh
variabelen?

Determinatiecoëfficiënten  R-squared

R-squared van reduced model - R-squared van full model

= extra verklaarde variantie

Bekijken welk effect het grootste is  gestandaardiseerde partiële
regressiecoëfficiënten

Lm.beta()

Interpreteren in standaardafwijkingen! Als X1 met een
standaardafwijking toeneemt terwijl X2 gelijk blijft, dan zal intercept
met output X1 toenemen

, Is effect X1 of X2 het grootste?

MODELLEN VERGELIJKEN

Anova ()

Heeft het toevoegen van een onafh var X mijn model verbeterd in vgln met een model
zonder X?

Kijken naar F-change en p-waarde

Sign  wel verbeterd

Niet sign  niet verbeterd

GECENTREERDE VARIABELEN

Probleem: Intercept vaak niet interpreteren want verwijst naar situatie waarin de
respondent op alle onafh var 0 scoort

Oplossing: gecentreerde variabelen

Gem van oorspronkelijke var aftrekken

Gecentreerde var aanmaken

Hoe ver iemand van het gem ligt

Bv. -10 op age = 10 jaar jonger dan gemiddeld

PC2

REGRESSIEDIAGNOSTIEK


LINEAIRITEIT

Lineaire relatie afh en onafh variabele

Scatterplot

Indien schending lineariteitsassumptie  modelvergelijkingsprocedure

Past een niet-lineaire modelspecificatie beter dan een lineair model?

Voor onafh var een kwadratische term toevoegen  vergelijken met model zonder
kwadr term

Anova ()


ADDITIVITEIT

Twee stappen:

Productterm * van interactie toevoegen aan model

, Modellen vergelijken met anova ()

!! beide variabelen die in de interactie gebruikt worden ook toevoegen als
hoofdeffect

Bv. Model <- lm(Y ~ X1 + X2 + X1*X2 , data=, weights =)


MULTICOLINEARITEIT

Package car  vif ()

VIF > 10 = problematisch

Tolerace  1/VIF

Tolerance < 0.10 = problematisch


OUTLIERS

Observaties met residu van 3 of meer sd’s van gemiddelde = outlier

Naar gestandaardiseerde residuen kijken

Rstandard()

Summary ()  kijken naar min en max  meer dan -3 en 3?

Sum()  hoeveel outliers?

Which()  welke rijen?

Predict()  voorspelde waarden bekijken

Kijken of antwoorden van resp effectief kunnen kloppen  formule

Scatterplot met gestandaardiseerde residuen ifv gestandaardiseerde voorspelde

Gestandaardiseerde voorspelde  z-transformatie van model

Gestand residuen op Y-as

Gestand residuen op X-as


HEFBOOMPUNTEN

Manier 1

Regressie x aantal keer uitvoeren en telkens een observatie uit de analyse laten;
invloed van weglaten op de regressieparameters bekijken

Invloed op regressieparameters opslaan als aparte variabelen

Gestandaardiseerde DFBETA’s van een model

Gestand DFBETA > 1 en gestand DFBETA < -1 = problematisch

, Kijken naar beschrijvende statistieken  veranderingen van meer dan 1
sd?

DUS: als weglaten van een observatie een verandering van > 1 sd-
afwijking van een regressieparameter veroorzaakt = hefboompunt

Gestandaardiseerde DFBETA’s voor de twee onafh var plotten  dfbetasPlots()

Manier 2

Cook’s distance

Algehele invloed observatie op het model

>1 = problematisch

Cooks.distance()  summary()  min en max bekijken

REGRESSIE MET CATEGORISCHE PREDICTOREN

Onafh var  nominaar of ordinaal meetniveau  dummy-variabelen

# dummy-var = afh van aantal categorieën

k categorieën  k – 1 dummy-var


DICHOTOME ONAFHANKELIJKE VARIABELE

Één dummy-var nodig (k-1 = 1)

Altijd nodig!:

Dummy-var coderen als factor

Antwoordcategorieën coderen als 0-1

!! R ziet in regressiemodellen var die gecod zijn als 1-2 of “man”-“vrouw”
gecod als 0-1

Eerste categorie is dan referentiecategorie

Referentiecategorie wijzigen

Contrasts()  base is nummer van referentiecat

Alfanumerieke variabelen gebruiken als dummy’s

!! R ziet karakterelementen automatisch als 0-1

Eerste categorie is dan referentiecategorie en dus 0

Doelstellingen:

Aard van de samenhang

Sterkte van de samenhang

Veralgemeenbaarheid

,POLYTOME ONAFHANKELIJKE VARIABELE

!! Meerdere antwoordcategorieën  R maakt automatisch verborgen dummy’s

Factor maken

Levels ()  categorieën maken

Niet gelijste categorie = referentiecategorie

Doelstellingen:

Aard van de samenhang  estimates

Sterkte van de samenhang  R-squared (verklaarde variantie)

Veralgemeenbaarheid  t-waarde en p-waarde

Model met en zonder categorische predictoren vgl

Anova()

Modellen met veel onafh var  coëfficiënten plotten

Modelplot () van package modelsummary

Kijken of effect verschilt van 0

Als het betrouwbaarheidsinterval 0 omvat = effect variabele niet
significant

INTERACTIES

X1*X2

!! altijd ook de hoofdeffecten van de variabelen in de interactie opnemen in het
model

Bv. lm(Y ~ X1 + X2 + X1*X2, data="naam_dataset",
weights="naam_dataset$gewicht")

Effect = basiseffect + interactie-effect

Interactie-effecten plotten

Plot_model() uit package sjPlot

Indien BI 0 omvat  niet signif


TWEE METRISCHE VARIABELEN

Indien niet significant  geen significant gezamenlijk effect

Indien wel significant  effect van de ene variabele is afhankelijk van de andere
variabele

,TWEE CATEGORISCHE VARIABELEN

Bij categorische var vaak meerdere categorieën  meerdere interactietermen in output

!! in model wel gewoon één interactieterm ingeven  in output autom opgedeeld
in cat

Indien significant: rekening houden met verschillen in effecten tussen groepen

Invloed van één afh var kan variëren afh van de niveaus van de andere var
waarmee het interacteert


METRISCHE EN CATEGORISCHE VARIABELEN

Bv. Het effect van een metrische variabele op verschillende leeftijdscategorieën

PC3: GLM

Wanneer welke toets:


t-test Vergelijken van 2 (on)afhankelijke groepen

ANOVA Vergelijken van > 2 (on)afhankelijke groepen

ANCOVA Vergelijken van > 2 onafhankelijke groepen, met uitsluiting van de
invloed van 1 of meerdere (continue) predictoren.

Dus controleren voor de invloed van andere predictoren.

Factorial Vergelijken van > 2 onafhankelijke groepen met minstens 2
AN(C)OVA categorische predictoren, eventueel met uitsluiting van de invloed
van 1 of meerdere (continue predictoren)

Effectgroottes

Een gestandaardiseerde maat voor een waargenomen effect

++ vergelijkbaarheid en interpretatie van resultaten

Soorten effectgroottes

r (pearson correlatie)

r = 0.10  klein effect

r = 0.30  medium effect

r = 0.50  groot effect

η2/ η2p

η2 = 0.01  klein effect

η2 = 0.06  medium effect

η2 = 0.14  groot effect

, Cohen’s d

d = 0.20  klein effect

d = 0.50  medium effect

d = 0.80  groot effect

!! voor AN(C)OVA  standaardsetting aanpassen

Resultaten SPSS

options(contrasts = c("contr.helmert", "contr.poly"))

T-TESTS

Vergelijken of gemiddelde van een bepaalde var tussen 2 (on)afh groepen
verschilt

H0: geen significant verschil tss gem in twee groepen

Ha: wel significant verschil tss gem in twee groepen

Nodig:

Continue afh var (AV)

Categorische onafh var (OV)


DEPENDENT T-TEST

Individuen in de twee categorieën zijn dezelfde

Bv. Twee keer een experiment op dezelfde kindjes

Rekening houden met individuele verschillen

Gemiddelde van twee variabelen vergelijken

Analyse + gemiddelde + sd

P-waarde  sign verschil?

Nagaan effectgrootte!

r (pearson correlatie)  formule

Interpreteren


INDEPENDENT T-TEST

Individuen in de twee categorieën zijn verschillend

Bv. Verschillend # uren bij jongens en meisjes

Levene’s test

, Varianties gelijk in twee groepen? Voor OV

Y = AV en group = factorvar met 2 cat

H0: var niet significant verschillend  var.equal = TRUE

Ha: wel significant verschillend  var.equal = FALSE

Analyse

AV in zelfde kolom

 aparte resultaten voor twee groepen opvragen: tapply-functie

Sd en mean

Effectgrootte

r (pearson correltatie)  formule

ONE-WAY INDEPENDENT ANOVA

Nagaan of gemiddelde score op de AV significant verschilt tussen 3 of meer
onafh groepen van de categorische OV

Bv. Invloed van placebo, lage dosis viagra of hoge dosis viagra op libido

Speciale toepassing van lineaire regressie  lm()  AV ~ OV

Voor ANOVA  .sav bestand  anders importeren

Levene’s test

Assumptie van gelijke varianties nagaan voor OV

H0: var niet significant verschillend

Eerst lineair model met lm()

Dan Anova() (!! Hoofdletter)

Omnibus test: we weten niet welke groepen van elkaar verschillen

Oplossing = contrasts en post-hoc tests

Ha: wel significant verschillend

oneway.test ()

Contrasten of post-hoc test

Effectgrootte + eindrapportering

Gem en sd’s per cat van OV vermelden


CONTRASTEN (ALGEMEEN)

Wanneer er specifieke verwachtingen/hypothesen zijn

The benefits of buying summaries with Stuvia:

Guaranteed quality through customer reviews

Guaranteed quality through customer reviews

Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.

Quick and easy check-out

Quick and easy check-out

You can quickly pay through EFT, credit card or Stuvia-credit for the summaries. There is no membership needed.

Focus on what matters

Focus on what matters

Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying this summary from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller inakeuppens. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy this summary for R99,66. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews)

74534 documents were sold in the last 30 days

Founded in 2010, the go-to place to buy summaries for 14 years now

Start selling
R99,66  7x  sold
  • (0)
  Buy now