Resume

Korte samenvatting PC-labs Data-Analyse 1 (KUL)

56 vues 7 fois vendu

Établissement
Katholieke Universiteit Leuven (KU Leuven)

Een beknopte samenvatting die ik heb gemaakt bij de PC-labs 0 tem 5 voor het vak Data-Analyse 1 aan de KUL. Het zijn beknopte puntjes uitleg en soort van "stappen" die je moet volgen bij het maken van je oefeningen. De formules die je nodig hebt staan in het formularium online.

[Montrer plus]

Aperçu 10 sur 24 pages

Voir l'exemple

Publié le 31 mai 2024
Nombre de pages 24
Écrit en 2023/2024
Type Resume

inakeuppens Membre depuis 1 année 135 documents vendus

€4,96

Ajouté

Ajouter au panier Ajouter au liste de veux

Garantie de satisfaction à 100%
Disponible immédiatement après paiement
En ligne et en PDF
Tu n'es attaché à rien

MINI SAMENVATTING DATA-ANALYSE 1
PC-LABS

PC0

Samenhang twee categorische variabelen (nominaal of ordinaal)

 Kruistabellen
o Uitspraken over aard en richting van het verband
 Chi2-test
o H0: geen samenhang tussen de twee variabelen
o Ha: wel samenhang tussen de twee variabelen

Sterkte van het verband:

Of

Of

Correlatie

r = 1 Perfect positieve lineaire samenhang

0.5 < r < 1 Sterke positieve lineaire samenhang

0.3 < r < 0.5 Matige positieve lineaire samenhang

0 < r < 0.3 Zwakke positieve lineaire samenhang

r = 0 Lineaire onafhankelijkheid

-0.3 < r < 0 Zwakke negatieve lineaire samenhang

-0.5 < r < -0.3 Matige negatieve lineaire samenhang

-1 > r > -0.5 Sterke negatieve lineaire samenhang

r = -1 Perfect negatieve lineaire samenhang

 Correlatietest
o H0: geen lineair verband
o Ha: wel een lineair verband

, o Kijken naar p-waarde

PC1

BIVARIATE REGRESSIE

Afhankelijke en onafhankelijke variabele

Scatterplot

Afh var  Y-as

Onafh var  X-as

Lineair verband of niet?

naam_model <- lm(Y ~ X1 + X2 + X3 + ... + Xn , data="naam_dataset",
weights="naam_dataset$gewicht")

Y = afhankelijke var

X = onafhankelijke var

Nulmodel = Y ~ 1 (alleen intercept)

Doelstellingen :

Aard van de samenhang: estimates

Intercept: iemand die 0 scoort op onafh var, scoort intercept op afh
variabele

Regressiecoëficiënt: verandering in verwachte waarde van Y zorgt voor een
eenheidsstijging van X

Sterkte van de samenhang:

Multiple R-squared: hoeveel de regressie van de variantie verklaard van de
totale variantie

Veralgemenen naar populatie:

F-test

H0: full model verklaart niet meer dan reduced model

Ha: full model verklaart wel meer dan reduced model

Kijken naar p-waarde

T-test

, Gaat na of paramaters niet gelijk zijn aan 0

Indien significant  niet gelijk aan 0

Kijken naar sterren naast p-waarde

MULTIVARIATE REGRESSIE

Toevoegen van een bijkomende onafh var  zuiverdere schatting

model2 <- lm(Y ~ X1 + X2, …., Xn, data=, weights =)

Y = afh var

X = onafh var

Doelstellingen:

Aard van de samenhang

Intercept: wanneer iemand 0 scoort op alle onafh variabelen

Partiële regressiecoëfficiënten: effect op intercept, gecontroleerd voor
andere variabelen

Wanneer X1 met een eenheid toeneemt, neemt Y met output X1 toe

Veralgemenen naar populatie

T-test: kijken naar significatie p-waarde  verschillend van 0?

F-test  volledige model  p-waarde  verschillend van 0?

Één van de regressiecoëfficiënten, want bekijkt volledig model

Is het full model significant beter dan het reduced model?

Sterkte van de samenhang

Hoe goed kan de variantie van Y verklaard worden door de onafh
variabelen?

Determinatiecoëfficiënten  R-squared

R-squared van reduced model - R-squared van full model

= extra verklaarde variantie

Bekijken welk effect het grootste is  gestandaardiseerde partiële
regressiecoëfficiënten

Lm.beta()

Interpreteren in standaardafwijkingen! Als X1 met een
standaardafwijking toeneemt terwijl X2 gelijk blijft, dan zal intercept
met output X1 toenemen

, Is effect X1 of X2 het grootste?

MODELLEN VERGELIJKEN

Anova ()

Heeft het toevoegen van een onafh var X mijn model verbeterd in vgln met een model
zonder X?

Kijken naar F-change en p-waarde

Sign  wel verbeterd

Niet sign  niet verbeterd

GECENTREERDE VARIABELEN

Probleem: Intercept vaak niet interpreteren want verwijst naar situatie waarin de
respondent op alle onafh var 0 scoort

Oplossing: gecentreerde variabelen

Gem van oorspronkelijke var aftrekken

Gecentreerde var aanmaken

Hoe ver iemand van het gem ligt

Bv. -10 op age = 10 jaar jonger dan gemiddeld

PC2

REGRESSIEDIAGNOSTIEK

LINEAIRITEIT

Lineaire relatie afh en onafh variabele

Scatterplot

Indien schending lineariteitsassumptie  modelvergelijkingsprocedure

Past een niet-lineaire modelspecificatie beter dan een lineair model?

Voor onafh var een kwadratische term toevoegen  vergelijken met model zonder
kwadr term

Anova ()

ADDITIVITEIT

Twee stappen:

Productterm * van interactie toevoegen aan model

, Modellen vergelijken met anova ()

!! beide variabelen die in de interactie gebruikt worden ook toevoegen als
hoofdeffect

Bv. Model <- lm(Y ~ X1 + X2 + X1*X2 , data=, weights =)

MULTICOLINEARITEIT

Package car  vif ()

VIF > 10 = problematisch

Tolerace  1/VIF

Tolerance < 0.10 = problematisch

OUTLIERS

Observaties met residu van 3 of meer sd’s van gemiddelde = outlier

Naar gestandaardiseerde residuen kijken

Rstandard()

Summary ()  kijken naar min en max  meer dan -3 en 3?

Sum()  hoeveel outliers?

Which()  welke rijen?

Predict()  voorspelde waarden bekijken

Kijken of antwoorden van resp effectief kunnen kloppen  formule

Scatterplot met gestandaardiseerde residuen ifv gestandaardiseerde voorspelde

Gestandaardiseerde voorspelde  z-transformatie van model

Gestand residuen op Y-as

Gestand residuen op X-as

HEFBOOMPUNTEN

Manier 1

Regressie x aantal keer uitvoeren en telkens een observatie uit de analyse laten;
invloed van weglaten op de regressieparameters bekijken

Invloed op regressieparameters opslaan als aparte variabelen

Gestandaardiseerde DFBETA’s van een model

Gestand DFBETA > 1 en gestand DFBETA < -1 = problematisch

, Kijken naar beschrijvende statistieken  veranderingen van meer dan 1
sd?

DUS: als weglaten van een observatie een verandering van > 1 sd-
afwijking van een regressieparameter veroorzaakt = hefboompunt

Gestandaardiseerde DFBETA’s voor de twee onafh var plotten  dfbetasPlots()

Manier 2

Cook’s distance

Algehele invloed observatie op het model

>1 = problematisch

Cooks.distance()  summary()  min en max bekijken

REGRESSIE MET CATEGORISCHE PREDICTOREN

Onafh var  nominaar of ordinaal meetniveau  dummy-variabelen

# dummy-var = afh van aantal categorieën

k categorieën  k – 1 dummy-var

DICHOTOME ONAFHANKELIJKE VARIABELE

Één dummy-var nodig (k-1 = 1)

Altijd nodig!:

Dummy-var coderen als factor

Antwoordcategorieën coderen als 0-1

!! R ziet in regressiemodellen var die gecod zijn als 1-2 of “man”-“vrouw”
gecod als 0-1

Eerste categorie is dan referentiecategorie

Referentiecategorie wijzigen

Contrasts()  base is nummer van referentiecat

Alfanumerieke variabelen gebruiken als dummy’s

!! R ziet karakterelementen automatisch als 0-1

Eerste categorie is dan referentiecategorie en dus 0

Doelstellingen:

Aard van de samenhang

Sterkte van de samenhang

Veralgemeenbaarheid

,POLYTOME ONAFHANKELIJKE VARIABELE

!! Meerdere antwoordcategorieën  R maakt automatisch verborgen dummy’s

Factor maken

Levels ()  categorieën maken

Niet gelijste categorie = referentiecategorie

Doelstellingen:

Aard van de samenhang  estimates

Sterkte van de samenhang  R-squared (verklaarde variantie)

Veralgemeenbaarheid  t-waarde en p-waarde

Model met en zonder categorische predictoren vgl

Anova()

Modellen met veel onafh var  coëfficiënten plotten

Modelplot () van package modelsummary

Kijken of effect verschilt van 0

Als het betrouwbaarheidsinterval 0 omvat = effect variabele niet
significant

INTERACTIES

X1*X2

!! altijd ook de hoofdeffecten van de variabelen in de interactie opnemen in het
model

Bv. lm(Y ~ X1 + X2 + X1*X2, data="naam_dataset",
weights="naam_dataset$gewicht")

Effect = basiseffect + interactie-effect

Interactie-effecten plotten

Plot_model() uit package sjPlot

Indien BI 0 omvat  niet signif

TWEE METRISCHE VARIABELEN

Indien niet significant  geen significant gezamenlijk effect

Indien wel significant  effect van de ene variabele is afhankelijk van de andere
variabele

,TWEE CATEGORISCHE VARIABELEN

Bij categorische var vaak meerdere categorieën  meerdere interactietermen in output

!! in model wel gewoon één interactieterm ingeven  in output autom opgedeeld
in cat

Indien significant: rekening houden met verschillen in effecten tussen groepen

Invloed van één afh var kan variëren afh van de niveaus van de andere var
waarmee het interacteert

METRISCHE EN CATEGORISCHE VARIABELEN

Bv. Het effect van een metrische variabele op verschillende leeftijdscategorieën

PC3: GLM

Wanneer welke toets:

t-test Vergelijken van 2 (on)afhankelijke groepen

ANOVA Vergelijken van > 2 (on)afhankelijke groepen

ANCOVA Vergelijken van > 2 onafhankelijke groepen, met uitsluiting van de
invloed van 1 of meerdere (continue) predictoren.

Dus controleren voor de invloed van andere predictoren.

Factorial Vergelijken van > 2 onafhankelijke groepen met minstens 2
AN(C)OVA categorische predictoren, eventueel met uitsluiting van de invloed
van 1 of meerdere (continue predictoren)

Effectgroottes

Een gestandaardiseerde maat voor een waargenomen effect

++ vergelijkbaarheid en interpretatie van resultaten

Soorten effectgroottes

r (pearson correlatie)

r = 0.10  klein effect

r = 0.30  medium effect

r = 0.50  groot effect

η2/ η2p

η2 = 0.01  klein effect

η2 = 0.06  medium effect

η2 = 0.14  groot effect

, Cohen’s d

d = 0.20  klein effect

d = 0.50  medium effect

d = 0.80  groot effect

!! voor AN(C)OVA  standaardsetting aanpassen

Resultaten SPSS

options(contrasts = c("contr.helmert", "contr.poly"))

T-TESTS

Vergelijken of gemiddelde van een bepaalde var tussen 2 (on)afh groepen
verschilt

H0: geen significant verschil tss gem in twee groepen

Ha: wel significant verschil tss gem in twee groepen

Nodig:

Continue afh var (AV)

Categorische onafh var (OV)

DEPENDENT T-TEST

Individuen in de twee categorieën zijn dezelfde

Bv. Twee keer een experiment op dezelfde kindjes

Rekening houden met individuele verschillen

Gemiddelde van twee variabelen vergelijken

Analyse + gemiddelde + sd

P-waarde  sign verschil?

Nagaan effectgrootte!

r (pearson correlatie)  formule

Interpreteren

INDEPENDENT T-TEST

Individuen in de twee categorieën zijn verschillend

Bv. Verschillend # uren bij jongens en meisjes

Levene’s test

, Varianties gelijk in twee groepen? Voor OV

Y = AV en group = factorvar met 2 cat

H0: var niet significant verschillend  var.equal = TRUE

Ha: wel significant verschillend  var.equal = FALSE

Analyse

AV in zelfde kolom

 aparte resultaten voor twee groepen opvragen: tapply-functie

Sd en mean

Effectgrootte

r (pearson correltatie)  formule

ONE-WAY INDEPENDENT ANOVA

Nagaan of gemiddelde score op de AV significant verschilt tussen 3 of meer
onafh groepen van de categorische OV

Bv. Invloed van placebo, lage dosis viagra of hoge dosis viagra op libido

Speciale toepassing van lineaire regressie  lm()  AV ~ OV

Voor ANOVA  .sav bestand  anders importeren

Levene’s test

Assumptie van gelijke varianties nagaan voor OV

H0: var niet significant verschillend

Eerst lineair model met lm()

Dan Anova() (!! Hoofdletter)

Omnibus test: we weten niet welke groepen van elkaar verschillen

Oplossing = contrasts en post-hoc tests

Ha: wel significant verschillend

oneway.test ()

Contrasten of post-hoc test

Effectgrootte + eindrapportering

Gem en sd’s per cat van OV vermelden

CONTRASTEN (ALGEMEEN)

Wanneer er specifieke verwachtingen/hypothesen zijn

Les avantages d'acheter des résumés chez Stuvia:

Qualité garantie par les avis des clients

Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.

L’achat facile et rapide

Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.

Focus sur l’essentiel

Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.

Foire aux questions

Qu'est-ce que j'obtiens en achetant ce document ?

Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.

Garantie de remboursement : comment ça marche ?

Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.

Auprès de qui est-ce que j'achète ce résumé ?

Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur inakeuppens. Stuvia facilite les paiements au vendeur.

Est-ce que j'aurai un abonnement?

Non, vous n'achetez ce résumé que pour €4,96. Vous n'êtes lié à rien après votre achat.

Peut-on faire confiance à Stuvia ?

4.6 étoiles sur Google & Trustpilot (+1000 avis)

67096 résumés ont été vendus ces 30 derniers jours

Fondée en 2010, la référence pour acheter des résumés depuis déjà 14 ans

Commencez à vendre!

Récemment vu par vous

Examen ·

(0)

Populaire universiteiten

Populaire hogescholen

Populaire studieboeken voor Communicatie en Taal

Populaire studieboeken voor Economie en Bedrijf

Populaire studieboeken voor Exact en Informatica

Populaire studieboeken voor Gedrag en Maatschappij

Populaire studieboeken voor Gezondheid en Geneeskunde

Populaire studieboeken voor Recht en Bestuur

Resume

Korte samenvatting PC-labs Data-Analyse 1 (KUL)

Infos sur le Document

Sujets

École, étude et sujet

Vendeur

Avis reçus

Aperçu du contenu