Missings -> Als minder dan 5% dan MVA niet nodig!!
- Beginnen met een frequentie tabel om te kijken of variabele missende waardes hebben
- Als er missings zijn -> welke soort missing: Missing Values Analyses en worden die meteen met de MLE-
procedure opgevuld
Analyse → Missing Value Analyses → Onderscheid tussen kwantitatieve en categorische/kwalitatief variabelen
Patterns → Cases with missing values, sorted bby missing value patterns; Sort variables by missing value pattern →
Additional information (voor de variabele waar er missings op zijn)
Descriptives → T tests with groups formed by indicator variables, include probabilities in table
Estimation → EM → Normal; Maximum iterations = 25; Save completed data, create a new data set
→Maximum categories = 25
Er is nu een nieuwe dataset geopend (Untiteld) -> die opslaan
-> hier niks aan hebben
Maar als wel zo is dan:
- Seperate Variance t Tests = MVA Tabel met de t-toetsen op MAR
- Kijken of er een verschil tussen het gemiddelde van de cases en die ontbrekende waarde van de variabele waar
missings op zijn (frequentie tabel en dan die in additional information)
Significant = MNAR -> dus steekproef niet meer random, zit een patroon in
Niet significant = MAR of MCAR -> de EM-algortime gebruiken voor imputeren van waarde van de variabele waar
missings op zijn
Tabel: ‘EM Correlations’ -> Little’s MCAR test: kijken of significant is op 5% -> als niet significant is dan betekent dat
de met het EM-algoritme geïmputeerde waarden van variabele v13 en de overige variabelen niet significant is; dus
het patroon van missende waardes MCAR.
- Wel significant: dan waren missende waardes MAR
- Little’s MCAR test en de t-toets voor variabele … significant dan waren de missende waarden MNAR
Tabel: ‘Missing patterns (cases with missing values)’: deze geeft aan welke cases ontbrekende waarden hebben op
de variabel v13 (waar missings zijn)
,Verdeling van de afhankelijke variabele
Onderzoeken of de afhankelijke variabele normaal verdeeld is ->
Kijken naar onderzoeksvraag: wel/geen behandeling en dan moet je die eruit filteren: select cases if > 0
Graphs → Legacy dialogs → Histogram (Display normal curve)
!!! Normaal curve opvragen !!!
Als normaal verdeeld eruit ziet is er geen probleem -> anders logaritmische transformatie uitvoeren -> resultaat
opslaan in een nieuwe variabele:
Transform → Compute Variable → [Target variabele = naam nieuwe variable; Function group = Arthimetic; Functions
and Special Variables = Lg10; LG10(?) ? = naam oude variable].
En dan met die nieuwe variabele de histogram opnieuw opvragen -> dan is het meer normaal verdeeld dan eerst.
Pearson; Two-tailed & Flag significant correlation
- Pearson; alleen als alle variabele van minimaal interval niveau zijn
- WITH er tussen zetten als je wilt kijken wat de correlatie is tussen de onafhankelijke variabelen en de
afhankelijke variabele (kan bewerkt zijn via logaritmische transformatie)
- Statistics [Durbin-Watson; Casewise diagnostics].
- Plots [Y = *ZRESID, X = *ZPRED]; Histogram; Normal probability plot].
- Save [Standardized (onder Residuals).
Assumpties: ALLE ASSUMPTIES TOETSEN!
1. X en Y zijn op interval niveau
2. Lineair verband tussen X en Y
3. X variabelen zijn fixed en Y variabele is random
4. Errortermen/voorspelfouten zijn
a) Onderling onafhankelijk -> toetsen via scatterplot
b) Normaal verdeeld
c) Homoscedastisch = goed verdeeld bij elkaar-> voor elke vombinatie van X-variabelen dezelfde variantie
Assumptie 2 & 4 onderzoeken of ze waar zijn:
- Assumptie 2: inspecteer de scatterplot van Ŷ tegen de error, als er een lineair verband is, zie je de errors mooi in
een band verspreid liggen.
Als bijvoorbeeld curvilinear dan: bij lage en hoge X negatief en in ’t midden positief -> dus niet lineair verband
van de errortermen
Schending: resultaten zullen niet goed zijn: andersoortig verband zal niet gevonden worden
Scatterplot: de errortermen zijn gelijk verdeeld boven en onder de 0 (plaatje 1)
Assumptie 4:
- Errortermen onafhankelijk van elkaar = dus de kwaliteit van de voorspelling voor de ene respondent geen
verband houd met die van een andere respondent. Durbin-Watson-Toets: rond de 2 -> mag niet kleiner zijn dan
, 1; dan is er geen sprake van oanfhankelijkheid tussen de error-termen
Schending: kan ernstige gevolgen hebben voor de betrouwbaarheid van de statistische toets waarmee wordt
vastgesteld of de regressiegewichten al dan niet significant van nul afwijken.
Respondenten at random uit de populatie trekken -> voldaan aan de assumptie
Controle:
Beredeneer: respondenten random uit de populatie
Toetsen: Durbin-Watson -> ligt tussen de 0 en 4. Als de waarde in de buurt van 2 komt, dan is er geen
afhankelijkheid -> eigenlijk voor tijdreeksgegevens (=cox-regressie)
- Normaliteit = maak histogram van residuen, kijk of het een normaalverdeling volgt, toetsen kan – alleen bij
kleine steekproeven en grote afwijkingen zorgen maken. Bij voldoende grote steekproef -> voldaan aan deze
assumptie (100)
Kolmogorov-Smirnov toets: kijken of de verdeling afwijkt van de normale verdeling
Controle: histogram van de residuen: kijken of die normaal verdeeld is
- Homoscedasticiteit = voor elke combinatie van X variabelen hebben de voorspelfouten dezelfde variantie ->
formeel toetsen
Inspecteer de scatterplot van Ŷ tegen
de error, als de errortermen
homoscedastisch zijn, zie je een mooi
plaatje (1) zoals in Figuur 6.13 (p.
129), bij heteroscedasticiteit zie je
vaak dat de errors groter worden
naarmate Y groter wordt (of
andersom) -> plaatje 2
Altijd formeel toetsen. Als niet aan
wordt voldaan dan hebben de residuen geen gelijke variantie
Scatterplot: Plot van de errortermen tegen de voorspelde Y
Uitleg:
SAVE ZRESID: de gestandaardiseerde residuen van de analyse zijn als een nieuwe variabele toegevoegd -> zodat je
via Graphs kan kijken of er is voldaan aan de assumpties.
Kolmogorov-Smirnov-test: normaliteitsassumptie -> NIET significant
Dus als je bij een scheve verdeling de afhankelijke
variabele niet in logaritmische transformatie had gedaan -> dan was de Kolmogorov-Smirnov significant geweest ->
dus deze is significant -> dus de afhankelijke variabele is niet normaal verdeeld!! Assumptie is dus geschonden.
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper CrimiVU123. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €3,89. Je zit daarna nergens aan vast.