Missings -> Als minder dan 5% dan MVA niet nodig!!
- Beginnen met een frequentie tabel om te kijken of variabele missende waardes hebben
- Als er missings zijn -> welke soort missing: Missing Values Analyses en worden die meteen met de MLE-
procedure opgevuld
Analyse → Missing Value Analyses → Onderscheid tussen kwantitatieve en categorische/kwalitatief variabelen
Patterns → Cases with missing values, sorted bby missing value patterns; Sort variables by missing value pattern →
Additional information (voor de variabele waar er missings op zijn)
Descriptives → T tests with groups formed by indicator variables, include probabilities in table
Estimation → EM → Normal; Maximum iterations = 25; Save completed data, create a new data set
→Maximum categories = 25
Er is nu een nieuwe dataset geopend (Untiteld) -> die opslaan
-> hier niks aan hebben
Maar als wel zo is dan:
- Seperate Variance t Tests = MVA Tabel met de t-toetsen op MAR
- Kijken of er een verschil tussen het gemiddelde van de cases en die ontbrekende waarde van de variabele waar
missings op zijn (frequentie tabel en dan die in additional information)
Significant = MNAR -> dus steekproef niet meer random, zit een patroon in
Niet significant = MAR of MCAR -> de EM-algortime gebruiken voor imputeren van waarde van de variabele waar
missings op zijn
Tabel: ‘EM Correlations’ -> Little’s MCAR test: kijken of significant is op 5% -> als niet significant is dan betekent dat
de met het EM-algoritme geïmputeerde waarden van variabele v13 en de overige variabelen niet significant is; dus
het patroon van missende waardes MCAR.
- Wel significant: dan waren missende waardes MAR
- Little’s MCAR test en de t-toets voor variabele … significant dan waren de missende waarden MNAR
Tabel: ‘Missing patterns (cases with missing values)’: deze geeft aan welke cases ontbrekende waarden hebben op
de variabel v13 (waar missings zijn)
,Verdeling van de afhankelijke variabele
Onderzoeken of de afhankelijke variabele normaal verdeeld is ->
Kijken naar onderzoeksvraag: wel/geen behandeling en dan moet je die eruit filteren: select cases if > 0
Graphs → Legacy dialogs → Histogram (Display normal curve)
!!! Normaal curve opvragen !!!
Als normaal verdeeld eruit ziet is er geen probleem -> anders logaritmische transformatie uitvoeren -> resultaat
opslaan in een nieuwe variabele:
Transform → Compute Variable → [Target variabele = naam nieuwe variable; Function group = Arthimetic; Functions
and Special Variables = Lg10; LG10(?) ? = naam oude variable].
En dan met die nieuwe variabele de histogram opnieuw opvragen -> dan is het meer normaal verdeeld dan eerst.
Pearson; Two-tailed & Flag significant correlation
- Pearson; alleen als alle variabele van minimaal interval niveau zijn
- WITH er tussen zetten als je wilt kijken wat de correlatie is tussen de onafhankelijke variabelen en de
afhankelijke variabele (kan bewerkt zijn via logaritmische transformatie)
- Statistics [Durbin-Watson; Casewise diagnostics].
- Plots [Y = *ZRESID, X = *ZPRED]; Histogram; Normal probability plot].
- Save [Standardized (onder Residuals).
Assumpties: ALLE ASSUMPTIES TOETSEN!
1. X en Y zijn op interval niveau
2. Lineair verband tussen X en Y
3. X variabelen zijn fixed en Y variabele is random
4. Errortermen/voorspelfouten zijn
a) Onderling onafhankelijk -> toetsen via scatterplot
b) Normaal verdeeld
c) Homoscedastisch = goed verdeeld bij elkaar-> voor elke vombinatie van X-variabelen dezelfde variantie
Assumptie 2 & 4 onderzoeken of ze waar zijn:
- Assumptie 2: inspecteer de scatterplot van Ŷ tegen de error, als er een lineair verband is, zie je de errors mooi in
een band verspreid liggen.
Als bijvoorbeeld curvilinear dan: bij lage en hoge X negatief en in ’t midden positief -> dus niet lineair verband
van de errortermen
Schending: resultaten zullen niet goed zijn: andersoortig verband zal niet gevonden worden
Scatterplot: de errortermen zijn gelijk verdeeld boven en onder de 0 (plaatje 1)
Assumptie 4:
- Errortermen onafhankelijk van elkaar = dus de kwaliteit van de voorspelling voor de ene respondent geen
verband houd met die van een andere respondent. Durbin-Watson-Toets: rond de 2 -> mag niet kleiner zijn dan
, 1; dan is er geen sprake van oanfhankelijkheid tussen de error-termen
Schending: kan ernstige gevolgen hebben voor de betrouwbaarheid van de statistische toets waarmee wordt
vastgesteld of de regressiegewichten al dan niet significant van nul afwijken.
Respondenten at random uit de populatie trekken -> voldaan aan de assumptie
Controle:
Beredeneer: respondenten random uit de populatie
Toetsen: Durbin-Watson -> ligt tussen de 0 en 4. Als de waarde in de buurt van 2 komt, dan is er geen
afhankelijkheid -> eigenlijk voor tijdreeksgegevens (=cox-regressie)
- Normaliteit = maak histogram van residuen, kijk of het een normaalverdeling volgt, toetsen kan – alleen bij
kleine steekproeven en grote afwijkingen zorgen maken. Bij voldoende grote steekproef -> voldaan aan deze
assumptie (100)
Kolmogorov-Smirnov toets: kijken of de verdeling afwijkt van de normale verdeling
Controle: histogram van de residuen: kijken of die normaal verdeeld is
- Homoscedasticiteit = voor elke combinatie van X variabelen hebben de voorspelfouten dezelfde variantie ->
formeel toetsen
Inspecteer de scatterplot van Ŷ tegen
de error, als de errortermen
homoscedastisch zijn, zie je een mooi
plaatje (1) zoals in Figuur 6.13 (p.
129), bij heteroscedasticiteit zie je
vaak dat de errors groter worden
naarmate Y groter wordt (of
andersom) -> plaatje 2
Altijd formeel toetsen. Als niet aan
wordt voldaan dan hebben de residuen geen gelijke variantie
Scatterplot: Plot van de errortermen tegen de voorspelde Y
Uitleg:
SAVE ZRESID: de gestandaardiseerde residuen van de analyse zijn als een nieuwe variabele toegevoegd -> zodat je
via Graphs kan kijken of er is voldaan aan de assumpties.
Kolmogorov-Smirnov-test: normaliteitsassumptie -> NIET significant
Dus als je bij een scheve verdeling de afhankelijke
variabele niet in logaritmische transformatie had gedaan -> dan was de Kolmogorov-Smirnov significant geweest ->
dus deze is significant -> dus de afhankelijke variabele is niet normaal verdeeld!! Assumptie is dus geschonden.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller CrimiVU123. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $4.20. You're not tied to anything after your purchase.