Samenvatting Alle hoofdstukken samengevat uit Field voor het midterm tentamen
36 views 0 purchase
Course
ARMS
Institution
Universiteit Utrecht (UU)
Book
Discovering Statistics Using IBM SPSS
Hierbij een samenvatting van alle hoofdstukken uit het boek van Field die je moet kennen voor het midterm examen. De samenvatting is in het nederlands.
Exam Guide for Applied Multivariate Data Analysis – Get yourself a Wonderful Grade!
Summary of Statistics (IBC), Radboud University
Answers assignment 3 business research methods
All for this textbook (117)
Written for
Universiteit Utrecht (UU)
Psychologie
ARMS
All documents for this subject (12)
Seller
Follow
Emm1002
Reviews received
Content preview
Field samenvattingen
Hoofdstuk 11.5 – dummy variabelen
In een lineair model kunnen er ook categorische voorspellers toegevoegd worden. Deze worden dan
gecodeerd met 0 en/of 1. Dus bijvoorbeeld: man = 0 en vrouw = 1. Echter wanneer er sprake is van
een variabele (bv religie) die verschillende categorieën bevat, dan moet er gebruik worden gemaakt
van dummy variabelen. Dat is een manier om groepen mensen te representeren aan de hand van het
gebruik van nullen en enen. Het aantal variabelen die we dan creëren is één minder dan de aantal
categorieën (groepen).
Er zijn acht basis stappen hiervoor:
1. Tel het aantal groepen en doe dat aantal min één.
2. Creëer het aantal nieuwe variabelen uit stap 1. Dit zijn je dummy variabelen.
3. Kies één groep als baseline waarmee al je andere groepen mee worden vergeleken. Denk
daarbij aan de groep die de meeste mensen bv vertegenwoordigd.
4. Wanneer je een baseline groep hebt gekozen dan krijgen die waarden uit die groep de
waarde 0.
5. Voor de eerste dummy variabele die je wilt vergelijken met de baseline stel je waarde 1 in.
Alle andere groepen zijn voor deze variabele dan 0.
6. De tweede dummy variabele die je daarna wilt vergelijken met de baseline krijgt ook waarde
1; de rest waarde 0.
7. Herhaal het proces totdat al je dummy variabelen gebruikt zijn.
8. Plaats alle dummy variabelen in het lineaire model in hetzelfde blok.
Voorbeeld waarin ‘’no affilliation’’ de baseline is:
Output
De niet gestandaardiseerde b-waarde vertelt ons iets over de verandering in uitkomst doordat er één
unit verandering is van de voorspeller.
Voor dummy variabelen betekent dat dus een verandering van 0 1.
Voor dummy variabelen geeft deze b waarde dus aan wat het verschil is in gemiddelde
van een bepaalde groep en de baseline groep.
,Hoofdstuk 9 – het lineaire regressie model
b0 en b1
- De linker grafiek is een grafiek waarbij de lijnen dezelfde intercept (b0), maar een andere
slope (b1).
- De rechter grafiek is een grafiek waarbij de lijnen een andere intercept (b0) hebben, maar
wel dezelfde slope (b1) hebben.
- B1 geeft bovendien de richting van de lijn aan (positief/negatief).
Regressie analyse
Een regressie analyse is een term voor de ‘’fitting’’ van een lineair model met de data, die gebruikt
wordt om waarden van de uitkomst variabelen te voorspellen (afhankelijke variabele) vanuit één of
meerdere voorspel variabelen (onafhankelijke variabelen). Met één voorspellen wordt het een
simpele regressie genoemd en met meerdere voorspellers wordt het een multiple regressie
genoemd.
- Residuen (residuals): het verschil tussen wat het model voorspelt en de geobserveerde data.
Deze som moet gekwadrateerd worden zodat de waarden elkaar niet wegspelen. Je krijgt
dan de residual sum of squares (SSr).
- SSr: geeft aan hoe goed het lineaire model de data fits. Als de gekwadrateerde verschillen
groot zijn, dan is het model niet representatief voor de data (er is veel error in de
voorspelling). Als de gekwadrateerde verschillen klein zijn is de lijn wél representatief.
Bias in lineaire modellen
Uitschieters (outliers)
Een uitschieter is een waarde die erg verschilt van alle andere waardes. Een uitschieter heeft zowel
invloed op b0 als op b1 en een uitschieter maakt de lijn vlakker. Om uitschieters te identificeren
moeten we naar cases kijken die het model onnauwkeurig voorspelt. Dus we kijken naar de
resisduals. Als die klein zijn dan zijn alle waarden rondom de lijn, wat goed is, want dan is het model
de perfecte fit voor de data.
Residuen laten de meetfout (errors) in het model zien. De ongestandaardiseerde residuen (de
normale residuen) zijn in dezelfde schaal als de uitkomstvariabele gemeten en zijn dus moeilijk te
gebruiken in andere modellen. Gestandaardiseerde residuen zijn residuen die tot z-scores zijn
getransformeerd en kunnen bij meerdere modellen gebruikt worden als standaard. Het voordeel is
dat er voor deze gestandaardiseerde residuen richtlijnen zijn over welke residuen acceptabel zijn en
welke niet.
De studentized residu varieert van punt tot punt. Ze hebben dezelfde proporties als de
gestandaardiseerde residuen alleen geven ze een iets preciezere schatting van de
meetfout in een specifiek geval.
, Invloedrijke gevallen
- Cook’s distance: deze kijkt naar de algemene invloed van één case op het model. Cook en
Weisberg geven dan ook aan dat waarden groter dan 1 reden voor bezorgdheid zouden
moeten zijn.
- Mahalanobis distance: deze meet de afstand van de scores tot het gemiddelde van de
predictorvariabele. Je kijkt naar de gevallen met de hoogste waardes. Hier hebben de
afstanden een chi-square distributie waarbij het aantal vrijheidsgraden gelijk is aan het
aantal voorspellende variabelen.
Het generaliseren van het model
In de sociale wetenschappen wil men graag de bevindingen kunnen generaliseren naar een hele
populatie. Hiervoor is het belangrijk dat aan alle assumpties voor regressieanalyse is voldaan.
De belangrijkste assumpties van een lineair model zijn al besproken in een eerder hoofdstuk.
Hieronder nogmaals de belangrijkste op een rijtje:
Lineariteit en optelbaarheid (additivity and linearity): De uitkomstvariabele moet in
werkelijkheid lineair samenhangen met alle predictors, en als je meerdere
predictorvariabelen hebt, moet hun gecombineerde effect het best beschreven worden door
het optellen van hun effecten.
Onafhankelijke meetfouten (independent errors): Voor elke twee observaties moet het residu
ongecorreleerd zijn. Dit wordt ook beschreven als gebrek aan autocorrelatie. Het kan getest
worden met de Durbin-Watson toets. Deze toets test seriële correlaties tussen meetfouten.
De waardes liggen tussen de 0 en de 4 en de waarde 2 betekent dat de residuen
ongecorreleerd zijn. Een waarde groter dan 2 betekent een negatieve correlatie en lager dan
2 een positieve correlatie.
Homoscedasticiteit (homoscedasticity): De residuen moeten op elk niveau dezelfde variantie
hebben. Wanneer de varianties niet gelijk zijn wordt dit heteroscedasticiteit genoemd.
Normaal verdeelde meetfouten (normally distributed errors): De residuen zijn random,
normaal verdeelde variabelen en hebben een gemiddelde van 0.
Voorspellers moeten ongecorreleerd zijn met externe variabelen (predictors are
uncorrelated with external variables): Externe variabelen zijn variabelen die wel invloed
hebben op de uitkomstvariabele, maar niet in de regressieanalyse opgenomen zijn. Dit lijkt
op het ‘derde variabele probleem’ bij de correlatie. Als er wel een correlatie is worden de
conclusies minder betrouwbaar.
De type variabelen (variable types): Alle voorspellervariabelen moeten kwantitatief (op
intervalniveau) of categorisch (met twee categorieën) zijn. De uitkomstvariabele moet
kwantitatief, continu en onbegrensd zijn.
Geen perfecte multicollineariteit (no perfect multicollinearity): Er mag geen perfect lineaire
relatie tussen twee of meer predictors zijn. De predictors mogen dus niet sterk correleren.
Geen variantie van 0 (non zero variance): De predictorvariabelen moeten variantie hebben.
Als het model aan de assumpties voldoet, dan is het regressiemodel van de steekproef gemiddeld
hetzelfde als het model van de populatie. Het kan nog steeds dat het model van de steekproef
afwijkt van die van de populatie, maar de kans dat de modellen overeenkomen, is een stuk groter
wanneer aan de assumpties is voldaan.
Cross validatie van het model
Cross-validatie is de nauwkeurigheid van een model bepalen bij verschillende steekproeven.
Wanneer een model gegeneraliseerd kan worden, zou het ook op andere steekproeven dezelfde
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller Emm1002. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $4.17. You're not tied to anything after your purchase.