100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached
logo-home
Summary Discovering Statistics Using IBM SPSS Statistics $7.50   Add to cart

Summary

Summary Discovering Statistics Using IBM SPSS Statistics

 24 views  0 purchase
  • Course
  • Institution
  • Book

This is an English summary of the Field chapters that we needed to read. The first chapter is in dutch, but afterwards it will turn into English.

Preview 3 out of 17  pages

  • No
  • The chapters which we needed to read. spss instructions are not included.
  • March 15, 2021
  • 17
  • 2020/2021
  • Summary
avatar-seller
Samenvatting Statistiek Blok 3:

Week 1:

Hoofdstuk 9: Lineaire Model (Regressie)

Wanneer je een lineaire regressie wilt opstellen kom je met de volgende formule:
- Y = Ax+b – of B1x+b
o B = de constante, het snijpunt met de y-as.
o A = de helling van de lijn – wanneer je een positieve relatie hebt is de A
positief en bij een negatieve relatie is de A negatief (-).

Wanneer je voor a & b (of zoals in het boek B1) & B) getallen gaat invullen kan daar een
waarde uitkomen en dat is dan de voorspellende waarde.
- 100 x €5,- + 50 = €550,- euro is dan de voorspellende waarde.

Het kan natuurlijk zo zijn dat er meerdere variabelen invloed hebben op de voorspellende
waarde dan alleen A (of B1) en dat je daarom ook een formule kunt hebben met meerdere
variabelen. – A1X + A2X + B.

Vervolgens kan je hier een model uit krijgen en daarin zie je dan een regressievlak.  er
zijn dan ook datagegevens die niet in dat vlak vallen en dit noem je residuen / residuals. ;
met 2 variabelen is het nog makkelijk weer te geven, maar wanneer er meer variabelen in
het spel komen, wordt dit een stuk lastiger.

Wanneer je meerdere onafhankelijke variabelen / voorspellende variabelen gebruikt voor
de uitkomst variabelen / afhankelijke variabelen = multipele regressie analyse.

Hoe kom je bij B?  dat is eigenlijk het gemiddelde van alle datapuntjes. ; methode van de
kleinste kwadranten.  je vult als het ware verschillende gegevens in en hierdoor krijg je dus
verschillende datapuntjes die uiteindelijk een voorspellende lijn vormen.
 Je hebt dan dus de voorspellende lijn en vervolgens doe je daar de geobserveerde
data bij om te kijken hoe goed je model bij de data past. ; als het perfect past, vallen
alle geobserveerde data precies op die voorspellende lijn.
o Residuals = de afstand tussen de voorspellende lijn (het model) en de
geobserveerde waarde.
 Deze residuen zet je in het kwadraat en tel je bij elkaar op = residual
sum of squares (SSr). & vertelt hoe goed je model bij de data past. 
is deze groot, dan past het niet goed, is deze klein, dan past het wel
goed.

Ordinary least squares (OLS) regression = een methode die de SSr minimaliseert zodat je
data het beste bij het model past.

Goodness of fit = hoe goed past je model bij de geobserveerde data. – de SSr vertelt
hoeveel error erin zit, maar niet per se of het model beter is dan niks.
 Hoe doe je dit? Stel je neemt het gemiddelde van de uitkomst  dit is eigenlijk
gelijk aan “geen relatie” (dus geen lineaire relatie); als het ene veranderd, dan blijft
het andere constant.
o Daarna bereken je de total sum of squares (SSt) = de verschillende tussen
de geobserveerde waardes en de waardes voorspeld door het gemiddelde in
het kwadraat bij elkaar opgeteld.

,  Om te kijken of het gebruik van een model beter is dan het niet
gebruiken van een model trek je dus SSt van de SSr af. En dit
wordt dan de SSm = model sum of squares.
 Als SSm groot is, dan toont dat aan dat het gebruik van een
lineair model beter is dan het simpelweg gebruiken van een
gemiddelde en als deze klein is geldt het andersom.

R2 = de proportie variantie die verklaard wordt door het model.

Test statistieken (F-test) = systematische variantie delen door de onsystematische
variantie.  je vergelijkt het model met de fouten in het model.
- Als het model goed is, dan moet MSm groot zijn (de voorspelling wordt verbetert) en
de MSr moet klein zijn.  dus de F-statistiek moet groter zijn dan 1 voor een goed
model. ; hoeveel kan het model verklaren ten opzichte van hoeveel het niet kan
verklaren. ?

Om te kijken of een variabele daadwerkelijk bijdraagt aan het veranderen van de uitkomst (a
is dan dus groter dan 0), kan je een t-test/statistiek uitvoeren.  dit test de null hypothese
dat de waarde van a 0 is. ; hiervoor gebruik je ook de standaardfout van a  dit laat zien hoe
het zit met de verschillende A waardes over verschillende samples.

2 vragen voor je model:
1. Wordt het beïnvloedt door het kleine aantal cases?
a. Outliers – 1 datapunt dat totaal verschilt van alle andere data punten. – dit
heeft invloed op de schatting van bijv. je lijn. De outliers vallen bijv. al op als je
de residuals gaat berekenen, want die hebben dan hele grote waardes. Maar,
dit is nog niet gestandaardiseerd. Dus stel dat je gestandaardiseerde
residuals zult maken krijg je z-scores. Op basis hiervan heb je een paar
aannames:
i. Als de z-score hoger is dan 3 is er rede tot zorg
ii. Als meer dan 1% van je sample boven de 2,5 ligt is er een
onaccepteerbare fout in het model.
iii. Als meer dan 5% boven de 2 ligt, dan is het model een slechte
representatie van je data.
b. Invloedrijke cases: het enige wat je moet weten is:
i. Cook’s distance = deze berekent de algemene invloed van een case
op het model.  een waarde groter dan 1 is een probleem.
ii. Mahalanobis distance = berekent de afstand van de cases tot het
gemiddelde van de voorspellende variabelen.  deze heeft een chi-
square distributie met degrees of freedom evengroot als het aantal
voorspellers.
2. Kan het gegeneraliseerd worden naar andere samples?  om dit te kunnen doen
moet er voldaan worden aan een aantal assumpties:
a. Er moet sprake zijn van een lineair model / lineairiteit
b. De residuen moeten niet gecorreleerd zijn (onafhankelijke fouten).  dit
kun je testen met een Durbin-Watson test. ; dit test of de residuen met elkaar
gecorreleerd zijn. ; als het rond de 2 is, is het geen probleem.
c. Homoscedasticiteit = de variantie van de resiuduen moet overal ongeveer
hetzelfde zijn.
d. Normaal verdeelde errors  de residuen moeten zo rond de 0 liggen.
e. Voorspellers zijn ongecorreleerd met externe variabelen
f. De voorspellende variabelen moeten kwantitatief of categorisch zijn
g. Geen perfecte multicollineairiteit  met meer dan 2 voorspellers mag de
correlatie niet perfect zijn.
h. Geen 0 variantie

, Wanneer er niet aan deze assumpties wordt voldaan heeft dat invloed op de
betrouwbaarheidsintervallen en de significantietesten.

Cross-validation = testen hoe accuraat je model is over verschillende samples. :
 Adjusted R2 = hoeveel variantie wordt er door het model verklaard als je het
doortrekt naar de populatie waarvan de sample getrokken is.
 Data splitting

De sample size is afhankelijk van de effect size die je wilt bereiken en hoeveel power je wilt.
 Over het algemeen wordt er gezegd dat een grotere sample size beter is. Als je een
groot effect wilt vinden (77), bij een medium effect (157) en bij een klein effect (1043),
dit met 20 voorspellers.

Je kiest natuurlijk niet zomaar voorspellende variabelen  als je er bijv. 100 hebt gemeten,
kies dan degene die het meest theoretisch belang hebben.

Hoe voeg je zulke variabelen dan toe in je model?
- Hiërarchische regressie = je selecteert voorspellers op basis van je eerdere werk
en voegt daar op basis van een hiërarchie nieuwe aan toe. Je begint dan met degene
waarvan je verwacht dat ze de meeste invloed hebben.
- Forced entry = je voegt alle voorspellers in 1 keer toe i.p.v. op basis van een
hiërarchie.
- Stepwise regression = dit wordt allemaal gedaan door de computer. – zie de
aantekeningen van het college. De computer besluit wat wel en niet belangrijk is. 
deze methode moet je gewoon NIET gebruiken want het is alleen gebaseerd op
mathematische criteria en niet op gedachte; het kijkt naar hoe goed een andere
variabele past op basis van de eerdere, maar dat is niet logisch. Het voorbeeld van
winterkleding & de broek/onderbroek.

Wanneer er sprake is van collinearity kunnen er 3 problemen ontstaan:
 Je krijgt onbetrouwbare B’s
 Het beperkt de R grote
 Het belang van andere voorspellers wordt beperkt. ; als ze sterk gecorreleerd zijn,
hoe kom je er dan achter welke belangrijker is?

Hoe kom je hier achter? Dat kan bijv. door de variance inflation factor (VIF) & tolerance:
- Als de grootste VIF groter is dan 10 dan is er een probleem
- Als de gemiddelde VIF groter is dan 1, kan er een bias zijn.
- Tolerance onder de 0.2 geeft een mogelijk probleem aan.

Vanuit SPSS kan de fit van je model bekeken worden in de tabellen “model summary” of
ANOVA.

Door te kijken naar de BETA in een tabel, kan je de resultaten beter met elkaar vergelijken
omdat ze op een soortgelijke schaal zijn gezet.  het is omgezet naar standaarddeviaties en
verteld je wat er veranderd wanneer de resultaten met 1 standaard deviatie veranderen.

Je kunt ook kijken naar de betrouwbaarheidsintervallen  als deze smal zijn (en geen nul
bevatten) zullen ze een grotere voorspellende waarde hebben dan wanneer de
betrouwbaarheidsintervallen wijder zijn. ; zodra er een 0 in het interval zit, kan dat betekenen
dat er geen relatie is.

The benefits of buying summaries with Stuvia:

Guaranteed quality through customer reviews

Guaranteed quality through customer reviews

Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.

Quick and easy check-out

Quick and easy check-out

You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.

Focus on what matters

Focus on what matters

Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller vdb99. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $7.50. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews)

67447 documents were sold in the last 30 days

Founded in 2010, the go-to place to buy study notes for 14 years now

Start selling
$7.50
  • (0)
  Add to cart