100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached
logo-home
Samenvatting SV Discovering statistics 4e editie Andy Field $5.29
Add to cart

Summary

Samenvatting SV Discovering statistics 4e editie Andy Field

33 reviews
 3537 views  191 purchases
  • Course
  • Institution
  • Book

Goede uitgebreide SV van H2, H8, H10 tm H15 met ondersteunende tabellen en figuren uit het boek. H2 (basisbegrippen) staat als laatste in de sv. EXTRA achteraan de samenvatting een overzicht van welke assumpties te testen bij welke analyse!

Preview 4 out of 50  pages

  • No
  • H2, h8, h10-h15
  • February 18, 2015
  • 50
  • 2014/2015
  • Summary

33  reviews

review-writer-avatar

By: aylabitter • 3 year ago

review-writer-avatar

By: nielsvoss10 • 5 year ago

review-writer-avatar

By: Pimdejong1 • 5 year ago

review-writer-avatar

By: chrisw98 • 6 year ago

review-writer-avatar

By: ezaouaghi • 5 year ago

review-writer-avatar

By: daphnepunt • 6 year ago

review-writer-avatar

By: Celezz • 6 year ago

Show more reviews  
avatar-seller
DISCOVERING STATISTICS
USING SPSS
4th edition


Andy Field

,Hoofdstuk 8. Regressie

8.2 Introductie tot regressie
Regressie analyse: uitkomst voorspellen adhv de waardes van de predictor variabelen.
Het is eigenlijk kijken naar de relatie tussen twee variabelen:

𝑌i = (𝑏0 + 𝑏1 X𝑖 ) + 𝜀𝑖 Yi = uitkomst, outcome
Xi = predictor geobs.score persoon i
Het verschilt van een correlatie, b1 = slope
want gebruikt een ongestandaardiseerde meting b0 = intercept. Waarde y bij x=0
van de relatie. Daarom ook b0 erbij, omdat dit verteld
wat de waarde vd outcome is als de predictor 0 is.

b1 en b0 zijn regression coefficients.
b kwantificeert de relatie tussen de predictor variabele en de outcome.
- b1 negatief  negatieve relatie.
- b1 positief  positieve relatie.

Zijn er meer voorspellers? Die voeg je simpelweg toe

𝑌i = (𝑏0 + 𝑏1 X1𝑖 + 𝑏2 X2𝑖 ) + 𝜀𝑖

Met een regressie analyse fitten we onze data met een lineair model. Deze gebruiken we om een voorspelling
te doen over de waarde vd outcome (afhankelijke var) mbv één of meer voorspellers/predictoren
(onafhankelijke var)
- één voorspeller: Simple regression.
- meer voorspellers: Multiple regression.

8.2.3 Schatten van het model
Een lineair model is er dus om de relatie tussen een of meer predictoren en een outcome variabel op te
sommen.



Groen = de voorspelde waardes
Blauw = de geobserveerde data (model)

Het model zit dus niet perfect. Er zit error in de voorspelde waardes. Ze
zullen soms overschatten of onderschatten.

Verschil tussen wat het model voorspeld (groen) en de geobserveerde
data (blauw) = Residu



Om de error te berekenen in een regressiemodel, moet je de ‘sum of squared errors’ gebruiken. Ook wel de
error residu  Sum of Squared Residuals of Residual Sum of Squares (SSR )
Dit geeft een schatting van hoe goed een bepaalde lijn past bij de data.
𝑛

Total Error = ∑(observed𝑖 − model𝑖 )²
𝑖=1


Hoe kleiner dit getal, hoe beter de lijn representeert.

Maar hoe vind je het optimale model om de data samen te vatten?
Je kan heel veel SSr’s uitrekenen en kijken welke het kleinst is, maar het kan makkelijker.
 Ordinary Least Squares (OLS) Regression: gebruikt een methode van least squares om de ‘b’ te schatten,
die het model definiert waarbij de SSr het laagst is bij de gegeven data.
 DUS beschrijft het regressie model dat het beste past bij de data.

,8.2.4 Assessing de Goodness of Fit, Sums of Squares, R en R²
Nadat het model is gevonden dat het beste past  beoordelen hoe goed het model past bij de actuele data 
Goodness of Fit.

Maar de SSr laat alleen weten dat er error zit in de voorspelling, maar laat niet weten of het ‘beste model’ wat
toevoegd aan de voorspelling.
- Om te kijken of het beste model iets toevoegd, moet je van het ‘baseline model’ en het ‘beste model’ de
error berekenen.
- Bij een baseline model gaan ze uit van het gemiddelde als meetmaat.
- Is de error van het beste model kleiner dan die van het baseline model, dan voegt het beste model wat
toe aan de voorspelling.

Bij een gewoon model (geen regressiemodel), is het verschil tussen de geobserveerde scores en het
gemiddelde = Total Sum of Squares (SST )
- Baseline Model (gemiddelde)




Bij een regressiemodel, is het verschil tussen de geobserveerde data en de regressielijn = Residual Sum of
Squares (SSR )
- Geeft de mate van accuratie weer als het beste model op de data is gefit.




Met de SSt en de SSr kan je nu uitrekenen hoeveel beter het regressiemodel is dan het baseline model  het
verschil tussen beide nemen  dit verschil laat de reductie zien in de accuratie vh model als resultaat van het
fitten van het regressiemodel op de data.
 Deze verbetering = Model Sum of Squares (SSM )

SSm groot = dan heeft het regressie model een grote verbetering teweeg
gebracht.
SSm klein = dan is het regressiemodel maar een beetje beter dan baseline
model (gemiddelde).



Kan ook ‘Proportie van verbetering’ dankzij model berekenen.
SS
R² = M x 100 voor procentueel.
SST


= Staat voor hoeveelheid verklaarde variantie in de uitkomst. Dus hoeveel het model verklaard.

√R² = Pearson correlatie coefficient. Voor de relatie tussen de voorspelde waardes door het model en de
geobserveerde waardes.
 geeft een goede schatting vd gehele fit van het regressiemodel.

Ook de Sum of Squares gebruiken om het model te beoordelen met een F-test.
- F is gebaseerd op de ratio van verbetering door het model (SSm) en de SSr.
- Maar hier wordt gebruik gemaakt van het gemiddelde Sums of Squares (Mean Squares of MS)

, SSM
MSM = Df = aantal variabelen in het model
Df

SSR
MSR = Df = aantal observaties – aantal parameters die geschat worden
Df
Aantal parameters (beta coeff + constant)

F-Ratio bereken je vervolgens met:
MSM
F = Zegt hoeveel het model de voorspelling van de uitkomst verbeterd heeft tov
MSR
de mate van accuraatheid van het model.

Als het model goed is, dan verwachten we dat de MSm groot zal zijn en de MSr klein.  dan krijg je een grote
F, minstens groter dan 1.
 De preciese grootte/omvang van de F-ratio hangt af van de kritieke waardes die hogen bij de Df.

F-ratio kan ook gebruikt worden om de significantie van R² te berekenen.
( N−k−1)R²
F= Test dan de null-hypothese dat R² = 0
k (1−R2 )
N = aantal deelnemers // k = aantal predictoren

8.2.5 Assessing Individuele predictoren
Als een model slecht is in het voorspellen van de uitkomst. En de waarde van de voorspeller verandert, wat kan
je dan verwachten?  De verandering in de uitkomst zal 0 zijn.

Bij gebruik van de mean  slechte manier in uitkomst voorspellen.
De lijn is plat, dus als de voorspeller verandert, dan verandert de uitkomst niet. Want het voorspelt dan
dat de uitkomst gelijk aan 0 zal zijn.

Een slecht model zoals het gemiddelde, zal een regressie coefficient van 0 hebben voor de predictoren.
Regressie coefficient van 0 betekend:
- Een verandering in predictor variabele zorgt voor geen verandering in de voorspelde waarde van
uitkomst.
En met maar één voorspeller in het model:
- De slope vd regressielijn is 0, de regressielijn is dus plat.

Als een variabele significant de uitkomst voorspeld, dan zal het een b-waarde boven de 0 hebben.  deze
hypothese wordt getest met een t-test.
- De t-test, test de nul-hypothese dat de waarde van b=0. Als het dus significant is, krijg je groter
vertrouwen dat de b-waarde significant anders is dan 0, en dat de predictor variabel bijdraagt
(significant) aan het vermogen de waardes vd uitkomst te schatten.

t-statistiek, net als de F, gebaseerd op het ratio vd verklaarde variantie tot de onverklaarde variantie of error.
Hierin geinteresseerd of de b groot is in vergelijking met de hoeveelheid error in de schatting.
 Om te schatten hoeveel error te verwachten is bij/in b  gebruikt men de standaard error.

Standaard error: verteld hoe er verschillende b-waardes zijn in verschillende samples.
- SE erg klein? = dan zullen de meeste samples een b-waarde hebben gelijk aan de b in jouw sample. Er is
dan weinig variantie tussen de samples.
- SE klein? = zelfs een kleine afwijking van 0 kan een betekenisvol verschil reflecteren, omdat b
representatief is voor de meerderheid van de mogelijke samples.

𝑏observed − 𝑏expected 𝑏observed
𝑡= =
SE𝑏 SE𝑏

- Bexpected = 0, want bij nulhypothese b=0.
- Bij meerdere voorspellers hoort bij t een df van:
o Df = N – p – 1
- Met één voorspeller:
o Df = N – 2

The benefits of buying summaries with Stuvia:

Guaranteed quality through customer reviews

Guaranteed quality through customer reviews

Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.

Quick and easy check-out

Quick and easy check-out

You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.

Focus on what matters

Focus on what matters

Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller Miloustephanie. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $5.29. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews)

48072 documents were sold in the last 30 days

Founded in 2010, the go-to place to buy study notes for 15 years now

Start selling
$5.29  191x  sold
  • (33)
Add to cart
Added