100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached
logo-home
Samenvatting A. Field: Discovering IBM SPSS using statistics $13.91   Add to cart

Summary

Samenvatting A. Field: Discovering IBM SPSS using statistics

 132 views  7 purchases
  • Course
  • Institution
  • Book

Samenvatting van alle benodigde hoofdstukken uit het boek van Andy Field (5de editie maar komt overeen met 4e editie, alleen andere hoofdstuknummers) voor blok 4.4 Multivariate data analysis van alle master behorend bij de opleiding psychologie aan de EUR. Ook een overzicht van aantekeningen van de...

[Show more]

Preview 4 out of 52  pages

  • No
  • 2 to 16
  • February 12, 2021
  • 52
  • 2020/2021
  • Summary
avatar-seller
Blok 4.4 Multivariate data analysis
Field samenvatting relevante hoofdstukken 2 t/m 16 (5e ed.)
Hoorcollege aantekeningen (recorded lectures)

Hoofdstuk 2 en 3: the spine and phoenix of statistics

Het maken van statistische modellen
Onderzoekers maken modellen van processen uit de echte wereld om te voorspellen hoe deze
processen onder bepaalde condities werken. Ze hebben echter geen toegang tot de situatie in de
echte wereld, en kunnen dus alleen conclusies trekken over processen gebaseerd op de modellen.
Men wil dat het model zo accuraat mogelijk is, zodat hun voorspellingen over de echte wereld ook
accuraat zijn. Het statistische model moet daarom de geobserveerde en verzamelde data zo goed
mogelijk representeren. De mate waarin een model het model de data representeert is de fit:
- Good fit: een goede representatie, de voorspellingen zullen accuraat zijn.
- Moderate fit: bepaalde overeenkomsten, maar ook verschillen met de werkelijkheid. Niet
altijd accurate resultaten.
- Poor fit: het model verschilt van de echte situatie, dus voorspellingen zijn inaccuraat.

Populaties en samples
Als onderzoeker wil je resultaten vinden die toe te passen zijn op de hele populatie. Je hebt echter
zelden toegang tot iedereen, dus verzamel je data van een subset van je populatie; een
steekproef/sample. Hier trek je conclusies uit over de populatie als geheel, dus hoe groter de
sample, hoe beter deze de populatie reflecteert.

Statistische modellen
De basisformule die je in gedachten moet houden is: uitkomst = model + error. De data die we
observeren kan voorspeld worden door het model dat gekozen wordt om de data te fitten, maar daar
hoort wel een bepaalde mate aan error bij. Het model varieert afhankelijk van het design van de
studie, het soort data, en wat je precies wilt bereiken met je model.

Statistische modellen bestaan uit variabelen en parameters. Variabelen zijn gemeten constructen die
verschillen over entiteiten in de sample. Parameters worden geschat van de data, dus niet direct
gemeten, en zijn constanten die een waarheid representeren over de relatie tussen variabelen in het
model, zoals de mediaan of het gemiddelde. De letter b staat vaak voor parameter.

Wanneer je een uitkomst wilt samenvatten, zoals het uitrekenen van een gemiddelde, zijn er geen
variabelen in het model, maar alleen je parameter. De vergelijking is dan uitkomst = b + error. Bij het
voorspellen van een uitkomst van een variabele worden voorspellers aangegeven met een X. Dan
wordt de formule uitkomst = bX + error. De entiteit waarvoor je de waarde wilt voorspellen wordt
aangegeven met een i. De voorspeller heeft een parameter b en deze verteld ons iets over de relatie
tussen de voorspeller en de uitkomst. Als je een uitkomst wilt voorspellen met 2 voorspellers kan je
hier nog een tweede aan toevoegen. Dan ziet de formule er zo uit:

Het gemiddelde als statistisch model
Het gemiddelde is een hypothetische waarde en niet iets wat geobserveerd wordt. Het is een
samenvatting van de uitkomstvariabele. In de formule is b dan het gemiddelde. Men neemt aan dat de
waarde van het gemiddelde in de sample hetzelfde zal zijn als het gemiddelde in de populatie.

Beoordelen van de fit van een model; sum of squares en variantie
Om de fit te beoordelen, kan je kijken naar hoe verschillend je geobserveerde waardes zijn van de
voorspelde waardes door je model. Deviatie of residual zijn andere woorden voor error. Error is de
voorspelde score door het model voor iemand min de geobserveerde score voor die persoon. Een
negatieve error betekent dan dat het model iets overschat. De fit van een model is ook wel de
accuraatheid van het model. De totale error is de sum of errors:

Daarnaast heb je ook de sum of squared errors (SS):

,Om de gemiddelde error te berekenen deel je SS door N. Om de gemiddelde error in de populatie te
delen, deel je SS door de df. Dit is het aantal scores dat gebruikt wordt om het totaal te berekenen,
waarbij gecontroleerd wordt voor het feit dat het een schatting van de populatiewaarde is.




Degrees of freedom is het aantal observaties dat vrij is om te variëren. Als de parameter constant is,
moet je df 1 minder zijn dan het aantal scores dat wordt gebruikt om de parameter te berekenen (dus
N-1). Kortom kan je de SS gebruiken om de fit van een model te beoordelen. Als het om het
gemiddelde gaat, heeft de mean squared error een speciale naam; de variantie.

Standaard error
Sampling variatie: steekproeven variëren omdat ze verschillende leden van de populatie bevatten.
Een symmetrische verdeling is een sampling distributie, dit is een frequentieverdeling van de
gemiddelden van de steekproeven, of andere parameters. Als je het gemiddelde neemt van de
steekproefgemiddelden, krijg je het populatiegemiddelde. De standaarddeviatie van het
steekproefgemiddelde zou ons vertellen hoe breed de gemiddelden verspreid zijn over het
populatiegemiddelde. Het vertelt ons of de steekproefgemiddelden representatief zijn voor het
populatiegemiddelde.

De SD van steekproefgemiddelden is ook wel de standaard error van het gemiddelde (SE). Een
grote SE betekent dat er veel variabiliteit is tussen de gemiddelden van de verschillende
steekproeven, en dus is de steekproef mogelijk niet representatief voor de populatie. Een kleine SE
betekent dat de meeste steekproefgemiddelden hetzelfde zijn als het populatiegemiddelde, en dat de
sample dus een accurate reflectie is van de populatie.

Central limit theorem: als je steekproef groter dan 30 is, heeft de sample een
normale verdeling met een gemiddelde dat gelijk is aan het populatiegemiddelde.
Hierbij hoort een SD van:
Als een sample kleiner is dan 30, is de verdeling niet normaal en heeft het een
andere vorm, die een t-verdeling genoemd wordt.

Betrouwbaarheidsinterval
Een confidence interval is de grens waartussen de populatie valt. Het vertelt ons de
waarschijnlijkheid dat ze een echte waarde bevatten van de parameter die je probeert te schatten. Er
zijn grenzen zodat een bepaald percentage van de steekproeven, vaak 95%, aangehouden wordt als
kans dat de gevonden waarde zich ook werkelijk in de populatie zal bevinden. Als je CI’s overlappen,
kan dit betekenen dat de gemiddelden uit dezelfde populaties komen.




NHST
Dit staat voor nulhypothese significantie testen. Fisher’s p-waarde is meestal .05, dus 5%. De
alternatieve hypothese is vaak dat er een effect aanwezig is, ook wel de experimentele hypothese.
Ook heb je de nulhypothese, die zegt dat er geen effect is. Je hebt 2 soorten hypotheses:
- Directional: effect zal plaatsvinden en de richting van het effect wordt gegeven; one-tailed.
- Non-directional: effect zal plaatsvinden, maar je weet de richting niet; two-tailed.

4 stappen NHST:
1. We nemen aan dat de nulhypothese waar is (dat er geen effect is).
2. Je fit een model aan je data die de alternatieve hypothese representeert, en kijkt hoe goed het
fit in termen van de verklaarde variantie.
3. Om te bepalen hoe goed het model de data dit, bereken je de kans (p-waarde) van het krijgen
van het model als de nulhypothese waar is.
4. Als die kans heel klein is (p < .05), nemen we aan dat het model goed bij de data past en
nemen we aan dat de alternatieve hypothese waar is.

,Je kan nooit compleet zeker zijn dat een van de hypothesen waar is, je kan alleen de kans berekenen
dat het model zou fitten als er geen effect op de populatie zou zijn, dus als de nulhypothese waar is.
Als deze kans verminderd, is er meer vertrouwen dat het alternatieve waar is, en de nulhypothese
verworpen wordt.

Variantie
Binnen een model zijn 2 soorten variantie:
- Systematische variantie: variantie die verklaard wordt door het model.
- Onsystematische variantie: variantie die niet verklaard kan worden door het model.

De makkelijkste manier om te kijken of het model de data fit, is door de systematische variantie met de
onsystematische variantie te vergelijken. Je vergelijkt hoe goed het model is tegenover hoe slecht het
is, dus wat het wel kan verklaren tegenover wat het niet kan verklaren.




Hoe meer variantie het model verklaart tegenover wat het niet verklaard, hoe groter de test statistiek
en hoe minder waarschijnlijk het effect per toeval plaatsvindt. Als het resultaat van een one-tailed test
in de tegenovergestelde richting is dan je had verwacht, kan en moet je niet gelijk de nulhypothese
verwerpen.

Soorten error
Er zijn 2 soorten error:
- Type 1: wanneer je denkt dat er een effect is, terwijl dat in werkelijkheid niet zo is. De kans
hierop is vaak 5% (.05), het significantieniveau.
- Type 2: wanneer je denkt dat er geen effect is, terwijl dat er wel is. De maximaal acceptabele
kans op deze error is 20% (.20), het β-level.

Power
Statistische power is de vaardigheid of mogelijkheid van een test om een effect te vinden. De power
van een test is de kans dat een test een effect vindt, en dat je kan aannemen dat deze ook echt
bestaat in de populatie. De power kan aangeduid worden als 1-β. Aangezien dit vaak .2 is, moet de
power van een test .8 zijn.

In grote samples kunnen kleine verschillen al significant zijn, terwijl in kleine samples grote verschillen
niet significant kunnen zijn. Dit komt door de power, want grote steekproeven hebben meer power om
effecten te detecteren. Een verschil van bijna 0 kan significant zijn als de sample size groot genoeg is.
Hoe groter de sample, hoe kleiner de SE. Grotere samples hebben minder noise en een kleiner
signaal kan daardoor al gedetecteerd worden.

Statistisch significant betekent niet per se dat het een belangrijk effect is, en een niet-significant
effect betekent niet per se dat de nulhypothese waar is. De effectgrootte is een objectieve
gestandaardiseerde meting van de omvang van het geobserveerde effect. Vaak wordt gekozen voor
cohen’s d. Hierbij is .10 een klein effect, .30 medium en .50 groot.

, Hoofdstuk 6: the beast of bias

Bias
Bias kan in 3 vormen voorkomen:
- Beïnvloed de schattingen van parameters (ook effectgroottes)
- Beïnvloed de standaard errors en confidence intervals
- Beïnvloed de test statistieken en p-waarden.

Wanneer de SE gebiased is, is de CI dat ook, omdat deze hierop gebaseerd wordt. Test statistieken
zijn vaak ook gebaseerd op de SE, dus worden ook beïnvloed. Als de test statistiek beïnvloed is, zijn
de p-waardes dat vervolgens ook. Bias kan komen door outliers (ongewone scores) of schendingen
van assumpties.

Assumpties
Een assumptie is een conditie die verzekert dat wat je probeert te doen, ook werkt. Als je niet voldoet
aan de assumpties, zullen test statistieken en p-waardes niet accuraat zijn en dit kan leiden tot
verkeerde conclusies. Assumpties die wij veel zullen gebruiken:
1. Additiviteit en lineairiteit: de uitkomstvariabele moet lineair gerelateerd zijn aan elke
voorspeller, en als je meerdere voorspellers hebt wordt hun gecombineerde effect het best
omschreven door het optellen van de effecten. Deze aanname is het belangrijkst, want als
deze niet voldaan wordt, ook al wordt wel aan de anderen voldaan, is je model invalide, omdat
je het incorrect hebt beschreven.
2. Normaliteit: de normale verdeling is relevant voor veel zaken die we willen doen als we
modellen fitten aan de data en ze beoordelen. Als hier niet aan voldaan wordt worden
parameter schattingen, confidence intervals, NHST en error beïnvloed. Bij de testen die wij
gaan doen gaat dit vaak om de normale verdeling van de residuen, niet de hele data.
- Central limit theorem stelt dat in steekproeven van boven de 30, we kunnen aannemen dat
aan de normaliteitsassumptie voldaan wordt. Het is in de assignments alsnog nodig om aan te
tonen dat het normaal verdeeld is, maar in de meeste gevallen met een N > 30, kan je dit dus
wel aannemen.
3. Homoscedasticiteit van variantie: dit betekent dat elke sample komt van populaties met
dezelfde variantie. In een correlationeel design betekent dit dat de variantie van de
uitkomstvariabele stabiel moet zijn op alle niveaus van de voorspellende variabele. De
variantie moet dus niet anders zijn. Als de verspreiding van scores rondom het gemiddelde
hetzelfde is op meerdere momenten, is er sprake van homogeniteit van de variantie, als dat
niet zo is, is er sprake van heteroscedasticiteit.
4. Onafhankelijkheid: dit houdt in dat de errors in je model niet aan elkaar gerelateerd zijn. Als
hier niet aan voldaan wordt, zullen je significantietesten en CI invalide zijn.

Outliers
Een outlier is een score die heel anders is dan de rest van de data. Outliers kunnen het gemiddelde
en de SS onder andere beïnvloeden. Dit is belangrijk, omdat de SS vervolgens gebruikt wordt om de
SD uit te rekenen, deze voor de SE, deze voor de CI, etc. In SPSS kun je dit checken door
bijvoorbeeld histogrammen of scatterplots te maken.

Normaliteit in SPSS
Je kan een histogram maken of een P-P of Q-Q plot. In de plot zou je een rechte diagonale lijn
moeten krijgen waar alle waarden mooi op vallen, dan is hij
normaal verdeeld. Als de punten in een soort S-vorm verschijnen
of er andere afwijkende patronen in te zien zijn, kan normaliteit
geschonden zijn. In grote steekproeven kan een histogram
handig zijn.

Lineairiteit en homoscedasticiteit van varianties in SPSS
Je kan een scatterplot maken van de gestandaardiseerde
residuen tegenover de waarden van de uitkomsten. Vervolgens
kijk je of er een systematische relatie te zien is tussen wat er uit
het model komt en de errors van het model. Dit wordt ook wel

The benefits of buying summaries with Stuvia:

Guaranteed quality through customer reviews

Guaranteed quality through customer reviews

Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.

Quick and easy check-out

Quick and easy check-out

You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.

Focus on what matters

Focus on what matters

Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller sabinesprengers1. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $13.91. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews)

66579 documents were sold in the last 30 days

Founded in 2010, the go-to place to buy study notes for 14 years now

Start selling
$13.91  7x  sold
  • (0)
  Add to cart