100% tevredenheidsgarantie Direct beschikbaar na betaling Zowel online als in PDF Je zit nergens aan vast
logo-home
Complete en uitgebreide samenvatting blok 4.4/M1.4 €5,99   In winkelwagen

Samenvatting

Complete en uitgebreide samenvatting blok 4.4/M1.4

 85 keer bekeken  2 keer verkocht

Dit is een complete en uitgebreide samenvatting van alle benodigde hoofdstukken uit Field (2016) van blok 4.4/M1.4 (Hoofdstuk 2, 5, 7, 8, 10 t/m 15). Afbeeldingen vanuit het boek zijn toegevoegd in de samenvatting ter verduidelijking. Ik heb zelf dit blok in schooljaar gevolgd.

Voorbeeld 4 van de 87  pagina's

  • Nee
  • Hoofdstuk 2, 5, 7, 8, 10 t/m 15
  • 26 februari 2021
  • 87
  • 2020/2021
  • Samenvatting
book image

Titel boek:

Auteur(s):

  • Uitgave:
  • ISBN:
  • Druk:
Alle documenten voor dit vak (7)
avatar-seller
sddj
4.4 Applied Multivariate Data Analysis (Field, 2016)
Hoofdstuk 2; Everything you never wanted to know about statistics
2.2. Statistische modellen bouwen
Wetenschappers bouwen statistische modellen van processen uit de echte wereld, om te
voorspellen hoe deze processen werken onder bepaalde omstandigheden. Bij statistiek is er geen
toegang tot een werkelijke situatie, waardoor we enkel dingen kunnen afleiden rondom
psychologische, maatschappelijke, biologische of economische processen vanuit de modellen. We
willen dat onze modellen zo accuraat mogelijk zijn, zodat we er zeker van zijn dat de voorspellingen
die we maken ook kloppen. Het statistische model die we maken moet verzamelde data
(geobserveerde data) zo goed mogelijk weergeven. De mate waarin een statistisch model de
geobserveerde data vertegenwoordigt, staat bekend als de fit van het model.
- Good fit; juiste representatie van de werkelijke situatie. Hierdoor kunnen aan de hand van
het model nauwkeurige voorspellingen worden gedaan.
- Moderate fit; het model representeert delen van de werkelijke situatie, maar er zijn ook
belangrijke verschillen te vinden. Hierdoor kunnen aan de hand van het model onjuiste
voorspellingen worden gedaan. Er is enige vertrouwen in de voorspelling, maar niet volledig.
- Poor fit; het model verschilt compleet van de werkelijke situatie. Iedere voorspelling die
wordt gedaan, is waarschijnlijk inaccuraat.

Wetenschappers (gedrag/sociaal) proberen data vaak te beschrijven met lineaire modellen., waarbij
uitgegaan wordt van lineaire relaties. Dit zorgt voor twee typen biasen:
- Veel modellen in de wetenschappelijke literatuur zijn misschien niet degenen die het beste
pasten, omdat er geen non-lineaire modellen zijn geprobeerd.
- Veel datasets zijn niet gepubliceerd, omdat het lineaire model niet paste en wetenschappers
niet hebben gekeken naar niet-lineaire modellen.
Belangrijk om je data altijd eerst te plotten om te kijken welk model beter passend is.


2.3. Populaties en steekproeven
Een populatie kan algemeen zijn (alle mensen op de wereld) of specifiek (alle rode katers die Bob
heten). Wetenschappers willen vaak uitspraken kunnen doen over de algemene populatie. Zo’n
uitspraak levert meer impact dan een uitspraak over een specifieke populatie.

Aangezien we geen data van iedere persoon kunnen verzamelen, maken we gebruik van een
steekproef. Dit is een kleine set van de populatie. Met de steekproef kan iets gezegd worden over de
populatie. Hoe groter de steekproef, hoe meer deze de populatie representeert. Als we meerdere
random steekproeven trekken uit de populatie, zullen we bij deze verschillende steekproeven kleine
verschillen vinden.


2.4. Statistische modellen
𝑜𝑢𝑡𝑐𝑜𝑚𝑒! = (𝑚𝑜𝑑𝑒𝑙) + 𝑒𝑟𝑟𝑜𝑟!
Deze vergelijking betekent dat de data die we observeren, voorspeld kan worden vanuit het model
dat we kiezen met de juiste fit bij de data en een beetje error (deviantie). De i houdt de individuele
score in van bijvoorbeeld een proefpersoon. Dit reflecteert het feit dat de waarde van de uitkomst en
error voor ieder anders zal zijn. De vorm van het model kan veranderen, waardoor de vergelijking
verandert, maar er zal altijd een deel error in zitten.

Statistische modellen bestaan uit variabelen en parameters.
- Variabelen zijn gemeten constructies die variëren over mensen/dingen in de steekproef.

, - Parameters worden geschat op basis van de data (i.p.v. gemeten) en zijn meestal constanten
waarvan wordt aangenomen dat ze een fundamentele waarheid vertegenwoordigen over de
relaties tussen variabelen in het model. Bijvoorbeeld:
o Mean en median (schatten het centrum van de distributie).
o Correlatie en regressiecoëfficiënt (schatten de relatie tussen twee variabelen).

Als we alleen geïnteresseerd zijn in het samenvatten van de uitkomst, zoals een gemiddelde, dan
zullen we geen variabelen in het model hebben, alleen een parameter (b): 𝑜𝑢𝑡𝑐𝑜𝑚𝑒! = (𝑏) + 𝑒𝑟𝑟𝑜𝑟!
Vaak willen we echter een uitkomst van een variabele voorspellen (X): 𝑜𝑢𝑡𝑐𝑜𝑚𝑒! = (𝑏𝑋! ) + 𝑒𝑟𝑟𝑜𝑟!
Nu voorspellen we de waarde van de uitkomst voor een bepaalde entiteit (i) op basis van de score op
de voorspellende variabele (𝑋! ). Aan de voorspellende variabele is een parameter (b) gekoppeld, die
ons iets vertelt over de relatie tussen de voorspeller (𝑋! ) en de uitkomst. Als we een uitkomst van
twee voorspellers willen voorspellen kunnen we ook een andere voorspeller toevoegen:
𝑜𝑢𝑡𝑐𝑜𝑚𝑒! = (𝑏" 𝑋"! + 𝑏# 𝑋#! + ⋯ + 𝑏$ 𝑋$! ) + 𝑒𝑟𝑟𝑜𝑟!

We kunnen steekproefgegevens gebruiken om te schatten wat de parameters waarschijnlijk zullen
zijn. Daarom gebruiken we het woord schatting, want wanneer we parameters berekenen op basis
van steekproefdata, zijn dit slechts schattingen van wat de echte parameter in de populatie is.

Error (deviatie, residu en deviantie) is de score voorspeld door het model voor een persoon – de
geobserveerde score: 𝑑𝑒𝑣𝑖𝑎𝑛𝑐𝑒 = 𝑜𝑢𝑡𝑐𝑜𝑚𝑒! − 𝑚𝑜𝑑𝑒𝑙! Een negatieve error houdt in dat er een
overschatting heeft plaatsgevonden. Een positieve error een onderschatting. Maar hierdoor krijg je
de afwijking van één score. De totale error is de sum of errors:
$ $

𝑠𝑢𝑚 𝑜𝑓 𝑠𝑞𝑢𝑎𝑟𝑒𝑑 𝑒𝑟𝑟𝑜𝑟𝑠 (𝑆𝑆) = ; (𝑜𝑢𝑡𝑐𝑜𝑚𝑒! − 𝑚𝑜𝑑𝑒𝑙! ) = ; (𝑥! − 𝑥̅! ) #
#

!%" !%"
De SS is afhankelijk van de grootte van de steekproef. Hoe groter de steekproef, hoe groter de SS.
Om dit probleem op te lossen, maak je gebruik van de gemiddelde error. Om de gemiddelde fout in
de populatie te schatten in plaats van de steekproef, moeten we delen door de degrees of freedom
(df); het aantal scores dat wordt gebruikt om het totaal te berekenen gecorrigeerd voor het feit dat
we proberen de populatiewaarde te schatten. Statistisch gezien hebben de degrees of freedom
betrekking op het aantal observaties dat vrij kan variëren. Als we één parameter constant houden,
moeten de vrijheidsgraden één lager zijn dan het aantal scores dat is gebruikt om die parameter te
berekenen, dus N-1.
𝑆𝑆 ∑$ (𝑜𝑢𝑡𝑐𝑜𝑚𝑒! − 𝑚𝑜𝑑𝑒𝑙! ) # ∑$ (𝑥! − 𝑥̅! ) #
𝑚𝑒𝑎𝑛 𝑠𝑞𝑢𝑎𝑟𝑒𝑑 𝑒𝑟𝑟𝑜𝑟 = = !%" = !%"
𝑑𝑓 𝑁−1 𝑁−1
We gebruiken SS en het gemiddelde van SS om een beeld van de fit van een model te krijgen. Grote
waarde houdt een gebrek aan fit in. Als het model het gemiddelde is, dan krijgt de mean squared
error een speciale naam: de variantie.

De mean/gemiddelde is de parameter/score met de minste error in totaal. Het is de beste fit van
elke andere waarde. De mean wordt gebruikt om error te minimaliseren, zodat de sum of squared
error wordt geminimaliseerd: method of least squares; de methode die gebruikt word om op zoek te
gaan naar de minste error.


2.5. Verder gaan dan data
Standaard deviatie vertelt ons hoe goed het gemiddelde de steekproef data representeert. Wanneer
we de steekproef mean gebruiken om dit voor de populatie te berekenen, dan moeten we weten
hoe goed de steekproef de populatie representeert.
- Sampling variation; laat de verschillen tussen de verschillende steekproeven zien. Iedere
steekproef heeft een ander gemiddelde, doordat zij andere participanten bevatten.
- Sampling distribution; verdeling van de gemiddeldes van de verschillende steekproeven uit
dezelfde populatie. Het zijn honderden tot duizenden steekproeven. De verdeling geeft

, informatie over het gedrag van de steekproeven van een populatie. Als we een gemiddelde
nemen van alle steekproef means, dan krijg je de waarde van de populatie mean.

Standard error of the mean (SE)/standard error is de standaarddeviatie van de steekproef means.
Kan berekend worden door het verschil tussen iedere sample gemiddelde en het algemeen
gemiddelde te berekenen, deze te kwadrateren en op te tellen (s). Vervolgens deel je dit getal door
het aantal samples. Allerlaatst moet de wortel hiervan getrokken worden om de standaard deviatie
van het sample gemiddelde te krijgen: de standard error.
𝑠
𝑆𝐸 = 𝜎& =
√𝑁
Een grote SE betekent dat er veel variabiliteit zit tussen de gemiddeldes van verschillende
steekproeven, waardoor de steekproef misschien niet representatief is voor de populatie. Bij een
kleine SE is de steekproef wel representatief. Dit geldt ook voor het bepalen van andere parameters.

Het is lastig om dit in de echte wereld te doen, omdat je honderden samples nodig hebt. De central
limit theorem laat ons zien dat voor steekproeven die groot genoeg zijn (vaak groter dan 30), de
steekproef normaal verdeeld is en het gemiddelde gelijk is aan het populatiegemiddelde.

Confidence intervals zijn grenzen waarin de populatie waarschijnlijk valt. Ze vertellen ons de kans dat
ze de echte waarde bevatten van de parameter die we proberen te schatten (bijv. gemiddelde). Dus
als er een 95% confidence interval is voor een bepaald gemiddelde, kan je dit zo zien: als er 100
steekproeven zouden zijn en er voor iedere steekproef en gemiddelde en confidence interval zou
worden berekend, dan zouden voor 95(%) van deze samples de confidence intervals de true waarde
van de populatie bevatten. Hoe te berekenen:
- Je gaat bij een grote steekproef (>30) uit van een normaal verdeling met een gemiddelde van
0 en standaardafwijking van 1. De z-waarde die je voor een confidence interval nodig hebt
kan je opzoeken in de table of the standard normal distribution. Je doet dan (1-p)/2. Voor
een confidence interval van 95% zou dit dan zijn (1-95)/2 = 0.025. Je zoekt deze waarde dan
op bij ‘smaller portion’ en kijkt naar de bijbehorende z-waarde. In dit geval 1.96. 95% van de
z-scores vallen dus tussen -1.96 en 1.96. Je krijgt dan:
𝑋 − 𝑋H 𝑋 − 𝑋H
𝑧 = −1.96 = 𝑒𝑛 𝑧 = 1.96 =
𝑠 𝑠
Omdat het gaat om het steekproef gemiddelde en niet de variabiliteit in observaties binnen
de steekproef, gebruikt je de SE in plaats van de standaarddeviatie. Je krijgt dan:
𝑙𝑜𝑤𝑒𝑟 𝑏𝑜𝑢𝑛𝑑𝑎𝑟𝑦 = 𝑋H − K𝑧"'( 𝑥 𝑆𝐸L = 𝑋H − (1.96 𝑥 𝑆𝐸)
#

𝑢𝑝𝑝𝑒𝑟 𝑏𝑜𝑢𝑛𝑑𝑎𝑟𝑦 = 𝑋H + K𝑧"'( 𝑥 𝑆𝐸L = 𝑋H + (1.96 𝑥 𝑆𝐸)
#
- Je gaat bij een kleine steekproef (<30) uit van een t-verdeling i.p.v. een normaalverdeling.
Een t-verdeling verandert van vorm naarmate de steekproef groter wordt, waarmee het
steeds meer richting een normaalverdeling gaat. Hierdoor maak je gebruik van t-waardes
i.p.v. z-scores om de confidence intervals te bepalen. Je doet dan:
𝑙𝑜𝑤𝑒𝑟 𝑏𝑜𝑢𝑛𝑑𝑎𝑟𝑦 = 𝑋H − (𝑡$'" 𝑥 𝑆𝐸)
𝑢𝑝𝑝𝑒𝑟 𝑏𝑜𝑢𝑛𝑑𝑎𝑟𝑦 = 𝑋H + (𝑡$'" 𝑥 𝑆𝐸)
Een CI voor het gemiddelde is een range of scores, waarbij de populatiemean zal vallen in de range in
95% van de steekproeven. De CI is niet een interval waarbij we 95% zeker zijn dat de populatiemean
erbinnen valt. Confidence intervallen kunnen worden weergegeven met een error bar. Als je de error
bar van twee steekproeven vergelijkt kan je waarschijnlijk bepalen of de steekproeven uit
verschillende of dezelfde populaties komen.

, 2.6. Significante modellen gebruiken om onderzoeksvragen te testen
Null hypothesis significance testing (NHST); meest gebruikte methode om onderzoeksvragen te
testen. Komt voort uit twee verschillende benaderingen voor het probleem hoe je data moet
gebruiken om theorieën te testen:
- Fisher; je moet de waarschijnlijkheid (probability) berekenen van een bepaalde gebeurtenis.
Als dit laag is, is er een lage kans dat dit is gebeurd door ‘geluk’. Als p < 0.05, kan worden
aangenomen dat het effect aannemelijk is.
- Neyman en Pearson; wetenschappelijke statements worden opgedeeld in toetsbare hypotheses:
a. Alternative hypothesis/experimental hypothesis (H1): stelt dat een effect aanwezig zal zijn.
b. Null hypothesis (H0): stelt dat een effect niet aanwezig zal zijn.
We kunnen geen bewijs vinden via statistiek voor de alternatieve hypothese, maar wel voor
het verwerpen van de nul hypothese. Zelfs bij het verwerpen van de nul hypothese, wordt
niet gesproken over het aannemen van de alternatieve hypothese. Je spreekt van de kans op
het verkrijgen van een specifieke data set, als de nul hypothese waar zou zijn. Hypotheses
kunnen directioneel en non-directioneel zijn:
o Directionele hypothese; geeft aan dat een effect zal plaatsvinden en geeft hierbij ook
de richting van het effect.
o Non-directionele hypothese; geeft aan dat een effect zal plaatsvinden, maar geeft
hierbij geen richting van het effect.

Basisprincipes NHST; het is een mix van Fisher, Neyman en Pearson. Het is een systeem die ons
vertelt of het aannemelijk is dat de alternatieve hypothese waar is en het helpt ons om de
voorspellingen aan te nemen of af te wijzen.
- Je gaat ervan uit dat de nul hypothese waar is, dus dat er geen effect is.
- Je past een statistisch model toe dat de alternatieve hypothese representeert en kijkt hoe
goed deze past in de termen van de variantie die het verklaart.
- Om te kijken hoe goed het model bij de data past, bereken je de kans dat je datzelfde model
krijgt als de nul hypothese waar is (p-value).
- Als de kans erg laag is (0.05 of lager) dan past het model goed bij de data (verklaart veel van
de variatie in de scores) en kan er worden gezegd dat er meer vertrouwen is in de
alternatieve hypothese.

Signal-to-noise ratio; de hoeveelheid variantie dat kan worden verklaard vanuit het model. Om te
kijken of het model past/fits vergelijk je de systematische variatie met de onsystematische variatie.
Je kijkt dus of er meer effect is dan error veroorzaakt door het model.
- Systematische variantie; is variantie die kan worden verklaard door het model dat we
hebben aangepast aan de gegevens (vanwege de hypothese die we testen).
- Niet-systematische variantie; is variantie die niet kan worden verklaard door het model dat
we hebben aangebracht. Het is een fout variantie die niet te wijten is aan het effect dat we
onderzoeken.
)!*$+, /+0!+$1. .3(,+!$.4 56 78. 9-4., .::.17
𝑡𝑒𝑠𝑡 𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐 (𝑡, 𝐹 𝑜𝑓 𝑋 # ) = $-!). = /.0!+$1. $-7 .3(,+!$.4 56 78. 9-4., = .00-0
Als het model goed is, verwachten we dat het meer variantie wel kan verklaren dan het niet kan
verklaren. In dit geval is de teststatistiek groter dan 1. Als een test statistiek groter wordt, wordt de
bijbehorende p-waarde kleiner. Als de kans groot is dat we een test statistiek vinden die minstens
net zo groot is als die we hebben (>0.05) wordt de nulhypothese aangenomen en de alternatieve
hypothese verworpen.

Een statistisch model dat een bidirectionele hypothese test is een one-tailed test. Een niet-
directionele hypothese wordt getest met een two-tailed test. De laatste test is veiliger.

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper sddj. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €5,99. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 75632 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen
€5,99  2x  verkocht
  • (0)
  Kopen