Recent en Compleet! Nederlandstalige samenvatting van alle stof en statistische toetsen voor het tentamen van Data Exploration van Data Driven Business. Met uitgewerkte voorbeelden van de interpretatie van de statistische toetsen.
ALLE hoorcollege samenvattingen TAK + SPSS outputs
Alles voor dit studieboek (28)
Geschreven voor
Hogeschool Utrecht (HU)
Data Driven Business
Data Exploration
Alle documenten voor dit vak (1)
Verkoper
Volgen
marijnvandaatselaar
Voorbeeld van de inhoud
Samenvatting Data Exploration – Data Driven Business
WC 1: NHST en ANOVA
Nul Hypothese Significantie Testen (NHST): een raamwerk waarmee besloten kan worden of de
nulhypothese waar is.
Statistisch significant: onwaarschijnlijk dat het alleen dor toeval of willekeurige factoren
wordt verklaard, oftewel het is betekenisvol (sprake van effect in het onderzoek.
P-waarde: overschrijdingskans of kanswaarde) geeft informatie over de statistische
significantie van een resultaat. In de meeste onderzoeken wordt een p-waarde van 0.05 of
minder als statistisch significant beschouwd, maar deze drempel kan ook hoger of lager zijn.
Door middel van statistische toetsen bepalen we of er sprake is van geen significant effect (H 0 wordt
niet verworpen) of van een significant effect (H 0 wordt verworpen). In de statistiek werken we vaak
op basis van toetsbare hypothesen:
• Nulhypothese (H0): veronderstelt dat er geen effect is.
• De alternatieve hypothese (H1): veronderstelt dat er wel een effect is.
Drie typen veel voorkomende hypothesen en bijbehorende toetsen
• Testen van verschillen in gemiddelden tussen groepen (T-test, ANOVA)
• Testen van relaties tussen variabelen (correlaties, regressie analyse, SEM)
• Testen van verschillen in frequentieverdelingen tussen categorieën (chi-square)
De misconcepties van NHST:
1. Een significant resultaat betekent dat het effect belangrijk is :
Statistische significantie is niet hetzelfde als relevantie, omdat significantie wordt beïnvloed door de
steekproefgrootte. Kleine en niet relevante effecten worden significant in grote steekproeven, terwijl
grote en relevante effecten gemist kunnen worden in te kleine steekproeven. Kijk daarom ook altijd
naar de relevantie, meestal o.b.v. de effect size.
2. Een niet-significant resultaat betekent dat H0 waar is :
Een niet-significant resultaat vertelt ons alleen dat het effect niet groot genoeg is om gevonden te
worden (gegeven onze steekproefgrootte). Het vertelt ons niet dat de effectgrootte gelijk is aan 0.
Daarom moet een niet-significant resultaat nooit geïnterpreteerd worden als ‘er is geen verschil’ of
‘er is geen relatie’. Resultaten moeten altijd geïnterpreteerd worden in relatie tot de data: ‘gegeven
deze steekproef/dataset kan geen relatie/verschil worden aangetoond’.
3. Een significant resultaat betekent dat H0 niet waar is :
Een significant resultaat is gebaseerd op kansberekening. Je hebt hierbij altijd te maken met bias en
onzekerheden, waardoor je nooit met volledige zekerheid kan stellen dat H0 niet waar is.
Effect sizes:
Een belangrijke manier om de problemen met NHST te voorkomen, is het berekenen en
interpreteren van effect sizes: sterkte van het effect. Voor de interpretatie van effect sizes houd je de
volgende richtlijnen aan:
Klein effect: r = .10
Gemiddeld effect: r = .30
Groot effect: r = .50
,Risico’s NHST:
o All-or-nothing thinking:
Als p < .05, dan is het effect significant, als p > .05, dan is het effect niet significant. Dat zou
betekenen dat een p-waarde van .0499 significant is, maar een p-waarde van .0501 niet, terwijl het
verschil tussen beiden nihil is en de effect sizes van beide effecten nagenoeg even groot zijn.
o Researcher degrees of freedom:
Onderzoekers maken keuzes in hun studiedesign en analyses om ervoor te zorgen dat ze gunstige
resultaten verkrijgen. VB: over welke controle variabelen ze wel/niet opnemen in hun model, hoe ze
omgaan met extreme waarden, aantal respondenten, model fit, interpretatie van de alpha-waarde.
o P-hacking:
Onderzoekers publiceren alleen significante resultaten/modellen, terwijl ze veel modellen kunnen
hebben getest die niet significant waren.
Onderzoekers laten variabelen weg uit modellen die geen significante bijdrage hebben, of bewerken
data op verschillende manieren om significante resultaten te genereren.
o HARKing:
In wetenschappelijke artikelen worden hypothesen gepresenteerd die zijn opgesteld nadat data zijn
verzameld en geanalyseerd, in plaats van daarvoor.
Voorkomen van deze risico’s:
Adviezen aan Data Scientist
- Als effecten met p-waarden van bijv. .0501 niet worden geïnterpreteerd door de data
scientist, omdat dit effect ‘niet significant’ is volgens het ‘all or nothing thinking’, vraag de
data scientist dan om toch de effect size te berekenen. Als die betekenisvol is, moet je het
effect wellicht toch meenemen in jouw advies of vervolgstappen.
- Vraag aan data scientists om transparant te zijn over hoe zij zijn omgegaan met extreme
waarden, interpretaties van de alpha etc., zodat je kan beoordelen of er risico’s zijn met
betrekking tot de vrijheden die ze zichzelf hebben toegeëigend.
- Vraag aan data scientists om niet alleen over significante modellen te rapporteren, maar ook
over niet significante modellen.
- Stel samen met data scientists (en de business) vooraf hypothesen op die onderzocht
worden (indien je toetsend onderzoek doet)
Adviezen aan business
- Stel samen met data scientists en de business vooraf hypothesen op die onderzocht worden
(indien je toetsend onderzoek doet).
- Communiceer helder met de business dat significante resultaten gebaseerd zijn op
kansberekening, en dat er dus nooit met volledige zekerheid uitspraken gedaan kan worden
over gevonden verschillen of relaties tussen variabelen.
- Communiceer met de business dat ze acties niet alleen moeten baseren op of een resultaat
significant is, maar ook op effectgroottes. Bij kleine effectgroottes wegen de kosten van
mogelijke acties waarschijnlijk niet op tegen te behalen resultaten.
,ANOVA (variantie analyse) = een lineair model op basis van het vergelijken van groepsgemiddelden.
Voor de verschillende groepen ga je de gemiddelden vergelijken en of de gemiddelden significant
afwijken van elkaar.
Soorten ANOVA’s:
1. One-way-ANOVA: 1 groepsvariabele (land herkomst) en 1 afhankelijke variabele (gewicht)
2. Two-way-ANOVA: 2+ groepsvariabelen (land herkomst en geslacht)
3. Multivariate ANOVA: meerdere afhankelijke variabelen (gewicht en lengte)
4. Repeated measures ANOVA: wanneer je de respondenten meerdere keren onderzoekt
Voorwaarden voor het gebruik van ANOVA
o Drie of meer groepen (bij 2 groepen gebruik je een normale t-toets)
o Iedere groep is normaal verdeeld
o De afhankelijke variabelen is gemeten op ratio- of intervalniveau
o De varianties zijn voor elke groep gelijk (zie homoscedasticiteit)
o De data zijn verzameld via een aselecte steekproef
ANOVA interpreteren:
De volgende stap is de ANOVA-tabel. Met een F-toets kan je bepalen of een significant deel van de
variantie verklaard wordt door de groepsvariabele.
• F-statistic: wordt gebruikt om twee varianties met elkaar te vergelijken. Wijkt het model dus
af van een model zonder predictoren (nulmodel). Oftewel is er sprake van een effect van
jouw model? Moet je de nulhypothese (H 0) wel of niet verwerpen?
Belangrijk: Geeft geen inzicht in welke groepsgemiddelden significant van elkaar
verschillen!
Interpreteren: Als de varianties gelijk zijn dan is de uitkomst 1. Zijn ze verschillend dan is de
uitkomst groter of kleiner dan 1, maar nooit 0. Een hoge f waarde betekent dat het model
wel goed is, de gemiddelden verschillen veel van elkaar.
- Kleine F-statistic (geen significante p-waarde): de group means verschillen niet veel van
elkaar. Een model op basis van de grand mean (gemiddelde over alle groepen heen)
voorspelt de data beter dan een model op basis van group means. H0 niet verwerpen
- Grote F-statistic (significante p-waarde): de group means verschillen significant van
elkaar (betekenisvol). Het model op basis van group means voorspelt de data beter dan
een model op basis van de grand mean. H0 verwerpen
• Sum of Squares: dit geeft aan hoeveel variantie tussen en binnen de groepen zit. Hoe meer
variantie, hoe beter de variabele is te voorspellen.
• Significantie: als een verschil significant is dan is het aannemelijk dat het niet op toeval
berust. Er is dus niet toevallig een verschil ontdekt maar er is daadwerkelijk een verschil
tussen de groepen. Een significant verschil is bereikt als de waarde lager is dan 0.05 (dus 5%)
Planned contrast: O.b.v. een hypothese test je verschillen tussen groepen. Deze methode gebruik je
alleen als je van tevoren een hypothese hebt opgesteld waarin je aangeeft dat je verwacht
verschillen tussen groepen te vinden.
, Post hoc test: Je hebt geen hypothese en verkent welke groepsgemiddelden significant verschillen.
Lees bij de post-hoc-tests af tussen welke groepen een significant verschil (minder dan 0.05) is
gevonden.
Voorbeeld (interpreteren) Post Hoc test
- Er zijn significante verschillen tussen de gemiddelden optimisme scores over elektrische
auto’s tussen de drie verschillende leeftijdscategorieën, F(2, 432) = 4.64, p=0.010.
- Als er geen significant verschil zit in de ANOVA tabel, is het niet nodig om verder te zoeken.
- Dit betekent dat ergens tussen de gemiddelden een significant verschil is maar dat is nog niet
duidelijk. Dit kan worden achterhaald met een Post Hoc Test.
Post Hoc Test
- De post-hoc test laat zien dat alleen groep 1 en groep 3 van elkaar verschillen. Het verschil
tussen leeftijdsgroep 1 en leeftijdsgroep 3 (Mean difference = -1.595) is significant, p = 0.007.
De mean difference van -1.595 betekent dat leeftijdsgroep 1 een lagere gemiddelde score op
Optimisme heeft dan leeftijdsgroep 3.
- Leeftijdsgroepen 1 en 2, en 2 en 3 verschillen niet significant van elkaar.
Advies aan de business: Het is belangrijk dat de effectgrootte wordt meegenomen in het
interpreteren van de resultaten en de p-waarde. Hoe relevant zijn de significante uitkomsten nou
eigenlijk.
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
√ Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper marijnvandaatselaar. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €7,66. Je zit daarna nergens aan vast.