Samenvatting Discovering Statistics
Using IBM SPSS statistiscs
Andy Field
Hoofdstuk 2. Everything you never wanted to know
about statistics
2.2 Building statistical models
Wetenschappers zijn geïnteresseerd in het ontdekken van iets van een fenomeen, waarvan
we vanuit gaan dat het bestaat (echte wereld fenomeen). Welk fenomeen we ook willen
verklaren, we verzamelen altijd data van de echte wereld om onze hypothese over dat
fenomeen te testen. hiervoor moeten statistische modellen gebouwd worden.
Fit: de mate waarin een statistisch model de verzamelde data representeert.
- Goede fit: uitstekende representatie van de echte wereld
- Moderate fit: enkele vertrouwen, maar geen compleet vertrouwen over
voorspellingen
- Poor fit: compleet verschillend van de echte wereld
Jane Superbrain 2.1: typen statistische modellen
Er zijn lineaire modellen en niet-lineaire modellen. Meestal worden lineaire modellen
gebruikt omdat deze minder complex zijn. Dit kan leiden tot 2 soorten bias
- Veel modellen zijn niet degene die het beste passen, omdat niet-lineaire modellen
niet zijn uitgeprobeerd
- Veel datasets zijn niet gepubliceerd omdat een lineair model een poor fit was, en er
geen niet-lineair model is uitgeprobeerd.
2.3 Populations and samples
Wetenschappers zijn geïnteresseerd in het vinden van resultaten die toepasbaar zijn voor
een hele populatie. Een populatie kan heel breed zijn (alle mensen) of heel smal (alle rode
katten die Bob heten). meestal brede populatie. Meestal hebben wetenschappers geen
toegang tot alle leden van een populatie. Hierdoor wordt data verzameld van een klein deel
van de populatie: de steekproef (sample).
2.4 Statistical models
Alles in dit boek en in de statistiek is terug te leiden naar de volgende formule:
Uitkomsti = (model) + errori
,Dit betekent dat de data die we observeren voorspelt kan worden door het model dat we
kiezen die bij de data past, plus wat error.
Statistische modellen zijn opgebouwd uit:
- Variabelen: gemeten constructen die variëren over entiteiten in de steekproef
- Parameters: geschat op basis van de data en zijn meestal constanten die enige
fundamentele waarheid zouden representeren over de relatie tussen variabelen in
het model. (bijvoorbeeld: gemiddelde en mediaan)
Parameters worden in dit boek de letter b. voorspellende variabelen noemen we X
Het woord schatten wordt gebruikt, omdat we praten over de hele populatie en omdat we
deze hele populatie niet kunnen testen, we schatten dus de waardes voor de hele populatie
op basis van een steekproef.
2.4.1 the mean as a statistical model
Het gemiddelde is een samenvatting van de uitkomst variabele die niet voorspeld wordt
door andere variabelen. De parameter (b) is het gemiddelde. Uitkomsti = (b) + errori
2.4.2 Assessing the fit of a model: sums of squares and variance revisited
Deviantie is een ander woord voor error: deviantie = uitkomsti – errori
Als we de errors bij elkaar op tellen, zal er een uitkomst van 0 uitkomen. Dit willen we niet,
waardoor we de error kwadrateren. (ook wel: de sum of squares)
n
Totale error=∑ (geobserveerde i −modeli )2
i=1
Dit hangt wel af van het aantal verzamelde gegevens hoe meer data hoe hoger de sum of
squares. Dit probleem kunnen we aanpakken door de gemiddelde error te berekenen
delen door het aantal waarden die we gebruikt hebben om het totaal te berekenen. Omdat
we geïnteresseerd zijn in de populatie wordt de totale error gedeeld door de degrees of
freedom (df). het aantal scores dat gebruikt werd om het totaal te berekenen aangepast
aan de het feit dat we de populatie waarde willen schatten.
n
∑ ( geobserveerde i−model i)2
SS i=1
mean squared error= =
df N−1
Wanneer het model het gemiddelde is, heet de mean squared error de variantie.
2.4.3 Estimating parameters
,De formule voor het gemiddelde is ontworpen om de parameters te schatten zodat de error
geminimaliseerd wordt. = de methode van de minste squares
2.5 Going beyond the data
2.5.1 The standard error
Steekproef variatie (sampling variation): steekproeven zullen verschillen omdat ze
verschillende leden van de populatie bevatten.
Als je alle gemiddelden van verschillende steekproeven in een histogram zet krijg je een
steekproeven verdeling (sampling distribution). kan nooit in het echt. We kunnen het
gebruiken om te kijken hoe representatief een steekproef is van de populatie.
De standaardafwijking van de steekproef gemiddelden is de standaard error van het
gemiddelde (SE) of de standaard error.
De centrale limiet stelling zegt dat als steekproeven groter worden (groter dan 30), wordt
de steekproeven verdeling een normale verdeling met gemiddelde gelijk aan het
populatiegemiddelde en standaardafwijking van:
s
σ X́ =
√N
2.5.2 Confidence intervals
2.5.2.1 betrouwbaarheidsintervallen berekenen
Betrouwbaarheidsintervallen: grenzen waarin wij geloven dat de populatie valt. Ze geven de
kans aan dat de ware waarde van een parameter in het interval valt. 95% valt tussen z-
scores van -1.96 en 1.96. Een 95% betrouwbaarheidsinterval bereken je:
onderste grens van betrouwbaarheidsinterval= X́ −( 1.96 × SE )
Bovenste grens van betrouwbaarheidsinterval= X́ + (1.96 × SE )
2.5.2.2 Andere betrouwbaarheidsintervallen berekenen
Onderste grens van betrouwbaarheidsinteval= X́ − z 1− p × SE
( 2
)
Bovenste grens van betrouwbaarheidsinterval= X́ + z 1− p × SE
( 2
)
Hierin is p de kanswaarde voor het betrouwbaarheidsinterval. Bij 95% is dit bijvoorbeeld (1-
0.95)/2 = 0.025. als je dit opzoekt in de tabel (figuur 1.14) vindt je een z-score van 1.96.
2.5.2.3 betrouwbaarheidsintervallen in kleinere steekproeven berekenen
, In kleinere steekproeven is de steekproeven verdeling niet normaal verdeeld, maar juist in
een t-verdeling. Er worden dan geen z-scores meer berekend maar t-scores.
onderste grens van betrouwbaarheidsinterval= X́ −( t n−1 × SE )
bovenste grens van betrouwbaarheidsinterval= X́ + ( t n−1 × SE )
n-1 is de degrees of freedom.
2.5.2.4 visueel maken van betrouwbaarheidsintervallen
Als twee betrouwbaarheidsintervallen heel ver uit elkaar liggen, zijn er twee opties:
- De betrouwbaarheidsintervallen bevatten allebei het populatie gemiddelde, maar ze
zijn van verschillende populaties
- Een van de twee intervallen bevat niet het populatie gemiddelde.
2.6 Using statistical models to test research questions
2.6.1 Null hypothesis significance testing (NHST)
Dit is de meest gebruikte aanpak voor het onderzoeken van onderzoeksvragen met
statistische modellen.
2.6.1.1 Fisher’s p-waarde
5% is een waardevolle grenswaarde: alleen wanneer er een 5% kans is dat we de data die we
hebben krijgen als er geen effect bestaat, kan worden gezegd dat het effect oprecht is.
Fisher zei dat je een kans moest berekenen van een gebeurtenis en dat je deze kans moest
evalueren in de onderzoekscontext.
2.6.1.2 Typen hypothesen
- Alternatieve hypothese: er is een effect H1
- Nul hypothese: tegenovergestelde van H1, meestal geen effect H0
We kunnen bewijs verzamelen om de nul hypothese af te wijzen. Dat betekent niet
automatisch dat de alternatieve hypothese waar is. We kunnen wel praten over ‘de kans dat
deze data verkregen wordt wanneer aangenomen wordt dat de nul hypothese waar is.’
Hypothesen kunnen twee soorten zijn:
- Directionele hypothese: een effect bestaat, en er wordt ook bij gezegd welke richting
dit effect heeft (meer of minder) (one-tailed)
- Niet-directionele hypothese: een effect bestaat, maar niet duidelijk welke richting dit
effect heeft (two-tailed)
2.6.1.3 de basis principes van NHST
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper caroladegraaf. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €5,99. Je zit daarna nergens aan vast.