Statistiek 2.2 Colleges
Regulier college 1
Er zijn twee vormen van statistiek:
Descriptive statistics: nummers die data beschrijven (gemiddelde, verdeling);
Inferential statistics: het trekken van conclusies uit populaties, gebaseerd op
resultaten die men heeft gevonden in kleine onderzoeksgroepen.
Op basis van de soort variabelen die men heeft, kan worden bepaald welke statistische test
men kan/moet gebruiken.
Er zijn verschillende soorten variabelen:
Kwalitatieve variabelen: verschillende categorieën met hun eigen karakteristieken
o Nominaal: een categorie is niet beter/minder dan de ander -> man, vrouw;
o Ordinaal: er zit een rangorde in de categorie, de verschillen tussen de
opeenvolgende categorieën is niet gelijk;
Kwantitatieve variabelen: nummers met een betekenis -> Lengte, gewicht, IQ
o Interval: afstanden tussen verschillende waarden kunnen worden vergeleken,
maar er is geen nulpunt -> IQ, mate van depressie;
o Ratio: interval variabelen met een nulpunt -> lengte, gewicht.
Bij een frequentieverdeling wordt data samengevat -> aangeven hoe vaak verschillende
waarden voorkomen. Een unimodale frequentieverdeling heeft één piek, een bimodale
frequentieverdeling heeft twee pieken en een rechthoekige frequentieverdeling heeft geen
pieken.
Er zijn verschillende vormen van unimodal frequentieverdelingen:
Symmetrische (normale) verdeling: symmetrisch verdeeld -> piek in het midden;
Right-skewed (scheef naar rechts): staart aan de rechterkant, top aan de linkerkant
-> mediaan is kleiner dan het gemiddelde;
Left-skewed (scheef naar links): staart aan de linkerkant, piek aan de rechterkant ->
mediaan is groter dan het gemiddelde
Een verdeling kan ook beschreven worden aan de hand van cijfers:
Modus: meest voorkomende score. Een vergelijking met twee modi is bimodaal;
(n+1)
Mediaan (M): middelste score op de positie -> een rangorde is nodig, wel
2
resistent;
1
Gemiddelde: de som van alle scores, gedeeld door het aantal scores -> x= ∑ x ->
n i
niet resistent.
De variantie is de mate waarin scores onderling verschillen. Dit kan berekend worden voor
kwantitatieve variabelen (interval en ratio). Hoe groter de variantie, hoe meer de waarden
1
van het gemiddelde afwijken. Variantie: s =
2
n−1 ∑ (
2
x i−x ) .
Van de variantie wordt de standaarddeviatie afgeleid. De standaarddeviatie (s) is de
gemiddelde afwijking van het gemiddelde. Er is sprake van s = 0 als er geen spreiding is ->
1
,Statistiek 2.2 Colleges
alle observaties hebben dan dezelfde waarde. Hoe groter de variantie, hoe groter de
standaarddeviatie. Outliers kunnen de waarde van s heel groot maken -> niet resistant.
Standaarddeviatie: s= √ s2 =
√ 1
n−1
∑ 2
( x i− x ) .
Een Z-score wordt alleen gebruikt bij normaalverdelingen en geeft aan hoeveel
x−µ
standaarddeviaties een score van het gemiddelde af zit. Dit wordt berekend door: z= .
σ
Dit is ook wel standaardisatie genoemd -> van een score het gemiddelde van de verdeling
aftrekken en dit delen door de standaarddeviatie.
Een standaard normale verdeling is een speciale normale verdeling, waarbij µ = 0 en σ = 1,
dus N(0,1). Hierbij kunnen Z-scores worden gebruikt.
Bij inferential statistics worden de resultaten uit een
onderzoeksgroep gekoppeld aan een populatie. Als men een
hypothese heeft, wordt deze getoetst en geëvalueerd.
Er zijn twee soorten hypotheses:
Nulhypothese (H0): er is geen verschillen tussen beide
groepen, deze groepen zijn dus gelijk;
Alternatieve hypothese (HA): er is een verschil tussen
beide groepen, de groepen zijn dus niet gelijk.
Er zijn twee soorten onderzoeken:
Between-subject design: elke participant doet mee aan één conditie van het
experiment -> er zijn veel deelnemers nodig en er zijn geen gelijke groepen. Een
probleem dat kan ontstaan is dat er individuele verschillen zitten tussen de groepen.
Dit kan worden opgelost door randomisation, waarbij elke deelnemer een gelijke
kans heeft om aan een conditie toegewezen te worden;
Within-subject design: participanten worden toegewezen aan alle condities van het
experiment -> er zijn minder deelnemers nodig en er zijn gelijke groepen. Een
probleem dat kan ontstaan zijn (volg)orde-effecten. Als alle deelnemers beginnen
met dezelfde conditie, kunnen eerdere condities invloed hebben op de resultaten
van latere condities. Dit kan worden opgelost door counterbalancing, waarbij
deelnemers in een verschillende volgorde worden blootgesteld aan de condities.
Power is de kans op het correct
verwerpen van de nulhypothese H0
terwijl de alternatieve hypothese HA
waar is. Als twee distributies weinig
overlap hebben, is er weinig power.
Als twee distributies veel overlappen,
is er minder power.
2
, Statistiek 2.2 Colleges
Er zijn verschillende factoren die power bepalen:
Significantieniveau α : bij een kleinere α , is er een lagere power. Het voordeel van
een kleine α , is dat er minder snel een type I fout wordt gemaakt. Het nadeel van een
kleine α , is dat er een grotere kans is op een type II fout;
Verschil tussen het populatiegemiddelde onder H0 en HA: bij een groter verschil, is er
een hogere power;
Standaarddeviatie van de steekproevenverdeling van het gemiddelde: bij een
kleinere standaard error, is er een hogere power. Dit kan makkelijk veranderd
worden door het vergroten van de steekproef, waardoor de standaarddeviatie
kleiner wordt.
Er zijn twee soorten correcte beslissingen, maar ook twee fouten die men kan maken:
Type I fout (α ): H0 verwerpen als H0 waar is -> hallucineren;
Type II fout ( β ): H0 niet verwerpen als H0 niet waar is -> blindheid.
Waarheid over de populatie
H0 is waar H0 is niet waar
(HA is dus waar)
Conclusie Verwerpen H0 Type I fout (α ) (1- β ) = power
gebaseerd op
Niet verwerpen H0 (1-α ) Type II fout ( β )
de steekproef
Bij het toetsen van beslissingen wordt geprobeerd om type I en type II fouten in balans te
houden. Als de type II fout groter wordt, wordt de type I fout in de regel kleiner.
Stappen van de procedure van het statistisch testen:
Formuleren van H0 en HA (éénzijdig of tweezijdig);
Kiezen van een analyseprocedure en decision rule (=significatieniveau);
Kiezen van een sample;
Berekenen van de teststatistiek;
Bepalen van de p-waarde -> de kans dat de teststatistiek of een meer extreme
waarde voorkomt, aangenomen dat H0 klopt;
Beslissing maken: H0 afwijzen als p < α .
Er zijn twee soorten testen:
One sided test: één staart bevat 0,05 -> wordt alleen gebruikt als er maar één
mogelijk resultaat is;
Two sided test: beide staarten samen bevatten 0,05 -> dit is de norm, behalve er
alleen een toename of afname mogelijk is.
De standaarddeviatie in de populatie is gelijk aan σ . De sampling distribution, oftewel
steekproefverdeling, is de verdeling van de gemiddelden van verschillende scores tussen
groepen. Dit is afhankelijk van de hoeveelheid mensen die je test. De standaarddeviatie van
σ
de verdeling van gemiddelden (distribution of means) is gelijk aan: σ m= .
√n
3