Week B1
SAMENVATTING BOEK STATISTIEK IN STAPPEN
HOOFDSTUK 2.5 SPREIDINGSMATEN
Een spreidingsmaat geeft antwoord op de vraag hoe de waarnemingen liggen ten opzichte van
elkaar, met andere woorden hoe de scores in de variabele zijn verdeeld. Vier spreidingsmaten zijn:
de variatiebreedte, de interkwartielafstand, de variantie en de afgeleide daarvan: de
standaarddeviatie.
2.5.1 VARIATIEBREEDTE EN INTERKWARTIELAFSTAND
Variatiebreedte
De eenvoudigste manier om de spreiding van een kenmerk weer te geven is met behulp van de
variatiebreedte. Dat betreft de hele bandbreedte van waarnemingen, van het minimum tot aan het
maximum.
Voorbeeld: minimumleeftijd is 18 en de maximum leeftijd is 65, dan heb je een variatiebreedte van
47 jaar.
Definitie variatiebreedte:
o Variatiebreedte is het verschil tussen de minimum en maximumscore in een set.
Interkwartielafstand
De interkwartielafstand is een maat waarbij je naar de middelste 50% van je verdeling kijkt. Deze
maat kan worden gebruikt voor variabelen vanaf ordinaal meetniveau. Ze wordt ook toegepast bij
continue variabelen die uitschieters bevatten. Omdat je alleen naar het midden van de verdeling kijkt
doen de uitschieters ‘niet mee’.
In een boxdiagram wordt de interkwartielafstand laten zien, de verdeling wordt in vier gelijke
stukken verdeeld. Dit zijn kwartielen (elk 25% van de waarnemingen). Het boxje geeft de middelste
50% van de waarnemingen weer. Het verschil tussen kwartiel 3 (Q3, 75% ) en kwartiel 1 (Q1, 25%)
bepaalt de interkwartielafstand.
Definitie interkwartielafstand:
o Interkwartielafstand is het verschil tussen het 75 ste en het 25ste kwartiel in een
verdeling, ofwel de middelste 50% van alle waarnemingen.
2.5.2 VARIANTIE VAN EEN POPULATIE
Voor continue variabelen – vanaf een interval- en rationiveau – kun je als spreidingsmaat de variantie
gebruiken, of de afgeleide daarvan: de standaardafwijking.
Wat is een variantie?
De variantie is een spreidingsmaat waarbij je kijkt naar de afstand van alle waarnemingen ten
opzichte van het gemiddelde. Kijken niet naar alle afstanden afzonderlijk, maar berekenen een getal
dat deze totale afstand in 1 oogopslag weergeeft. Dit doe je door alle absolute (gekwadrateerde)
verschillen samen te nemen en te delen door de omvang.
Definitie variantie:
o Variantie is de maat die aangeeft hoe waarnemingen verspreid liggen ten opzichte
van het gemiddelde. Ofwel:de gemiddelde gekwadrateerde afwijking van het
gemiddelde.
Formule populatievariantie:
,Uitleg:
- σ 2: als de verdeling van de populatie bekend is dan wordt als notatie een σ 2 gebruikt. Is de
verdeling onbekend dan wordt de zogeheten steekproefvariantie gebruikt, s2.
- Tussen haakjes staat dat telkens voor elke waarneming het verschil tussen een waarneming
en het gemiddelde moet worden berekend. Voor de populatie is de schrijfwijze van het
gemiddelde een μ. Van elk verschil nemen we het kwadraat. Zouden we dat niet doen dan
zouden alle verschillen bij elkaar opgeteld op ‘nul’ uitkomen. Dat willen wij niet, wij willen
naar de ‘afstanden’ kijken, naar ‘absolute’ verschillen.
- Het gekwadrateerde verschil wordt getotaliseerd, dat wil zeggen dat alle verschilscores bij
elkaar worden opgeteld.
- Het totaal van deze verschilscores wordt gedeeld door het totale aantal waarnemingen,
waardoor de variantie ontstaat.
- Voor de notatie is nog één keer de officiele formule gebruikt, om te laten zien dat de
bovengrens ( de N boven de Ʃ ) de populatieomvang is. Hoofdletter N.
2.5.3 VARIANTIE VAN EEN STEEKPROEF
Meestal worden analyses echter met een steekproef gedaan. Je kunt nooit zeker zijn of deze
steekproef in alle opzichten op de populatie lijkt. Om deze onzekerheid enigszins weg te nemen zijn
correcties mogelijk, zoals het inzetten van ‘vrijheidsgraden’.
Wat zijn vrijheidsgraden en wanneer gebruik je ze?
In een steekproef zit een bepaalde ‘onzekerheid’ omdat je nooit helemaal precies kunt zeggen hoe
goed je steekproef op je populatie lijkt. Een grote steekproef is vaak eerder een goede afspiegeling
van de populatie dan een kleine steeproef. Vrijheidsgraden gebruik je als restrictie omdat je in een
steekproef een schatting gebruikt van een maat in de populatie. Het aantal vrijheidsgraden geeft het
aantal eenheden in een verzameling die je ‘vrij’ kunt schatten, afhankelijk van de statistische
grootheid.
Als je vervolgens deze statistische maat berekent, een bepaalde statistische grootheid (bijv.
gemiddelde), kun je voor deze ‘onzekerheid’ corrigeren door niet de gehele steekproefomvang in je
formule op te nemen maar je steekproefomvang minus 1, n-1 dus. Dit wordt ook wel het aantal
‘vrijheidsgraden’van je grootheid genoemd.
Definitie vrijheidsgraden:
o Vrijheidsgraden zijn het aantal onafhankelijke schattingen die je van een bepaalde
waarde kunt maken, ofwel het aantal onafhankelijke waarnemingen die een
statistische grootheid bepalen. In het engels worden vrijheidsgraden degrees of
freedom genoemd, ofwel df.
Conclusie: bij n-eenheden kun je n-1 onafhankelijke waarnemingen doen, maar de laatste
waarneming ligt op grond van de grootheid vast. Er is nog iets: bij een grotere steekproef kun je
nauwkeuriger schatten dan bij kleine(re) steekproeven. Neem bijvoorbeeld n=1. Informatie over de
verdeling van 1 waarneming is er niet; het aantal vrijheidsgraden is dan ook 0. Neem bijvoorbeeld
n=2. Dan is er slechts informatie over de positie van de eerste tegenover de tweede waarneming;
daarmee komt het aantal veiligheidsgraden op 2-1=1.
Van populatie naar steekproefvariantie
Formule steekproefvariantie:
Uitleg:
, Zoals je ziet, gebruiken we nu de simpele notatie in de formule. Ze is bijna hetzelfde als die van de
populatievariantie. Er zijn drie verschillen:
- Het gebruik van s2 in de notatie;
- Het gebruik van x ̅ in de teller; gemiddelde van waarnemingen symbool bji
steekproefvariantie
- Het aantal vrijheidsgraden in de noemer: n-1.
2.5.4 VAN VARIANTIE NAAR STANDAARDAFWIJKING
Wat kun je van een verdeling zeggen als je de variantie kent? Naarmate je een hogere variantie krijgt,
kun je zeggen dat de spreiding van een kenmerk groter is. Een kleine variantie is, logischerwijs, een
kleine spreiding. Dan liggen alle scores dicht rond het gemiddelde.
Kwadratische maat
De variantie is een maat in het kwadraat en dat maakt de maat lastig te interpreteren. Als een maat
in x 2 is en het verschil tussen twee scores twee keer zo groot wordt, dan wordt de variantie vier keer
zo groot.
Een oplossing voor dit probleem is om het kwadraat weg te halen en er een wortel voor te zetten, je
trekt dan de wortel uit deze variantie. Met deze wortel uit de variantie ontstaat de
standaardafwijking, ook wel standaarddeviatie genoemd.
In de populatie krijg je dan: √ (σ 2)= σ . In de steekproef krijg je √ ( s2 )= s.
¿
Definitie standaardafwijking
o De standaardafwijking is de wortel uit de variantie.
De standaardafwijking geeft ons de gelegenheid om de spreiding van een variabele te beoordelen.
Zo kan een willekeurig gemiddelde in twee situaties hetzelfde zijn, maar de spreiding kan verschillen.
2.6 BIJZONDERE EIGENSCHAPPEN VAN DE STANDAARDAFWIJKING.
De standaardafwijking kent een aantal bijzondere eigenschappen, die deze maat geschikt maken
voor allerlei toepassingen. Allereerst is de grafiek van de verdeling symmetrisch en heeft zij de vorm
van een klok of heuvel; dit wordt ook wel de Gauss-kromme of een ‘normale verdeling’genoemd.
Uitgangspunten voor het tekenen van deze Gauss-kromme zijn het gemiddelde en de
standaardafwijking. Op de x-as zet je alle mogelijke waarden van de verdeling uit, met het
gemiddelde precies in het midden. Op de y-as staat het percentage waarnemingen met een bepaalde
x-score. Van alle continue variabelen met een normale verdeling kun je zo’n grafiek tekenen.
Voor het interpreteren van de verdeling van de waarnemingen ten opzichte van het gemiddelde en
de standaardafwijking kun je een aantal standaardregels hanteren.
Empirische regel
Indien de waarnemingen gelijkmatig over deze vorm verdeeld zijn (hij is symmetrisch) geldt:
- 68,27% van alle waarnemingen ligt tussen het gemiddelde plus of minus één keer de
standaardafwijking (SD). Kijk naar de eerste twee lijnen vanaf het gemiddelde.
- 95,44% van alle waarnemingen ligt tussen het gemiddelde plus of minus twee keer de
standaardafwijking. Kijk naar de tweede set lijnen vanaf het gemiddelde.
- 99,73% van alle waarnemingen ligt tussen het gemiddelde plus of minus drie keer de
standaardafwijking. Kijk naar de derde set lijnen vanaf het gemiddelde.
Deze eigenschappen vormen de ‘empirische regel’; ze gelden voor elke variabele met een normale
verdeling. Ze heten ook wel de 1-sigma, 2-sigma- en 3-sigma-intervallen van de verdeling. Met
‘sigma’ wordt het griekse teken voor de standaardafwijking aangegeven.
In figuur 2.22b (pagina 73) zie je dat de waarnemingen soms wat verder boven de kromme uitsteken,
soms vallen ze eronder. Dat betekent dat de verdeling niet helemaal ‘normaal’is. Wel bijna trouwens.
Chebyshev’s regel