H1 statistiek in de praktijk
Centrummaten = tendentiematen:
- Mediaan = middelste getal/waarneming
- Modus = getal/waarneming die het meest voorkomt
- Gemiddelde (gevoelig voor uitschieters)
Bij symmetrische verdeling; mediaan en gemiddelde zijn hetzelfde. -> als de verdeling schever wordt
liggen het gemiddelde en de mediaan verder uit elkaar.
Uitbijters erin laten -> naar mediaan kijken
Uitbijters er uit halen -> gemiddelde. Uitschieters corrigeren/weglaten
Meetniveau van variabelen:
1. Kwalitatief: waarde in woorden plaatst element in categorie
a. Nominaal = geen volgorde (haarkleur, geslacht)
b. Ordinaal = rangorde, volgorde van belang, ene scoort hoger dan de andere
(opinieschaal, opleidingsniveau)
2. Kwantitatief: waarde in getallen, tellen eigenschappen van element meten
a. Interval = verschillen, zonder nulpunt -> als waarde 0 is, dan is het kenmerk nog wel
aanwezig (Tempratuur, IQ, leeftijd, gewicht)
b. Ratio = natuurlijk/absoluut nulpunt -> als waarde 0 is dan is er een afwezigheid van
het kenmerk.
Elementen = objecten die worden beschreven door een gegevensverzameling (mensen,
studenten, dieren, objecten)
Variabelen = een meetbaar kenmerk dat verschillende waarden of scores kent -> eigenschap van
een element (geslacht, leeftijd, cijfer)
Exploratieve data – analyse (onderzoek) = gegevens onderzoeken om hun belangrijkste kenmerken te
beschrijven. Om variabelen te beschrijven en relaties tussen de variabelen.
Staafdiagrammen & taartdiagrammen -> kwalitatieve variabelen – frequenties + relatieve
frequenties van de categorieën
Stamdiagrammen & histogrammen -> kwantitatieve variabelen.
Stamdiagram:
steelblad diagram
Rug aan rug stamdiagram (2) histogram: lijndiagram:
, De verdeling van een variabel is
toont de waarden die deze
Globale patroon van verdeling beschrijven door middel van: aanneemt en hoe vaak dit gebeurt.
1. Vorm
2. Centrum
3. Spreiding
1. Vorm van verdeling beschrijven:
a. Histogram
b. Stamdiagram
- Symmetrisch
- Scheef
o Scheef naar links = negatief scheef -> lange lijn naar links (mediaan & gemiddelde
links van modus)
o Scheef naar rechts = positief scheef -> lange lijn naar rechts (mediaan & gemiddelde
rechts van modus)
o Hoogste punt = modus.
- Uitschieters = uitbijters = waarnemingen die buiten het globale patroon van een verdeling
vallen
- Gepiekt of uniform
- Uni modaal = verdeling met maar 1 top
2. Centrum = mediaan -> midden punt
3. Spreiding = van hoever tot hoever het loopt. (met of zonder uitschieters)
Trend: aanhoudende lange termijn stijging/daling. trendlijn is het geschatte verloop van een
bepaalde ontwikkeling, vaak gebaseerd op historische data.
Tijdsgrafiek = als waarnemingen van een variabel over een bepaalde tijd zijn genomen (tijd =
horizontaal, waarde = verticaal) -> kan trends weergeven of andere veranderingen over tijd.
Variabelen:
1. Onafhankelijke variabelen = variabel die in het onderzoek vaststaat, verklaart de
afhankelijke variabel, de oorzaak (interventieprogramma)
2. Afhankelijke variabelen = meet, wat ga je meten, de variabel die je wilt verklaren, het effect
(gedetineerde die recidiveren)
1.2 Verdeling beschrijven
Meten van het centrum:
- Gemiddelde
- mediaan
Resistente maat = invloed van uitschieters beperken, reageert niet sterk op veranderingen in enkele
waarnemingen.
- Gemiddelde is geen resistente maat omdat het niet bestand is tegen de invloed van extreme
waarnemingen.
- Mediaan is een resistente centrummat
Mediaan: aantal waarnemingen + = (n+1)/2 = mediaan positie van de mediaan in de
geordende lijst. (mediaan = typerende waarde)
, Meten van de spreiding: Variatie
- Kwartielen
- Standaardafwijking
- Bereik
1. Kwartielen:
Percentiel = is de waarde dat p procenten van de waarnemingen lager uitvalt of eraan gelijk is.
30ste percentiel = de waarde zodat 30% van de verdeling
hieronder valt of gelijk is
Mediaan = 50e percentiel (50%) -> middelste waarneming
vijf-getallen samenvatting: voor het beschrijven van een
scheve verderling of verdeling met sterke uitschieters.
Boxplot = grafiek van de vijf-
Q0 Minimum getallensamenvatting
Q1 25% De mediaan van de
waarnemingen links Boxplots laten minder details zien
van de mediaan dan histo/stam diagrammen ->
Q2 50% Mediaan gebruiken om verschillende
Q3 75% De mediaan van de verdelingen met elkaar te
waarnemingen rechts vergelijken.
van de mediaan
Q4 Maximum
De 1,5 X IKA regel voor uitschieters
De afstand tussen de kwartielen (de spreidingsbreedte van de middelste helft van de gegevens) is
een resistentere spreidingsmaat = interkwartielafstand (IKA)
Interkwartielafstand (IKA) = de afstand tussen het eerste en derde kwartiel -> box grootte
IKA = Q3 – Q1
Linkerstaart = links van de mediaan (minimum en eerste kwartiel)
Rechter staart = rechts van de mediaan (maximum en derde kwartiel)
IKA: gebruiken voor opsporen van verdachte uitschieters -> een waarneming is een verdachte
uitschieter als deze minimaal:
1,5 X IKA
- Boven: het derde kwartiel (Q3) = Q3 + (1,5 X IKA)
- Onder: het eerste kwartiel (Q1) = Q1 – (1,5 X IKA)
Voorbeeld;
Q0 1 IKA = 200 – 54,5 = 145,5
Q1 54,5 1,5 X 145,5 = 218,25
Q2 103,5
Q3 200 Waarde onder -163,75 (54,5 – 218,25 = -163,75)
Q4 2631 Waarde boven 418,25 (200 + 218,25 = 418,25)
Gemodificeerde boxplots = daarbij worden de uitschieters eruit gehaald, apart weer gegeven. Door
middel van de 1,5 X IKA regel.
, 2. Standaardafwijking = meet de spreiding door te kijken hoe ver de waarnemingen van hun
gemiddelde zijn verwijderd.
= variantie: het gemiddelde van het kwadraat van de afwijkingen van de waarnemingen van hun
gemiddelde.
Variantie = gemiddelde van de gekwadrateerde afwijkingen (s2)
ver van gemiddelde = grote gekwadrateerde afwijk.
dicht bij gemiddelde = kleine gekwadrateerde afwijking
X1 – X| = de afwijking van de waarde x1 ten opzichte van hun gemiddelde (X|)
De som van alle afwijkingen – gemiddelde zal altijd 0 zijn.
= de wortel van de variantie
S = meet de spreiding rondom het gemiddelde -> alleen gebruiken wanneer het gemiddelde als
centrummaat is gekozen.
S = niet resistent -> uitschieters kunnen S groot maken
Waarom delen door n-1 en niet door n ?
=> aangezien som van afwijkingen steeds 0 is kan laatste afwijking gevonden worden uit
eerste n-1, dus n-1 kunnen vrij bewegen = aantal vrijheidsgraden
N – 1 = bij steekproef gemiddelde -> maar zegt niks over de gehele populatie, dus kan geen
uitspraak doen over het populatiegemiddelde. Door N -1 te doen, komt er een zuiverdere
schatting.
= steekproef correctie -> alleen toepassen als je met steekproefgemiddelde rekent
De steekproefvariantie s2 is een schatter van de ‘echte’ populatievariantie σ2
Waarom? De waarnemingen in de steekproef liggen in het algemeen dichterbij het
steekproefgemiddelde, dan bij het populatiegemiddelde
Logisch want… het steekproefgemiddelde ligt per definitie ‘midden’ tussen alle steekproefwaarden,
terwijl het populatiegemiddelde in het beroerdste geval zelfs best helemaal buiten de steekproef kan
liggen
Als je toch de formule voor variantie gebruikt om op basis van de steekproef de populatievariantie te
schatten, dan zul je meestal iets te optimistisch zijn en een te kleine variantie schatten
Door te delen door n-1 corrigeer je dit
- Als de getallen van een representatieve steekproef zijn, dan levert deze berekening de beste
schatting op van de standaarddeviatie van de populatie
Maar als je alle gegevens hebt (bv alle lengtes van alle Nederlanders) dan doe je niet N -1 omdat
je, als je deelt door N -> een uitspraak kan doen over het populatiegemiddelde, omdat je alle
gegevens hebt.