BLOK 1.3: STATISTIEK
‘INTRODUCTION TO THE PRACTICE OF STATISTICS’ VAN MOORE
HOOFDSTUK 1
De populatie zijn alle mensen met de eigenschappen waar naar jij
onderzoek wilt doen, en de steekproef is het groepje van deze mensen
waar jij onderzoek naar en uitspraak over gaat doen.
Elke dataset bevat informatie over personen of dingen; individuen. Als
hetgeen wat onderzocht wordt geen persoon (of personen) is, wordt het
ook wel cases genoemd.
De data is opgedeeld in variabelen, wat kenmerken van hetgeen wat
onderzocht wordt zijn.
Een categoriale variabele plaatst een individu in een of meer groepen of
categorieën. Een kwantitatieve variabele is een numerieke waarde die
handig zijn bij bijvoorbeeld gemiddeldes uit te rekenen. De verdeling van
een variabele is welke waarde er wordt aangenomen en hoe vaak deze
wordt aangenomen.
Een label een speciale variabele gebruikt in sommige datasets om
verschillende gevallen te onderscheiden.
Nominale data heeft geen volgorde, geen meeteenheid en geen nulpunt;
bijvoorbeeld sekse. Ordinale data heeft wel een volgorde, maar geen
meeteenheid en geen nulpunt; bijvoorbeeld SES verdeeld in laag, middel
en hoog. Intervallen hebben wel een volgorde en een meeteenheid,
maar geen vast nulpunt, er zijn gelijke afstanden tussen de intervallen;
bijvoorbeeld temperatuur. Ratio’s hebben een volgorde, meeteenheid en
een vast nulpunt; bijvoorbeeld leeftijd.
Variabelen meet je met instrumenten.
Nominale en ordinale resultaten kun je verwerken in een staaf- of
cirkeldiagram.
Stappenplan om een stemplot voor intervallen of ratio’s te maken:
1. Alles behalve het laatste (meest rechte) getal in het cijfer is de
stem, het laatste getal is het leaf.
2. De stem(s) schrijf je verticaal, van klein naar groot oplopend.
, 3. De bijbehorende leaf(s) schrijf je naast de stem, van klein naar groot
oplopend naar rechts. (Bij een back-to-back stemplot heb je aan
de linkerkant ook leafs, die van klein naar groot naar links oplopen.)
Bij een histogram verdeel je de data in klassen, dus bijvoorbeeld de
klasse 75 ≤ IQ ≥ 85. Dan tel je hoe vaak elke klasse voorkomt en maak je
een frequentietabel. Dan kan je het histogram tekenen. De staven van
het histogram moet tegen elkaar aan!
De mean, of gemiddelde, bereken je door alle waardes bij elkaar op te
tellen en die uitkomst te delen door het aantal waardes. Oftewel:
, ook wordt µ gebruikt om het gemiddelde aan te duiden.
De median, of mediaan, bereken je door alle waardes van klein naar groot
op een rijtje te zetten, en de middelste af te lezen of door (n + 1) : 2, dan
is de uitkomst het hoeveelste nummer de mediaan is.
Het berekenen van Q1, eerste kwartiel, en Q3, het derde kwartiel:
1. Bereken eerst de mediaan.
2. Om Q1 te berekenen, bereken je de mediaan van de waarden links
van de echte mediaan. Dus een beetje de mediaan van de mediaan.
3. Voor Q3 doe je hetzelfde maar dan met de waardes aan de
rechterkant van de mediaan.
Het opzetten van een boxplot:
1. Zet eerst de five-number summary op: minimum – Q1 – M – Q3 –
maximum.
2. Je tekent een doosje met de lengte van Q1 tot Q3.
3. Een streep door het doosje om de mediaan aan te geven.
4. En dan twee strepen die het doosje uitlopen en stoppen bij het
minimum en aan de andere kant het maximum.
InterQuartile Rate = Q3 – Q1
Uitschieters wijken meer dan 1.5 x IQR af van Q1 of Q3.
De standaarddeviatie, of de standaardafwijking =
, deze wordt ook wel uitgedrukt in σ.
Het stappenplan om de standaardafwijking te berekenen:
1. Bereken het gemiddelde.
2. Neem van elk getal de afstand (d) tot het gemiddelde.
3. Neem het kwadraat van die afstanden.
, 4. Bereken het gemiddelde van die kwadraten.
5. Neem de wortel van de uitkomst.
De density/dichtheidscurve geeft aan welk deel van de scores in een
willekeurig te kiezen interval vallen. De dichtheidscurve ligt altijd boven de
x-as en heeft een totale oppervlakte onder de curve van 1.
Centrummaten bij de dichtheidscurve:
– Modus: de score waar de grafiek het hoogst is.
– Mediaan: score die de oppervlakte verdeelt in 2 gelijke helften, 50%
per helft.
– Gemiddelde: punt waar de grafiek ‘in balans’ is.
N(µ, σ) is de notatie van de standaard verdeling, of de Normal
distribution.
z-score = (x - µ) : σ = gestandaardiseerde waarde.
Als je bij een standaardverdeling een gemiddelde hebt van bijvoorbeeld
40, en een standaardafwijking van 3 kun je ook berekenen hoeveel
procent van de scores hoger is dan 47,5. Dan reken je eerst de z-score uit:
(x - µ) : σ, dus (47.5-40) : 3 = 2.5 en dan kijk je in Tabel A, de tabel van z-
scores. Dan kijk je welk gedeelde bij z = 2.5 hoort, en dat is .9938 Dan
moet je wel nog 1 - .9938 doen, want die 99,38% is het gedeelte wat lager
scoorde dan 47.5. Het antwoord want dan dus 1 – 0.9938 = 0.0062, dus
0,62%.
Je kan het ook andersom doen, als je wilt weten wat de 10% hoogste
scores zijn. Dan zoek je op in de tabel de uitkomst bij 0.9; dat is de z-score
van 1.28. Dan vul je alle waardes die je hebt in: 1.28 = (x – 40) : 3 3 x