Statistiek aantekeningen
College A1
Data-matrix
Persoon verticaal onder elkaar, verschillende soorten informatie naast elkaar. Rij loopt
horizontaal, kolom loopt verticaal. Een variabele is een kolom, een voorbeeld hiervan is
leeftijd. Een subject is een rij.
Een score is een getal in 1 cel van de datamatrix, voorbeeld hiervan is leeftijd (subject 3) =
51. Een statistiek is een getal wat is berekend uit een verzameling getallen van de datamatrix,
hiervan is een voorbeeld gemiddelde (leeftijd) = 41.2.
Kwalitatieve variabele: de uitkomsten zijn categorieën zoals geslacht of geloof, terwijl een
kwantitatieve variabele juist uitkomsten heeft dat hoeveelheden zijn, zoals leeftijd of IQ.
Elementair rapport van 1 variabele
- Tellen
o Frequentieverdeling
o Histogram
o N
- Ordinale kenmerken
o Vijfgetallenresume
o Uitschieters
o Gemodificeerde boxplot
- Metrische kenmerken
o Gemiddelde en standaarddeviatie
o Indicatie van normaliteit
Frequentietabel
Geeft in een tabel aan hoe vaak elke score voorkomt, voor 1 variabele.
Histogram
Histogram is een figuur dat aangeeft hoe vaak elke score voorkomt, voor 1 variabele.
Inclusief as-namen en schaalverdeling!
N
N is de afkorting van number, is het aantal subjecten. Altijd bij je onderzoek vermelden
Klassen
Soms zijn alle frequenties heel klein, dan moet je klassen maken. Dit doe je door het te laten
gaan om de communicatie, bijvoorbeeld liever klassen van 5 dan klassen van 4.67. Minstens 7
klassen, maar niet te veel. Klassen moeten gelijke breedte hebben en lege klassen ook
weergeven. Voorbeeld van klassen is op leeftijd dus van 15-19, 20-24 etc. weergeven van de
klassegrenzen verschilt je hebt:
- Discrete variabele
o Alleen gehele getallen mogelijk
o Grenswaarden komen vaak voor
o 0-4, 5-9, 10-14…
- Continue variabele
, o Alle reële getallen mogelijk
o Grenswaarden komen zelden voor
o 0-5, 5-10, 10-15…
Mediaan
Zet de scores op volgorde van klein naar groot, de middelste score daarvan is de mediaan.
Zijn dit twee getallen doordat het een even aantal N’s heeft dan neem je het gemiddelde van
de twee. Van het onderste getal het mediaan noem je het eerste kwartiel, dit bij de hoogste
getal noem je het derde kwartiel. Mediaan zelf wordt ook wel tweede kwartiel genoemd.
Kwartielen en histogram
Het eerste kwartiel Q1 van een variabele is het getal waar 25% van de scores onder ligt, de
mediaan Q2 van een variabele is het getal waar 50% van de scores onder ligt. Het derde
kwartiel Q3 van een variabele is het getal waar 75% van de scores onder ligt.
Interkwartielafstand
De interkwartielafstand is het verschil tussen eerste en derde kwartiel: IKA= Q3-Q1.
Verschillende programma’s kunnen verschillende medianen of kwartielen geven.
Definities zijn gebaseerd op continue verdeling, dan zijn kwartielen wel eenduidig. In een
steekproef is de verdeling niet continu.
Uitschieters
Uitschieters zijn scores die:
- Groter dan of gelijk aan Q3 + 1,5 * IKA, of
- Kleiner dan of gelijk aan Q1 – 1,5 * IKA
Pas op je mag uitschieters niet verwijderen!
College A2
Gemiddelde en standaarddeviatie
Histogram (herhaling)
Een histogram is een figuur dat aangeeft hoe vaak elke score voorkomt voor een variabele.
Gemiddelde
Het gemiddelde van een variabele geeft aan waar het “centrum” van de scores ligt.
Berekening van het gemiddelde is door alle scores op te tellen en te delen door het aantal
scores. Dringend advies om te leren hoe dit met de statistische functies op je rekenmachine
gaat! Dat is sneller en betrouwbaarder.
Standaarddeviatie: 1 concept
- De standaardafwijking geeft aan hoe groot de spreiding van de scores is.
- Ihb. Geeft de standaardafwijking aan hoe sterk de individuele scores afwijken van het
gemiddelde
- Voorbeeld; tentamen met kleine verschillen tussen deelnemers IKA=2, S=1,170;
tentamen met grote verschillen tussen deelnemers IKA=5, S=2,685, S wordt dus
groter als de scores verder uit elkaar gaan liggen
,Berekenen met rekenmachine
- Dit wordt nu voorgedaan voor een Casio. Probeer het te volgen met je eigen
rekenmachine 1 6
- We gaan uit van de volgende frequentietabel. 2 7
- 1 shift ; 6 data etc. 3 4
- Shift s-sum 3 = n moet 20 opleveren 4 2
- Shift s-var 1 = gemiddelde moet 2,25 zijn 5 1
- Shift s-var 3 = standaarddeviatie moet 1,161zijn
Formule
- Je trekt van iedere score het gemiddelde af, geeft afwijkingen
- Kwadrateer elke afwijkings-score
- Tel deze kwadraten op geeft kwadraten som (SS)
- Deel de kwadraten som door (n-1) geeft de variantie
- Trek de wortel uit de variantie geeft de standaardafwijking
Standaardscores
Standaardscores worden berekend uit de oorspronkelijke scores door die te her-schalen.
Hierbij fungeert het gemiddelde als nulpunt en de standaarddeviatie als meeteenheid.
- Formule: standaardscore = (score-gemiddelde)/standaarddeviatie oftwel z=(x-m)/s
Eigenschappen van standaard-scores:
- Het zijn relatieve scores
- Behouden de vorm van de verdeling
- Gemiddelde is 0
- Standaardafwijking is 1
- Liggen meestal tussen -2 en 2
- Manier om extremen te bepalen
Hoorcollege A3
Normaalverdelingen
Histogram gaat omhoog dan omlaag; klokvormig, symmetrisch, dunne staart, belangrijke
getallen:
- P(Z>1,64) = 5%
- P(Z>1,96) = 2,5%
- P(Z>1) = 16%
Technische opmerkingen
- De formule wordt gegeven op p.66 van het boek. In de praktijk hoef je die nooit te
gebruik, er zijn tabellen voor.
- De variabele moet continu zijn, d.w.z. Alle reële getallen kunnen als score voorkomen
- De vorm wordt alleen precies bereikt in de limiet, als N oneindig is en gelijktijdig de
klassenbreedten 0
- Als je zegt dat een variabele normaal verdeeld is, bedoel je altijd: in de oneindig grote
populatie
Normaalverdeling in een steekproef
- Als een variabele normaal verdeeld is, zal hij meestal in de steekproef bij benadering
normaal verdeeld zijn. Precies kan niet.
, - Het histogram heeft dan ongeveer de volgende vorm: klokvormig, symmetrisch, klein
percentage uitschieters
Gemiddelde en standaardafwijking in normaalverdelingen
- Normaal verdeelde variabelen kunnen nog verschillen qua gemiddelde en
standaardafwijking
- Als twee variabelen
o Beide normaal verdeeld zijn, en
o Hetzelfde gemiddelde hebben, en
o Dezelfde standaardafwijking hebben,
- Dan hebben ze ook precies dezelfde verdeling
Standaard-normaal verdeling
- Normaalverdeling met gemiddelde 0 en standaarddeviatie 1
- Wordt gebruikt als representant, prototype
- Kansen in andere normaalverdelingen zijn eruit af te leiden
- Staat in tabellen
- 68% van de scores ligt rond het midden
Relatie tussen normaal verdeelde variabelen
Als een variabele X normaal verdeeld is, en je berekent de standaard-scores: Z= (x-
gemiddelde)/ standaarddeviatie, dan zijn de standaard-scores standaard-normaal verdeeld.
Vb. ruwe scores: 70-85-100-115-130
Vb. standaardscores: -2/-2/0/1/2
Werken met de tabel
Standaardscore -> percentielscore
Nodig: de variabele is normaal verdeeld. Voorbeeld:
- Een variabele is normaal verdeeld
- Iemand heeft een standaardscore Z=1,27
- Wat is de percentielscore?
- Opzoeken in tabel A. linker kolom 1.2 bovenste rij .07 geeft .8980, vermenigvuldigen
met 100 geeft percentielscore 89,8
Percentielscore -> normaalscore
Gebruik de tabel op de omgekeerde manier
Voorbeeld:
- Als filmbezoek = 1 dan is de percentielscore 6/20 = 0.30, welke normaalscore hoort
hierbij?
- 0.30 niet precies in tabel? Getal wat er het dichtstbij ligt
Voorbeeld tabel, waarbij je cumulatieve frequentie, cumulatieve percentage en normaalscore
moest invullen
Filmbezoek Frequentie Cumulatieve Cumulatief Normaalscore
frequentie percentage
1 6 6 30 -0,52
2 7 13 65 0,39
3 4 17 85 1.04
4 2 19 95 1.64