Inleiding Statistiek
Tim van Wanrooij
Geel = naam van persoon
Blauw = belangrijk
Paars = echt de kern (moet je kennen = heel belangrijk)
WEEK 1:
Stem-and-leaf plot
zo ziet zo’n plot eruit voor proefpersonen
met de leeftijd van 8,9,16,17,17,18,19,19123,23,24,26,32
Frequentietabellen x f % Cumulatieve
zo ziet zon tabel eruit met de volgende data: %
02505425 587691354796689 0 2 9.09 9.09
je ziet dat de variabelen 5 een percentile rank heeft van 59.1 1 1 4.55 13.64
de score van 5 hoort bij het 59,1 percentiel 2 2 9.09 22.73
3 1 4.55 27.28
4 2 9.09 36.37
5 5 22.73 59.1
6 3 13.64 72.74
7 2 9.09 81.83
8 2 9.09 90.92
9 2 9.09 100
Proportie = frequentie / aantal deelnemers
gebruik je om histogrammen van onderzoeken met verschillende aantal ppn te vergelijken
,Limieten
Je hebt discrete en continuee variabelen, lengte is continue, want je kunt 180,1651665461… cm zijn.
aantal keer verhuizen is discreet je bent of 2 of 3 keer verhuisd, niet 2.26 keer.
Bij limieten wil je dus de grenzen afbakenen van bijvoorbeeld 179.5 tot 180.5. de ondergrens hoort er
nog bij, de bovengrens valt er buiten. Stel je hebt een getal van 140,5 in het midden dan wil je je
limieten zo stellen dat ze 1 decimaal meer hebben. Dus je limieten worden dan 140.25 en 140.75
Voorbeeld: wat is de percintile rank van 9?
We weten dat de bovengrens van categorie 5-9 is 9,5. Dus de percintile rank van 9,5 is 60%, maar
wat is die van 9? We weten dat bovengrens van 0-4 is 4,5. Alle waarde vanaf 4.5 tot (niet tot en met)
9.5 horen bij de categorie 5-9. Tussen de 60% en 10% zit 50%. Tussen 4.5 en 9.5 zit 5. We willen van
9.5 naar 9.0 dus we gaan 0.5 naar beneden. 0.5 van 5 is 10%. we willen dus 10% naar beneden. Dus
dit kunnen we ook toepassen bij cum %. 10% van 50 is 5. Dus de percentile rank van 9.0 is 55%
X f Cum %
20-24
15-19
10-14
5-9 60%
0-4 10%
Soorten schalen
1. Nominale schaal
* benoemde categorieen (bv hond, kat, hamster)
, * geen kwantitatief onderscheid tussen categorieen ( kunt niet zeggen hond is meer dan kat)
* geen 0 waarde
2. Ordinale schaal
*gerangschikte categorieen (1e, 2e, 3e )
* geen gelijke afstand tussen de rangen
* geen 0 waarde
3. De interval schaal
* bestaat uit even grote intervallen tussen waarden
* elke eenheid heeft dezelfde grootte
* geen echt 0 punt wel een 0 waarde denk aan temperatuur 0 graden is niet geen temp
4. De ratio schaal
* bestaat uit even grote intervallen tussen waarden
* elke eenheid heeft dezelfde grootte
* maar nu wel een absolute 0
* denk aan afstand
WEEK2:
Sampling
- Steekproeftrekking is het proces waarbij n waarnemingen worden genomen uit een populatie
van grootte N
- Dit is een vd belangrijkste methoden in de gedrags- en sociale wetenschappen
- Als de steekproeftrekking fout is, is de rest bullshit
- GIGO-principe (garbage in, garbage out)
- Steekproef = deelverzameling vd populatie
Centraliteit van data (central tendency)
- Doel: wij willen de gegevens beschrijven
- Specifiek: we willen het centrum vd dataverdeling uitdrukken
- Onthoud: denk aan data = verdeling
Modus (mode): eenvoudige definitie: de score of categorie met de hoogste frequentie, werkt
voor alle schalen van data (nominale gegevens), in een histogram ligt de modus bij het
bovenste limiet
bij een frequentiegrafiek, zoals getekend hieronder.
heb je 2 toppunten en dus twee modussen = bimodale verdeling
, Gemiddelde (mean): exacte definitie: de som van alle scores gedeeld door het aantal scores
statistische notatie:
Σ = de som van, n = steekproefgrootte, N = grootte van populatie, x=
scores
∑x
x=Mx=
N
- Waarom niet altijd gemiddelde gebruiken? Extreme waardes beïnvloeden het heel erg
outliers/uitschieters deze problemen kun je oplossen door een andere maat te gebruiken
of door mean trimming extreme waardes schrappen
Mediaan (median): exacte definitie: de mediaan deel de verdeling in tweeën (vaak het
midden genoemd), eerst data sorteren van laag naar hoog bv. Dan de waarde zoeken die in
het midden ligt. = 50e percentiel dan interpolatie toepassen
top x %
4.5 87.5
?? 50
bottom 3.5 37.5
Wij moeten zoeken wat het 50e percentiel is verschil tussen 4.5 en 3.5 is 1. Verschil tussen
87.5 en 37.5 is 50. Van 87.5 moeten we 37.5 percentiel naar beneden om bij 50 te komen.
37.5/50 = 0.75 dus we moeten 75% omlaag van 87.5. 1 x 0.75 naar beneden van 4.5. dus het
getal dat hoort bij het 50e percentiel is 3.75.
maar als er geen duidelijk middelpunt is (zoals bij een even getal data) nemen we de twee
middelste waarden en berekenen we het gemiddelde daarvan en dat wordt de mediaan
Spreiding van data (variabiliteit)
- Doel: wij willen de data beschrijven
- Specifiek: we willen uitdrukken hoeveel de scores in de data van elkaar verschillen
- Ook wel de spreiding van de data genoemd
- Hoe kunnen we de data variabiliteit uitdrukken?
Makkelijkste manier: we nemen de laagste waarde en de hoogste waarde
range = max – min
Berekenen hoeveel elke score verschilt van het (populatie)gemiddelde distance to the
mean
score – gemiddelde = distance to the mean (kan zowel pos als neg zijn) geeft ons een
afwijkingsscore / deviation van het gemiddelde voor elke waarde
deviation = x - alle afwijkingsscores bij elkaar opgeteld is altijd 0, dus kunt niet veel
zeggen over totale spreiding , daarom trucje: squaring the difference je kwadrateerd de
distance to the mean, zo haal je negatieve waardes weg, de grotere waarde worden extra
gestraft, en als we x verdubbelen, kwadrateren we x 2.
Op deze manier krijgen we een iets meer betekenisvolle maat. Het gemiddelde van de
gekwadrateerde afwijkingen noemen we de variantie (variance)