STATISTIEK 1
Hoofdstuk 1: inleiding
1.1. Definities
• Populatie: de volledige verzameling van objecten of personen waarover informatie wordt
gewenst.
Bv: leerlingen van het eerste jaar
• Elementen: de individuele leden van de populatie (de objecten of personen).
Bv: planten, dieren, bloedstalen
• Steekproef: een deelverzameling van de populatie die feitelijk zal onderzocht worden om
informatie te bekomen. Vaak is het onmogelijk om de volledige populatie te bestuderen
(omdat het te duur is, de populatie te groot is,…), vandaar dat men dan een steekproef uit de
populatie zal nemen voor verder onderzoek.
Bv: 20 leerlingen
• Variabele: een eigenschap die bij de elementen van de populatie of steekproef varieert. Vaak
worden er bij een steekproef verschillende variabelen gemeten.
Bv: loon, haarkleur, score, geslacht
• Data: de verzameling van gegevens die wordt bekomen door de variabelen te meten.
• De verdeling: van een variabele geeft aan welke waarden worden aangenomen en hoe vaak.
• Inductie: uitgaande van het bijzondere, het algemene besluiten. Bij inductie proberen we op
basis van een aantal waarnemingen tot een algemeen besluit te komen.
• Deductie: (tegenovergestelde van inductie) uitgaande van het algemene, het bijzondere
besluiten.
Bv: alle mensen zijn sterfelijk (het algemene), Socrates is een mens (het bijzondere), dus
Socrates is sterfelijk.
1.2. Eigenschappen van variabelen
Schaalfamilie Eigenschappen Voorbeeld
Ratioschaal Verhoudingen hebben een betekenis Lengte, gewicht,
geldbedrag in euro,
- Absoluut nulpunt
reactietijd, aantal
- Alles van absoluut bij ratio meisjes in opleiding
Verhoudingen betekenis: €10 is dubbel zoveel als €5
Bij interval zijn verhoudingen niet zinnig:
temperatuur van 10°C is niet dubbel zo warm als 5°C,
omdat deze uitspraak bij omzetting naar Fahrenheit
niet meer klopt
1
,Intervalschaal Intervallen (verschillen tussen waarden) hebben een Temperatuur, IQ
betekenis
- Geen absoluut nulpunt
Gelijke verschillen op de meetschaal (intervallen)
duiden op gelijke verschillen in de variabele
Bv: stijging van 10°C naar 20°C is evenveel als stijging
van 20°C naar 30°C, dit blijft behouden bij omzetting
naar Fahrenheit (10°C = 50°F, 20°C = 68°F en 30°C =
86°F): het verschil tussen 68°F en 50°F = verschil
tussen 86°F en 68°F
Bij ordinaal niet: Bv. verschil in uitslag tussen de
eerste (goud) en de tweede (zilver) hoeft niet gelijk
te zijn aan het verschil in uitslag tussen de tweede en
de derde (brons)
Ordinale schaal Waarden kunnen geordend worden Uitslag wedstrijd
(goud, zilver, brons),
- Volgorde!
officiersgraad
Een kleinere waarde wil zeggen dat de atleet beter is (onderluitenant,
(bij nominaal heeft volgorde niets te maken met luitenant, kapitein,
beter/slechter) kapitein-
commandant),
vragenlijst (niet goed,
goed, heel goed)
Nominale schaal Waarden zijn slechts namen Haarkleur, geslacht,
rekeningnummer,
- Variabelen geen numerieke betekenis rugnummer voetbal
1.3. Discrete en continue variabelen
Continue variabelen kunnen (oneindig veel) tussenwaarden aannemen. Tussenwaarden: tussen elke
twee willekeurige waarden, ligt een derde waarde. We zeggen ook dat variabelen gemeten op
continue schaal continu variëren.
Voorbeelden:
- Lengte in cm: tussen 2cm en 3cm liggen nog vele andere waarden: 2.5cm, 2.32cm, 2.3235cm
- Temperatuur in °C: tussen 25,8°C en 25,9°C ligt nog: 25.85°C, 25.82147°C,…
Discrete variabelen: er kan geen derde waarde tussen liggen. Dit impliceert dat de variabele maar
een eindig aantal waarden kan aannemen.
2
,Voorbeelden:
- Het aantal kinderen: tussen 0 en 1 kind ligt geen derde waarde
- Het aantal keer dat ‘munt’ wordt geworpen bij 4 worpen met een geldstuk
- Het aantal volgers op Twitter is theoretisch gezien discreet, maar omdat deze zéér veel verschillende
waarden kan aannemen, zeggen we dat ze bijna-continu is. In praktijk beschouwen we het als continu!
Deel 1: Beschrijvende statistiek
Hoofdstuk 2: visualiseren van data
2.1. Onderzoek naar raciale voorkeur
Het IAT-experiment: de populairste methode om impliciete voorkeur te meten.
• Expliciete voorkeur: gebruiken van een gevoelsthermometer: deelnemers moeten aangeven
hoe warm of koud ze zich voelen tegenover zowel zwarten als blanken. Ze kunnen
antwoorden p een 11-punten schaal waar 0 stat voor koude gevoelens, 5 voor neutrale
gevoelens en 10 voor warme gevoelens.
à gegevens bekomen op deze wijze zijn niet altijd te vertrouwen door sociaal-wenselijkheid!
• Impliciete voorkeur: de deelnemer weet zelf niet dat de raciale voorkeur wordt onderzocht.
Men kan bijvoorbeeld tellen hoeveel keer een deelnemer ervoor gekozen heeft om naast
een zwarte persoon te zitten.
IAT-experiment kan uitgevoerd worden op computer, dat maakt het praktisch zeer interessant!
2.2. Cirkeldiagram, staafdiagram en histogram
R
Cirkeldiagram Nominaal meetniveau Pie ()
- Absolute frequentie: het aantal keer dat de waarde x
voorkomt
- Absolute frequentieverdeling: tabel met twee rijen waar
de eerste rij de mogelijke waarden van X weergeeft en de
tweede rij de overeenkomstige absolute frequenties
- Steekproefgrootte (n): het aantal elementen in de
steekproef
- Relatieve frequentie: absolute frequentie /
steekproefgrootte n
Op basis van relatieve frequenties kunnen we data
visualiseren d.m.v. een cirkeldiagram.
à Afgeraden, omdat het menselijk oog niet goed in staat is
3
, om de oppervlaktes van een cirkeldiagram te beoordelen.
à Staafdiagram verkozen boven cirkeldiagram!
Staafdiagram Nominaal of ordinaal meetniveau Barplot ()
De verschillende waarden van de variabelen worden
horizontaal weergegeven en bij elke waarde wordt een
rechthoek getekend waarbij de hoogte gelijk is aan de
relatieve frequentie. De breedte van de rechthoek kan vrij
gekozen worden zolang alle rechthoeken maar even breed
zijn.
Histogram Interval of ratio meetniveau Hist ()
We moeten hiervoor data groeperen in klassen.
- Klasse ]a, b]
- Gegroepeerde frequentieverdeling: tabel met twee
kolommen (of rijen) waar de eerste kolom de klassen van
X weergeeft en de tweede de overeenkomstige
frequenties
Breedte rechthoek = breedte van de klasse
Hoogte rechthoek = relatieve frequentie / breedte van klasse,
zodat de oppervlakte van de rechthoek gelijk is aan de
relatieve frequentie
Verschil staafdiagram en histogram:
- Bij een histogram raken de rechthoeken elkaar en kunnen
de breedtes van de rechthoeken verschillen
- Staafdiagram wordt vooral gebruikt voor ordinale en
nominale variabelen (omdat ze beperkt aantal waarden
hebben)
- Histogram wordt vaak gebruikt voor interval- en
ratioschaal variabelen (omdat ze groot aantal waarden
hebben)
Data kan scheef- of symmetrisch verdeeld zijn:
- Scheef verdeeld: meeste massa van histogram ligt links of
rechts
De uiteinden van een verdeling = de staarten
- Symmetrisch verdeeld: linker- en rechterstaarten zijn
ongeveer gelijk
4
,2.3. Cumulatieve frequentiecurve
Ongegroepeerde data
- Cumulatieve absolute frequentie F(x): het aantal elementen in de steekproef die kleiner dan of
gelijk aan x zijn.
- Cumulatieve absolute frequentieverdeling: tabel met twee kolommen (of rijen), waar in de
eerste kolom de waarden van de variabele X worden weergegeven en in de tweede kolom de
overeenkomstige cumulatieve absolute frequenties.
R:
- Cumulatieve frequentie: cumsum ()
- Cumulatieve relatieve frequentie: ecdf () en plot ()
Gegroepeerde data
- Cumulatieve absolute frequentie van een klasse: het aantal elementen in die klasse plus het
aantal elementen in lagere klassen.
- Cumulatieve absolute gegroepeerde frequentieverdeling: tabel met twee kolommen (of rijen)
waar de eerste kolom de klassen van X weergeeft en de tweede kolom de overeenkomstige
cumulatieve absolute frequenties.
Hoofdstuk 3: Samenvatten van data
3.1. Centrummaten
Centrummaat: maat voor het ‘centrum’ van een verdeling, laat toe om de waarden van een variabele
samen te vatten in één getal.
Meet- Symbool Formule R
niveau
Het Op basis van de waarden van Interval 𝑥 ! ! Mean()
! !!! 𝑥𝑖
gemiddelde een variabele:
Ratio
Door alle waarden van een
variabele op te tellen en te delen
door de steekproefgrootte.
Andere soorten gemiddeldes:
Harmonic
- Harmonisch gemiddelde .mean()
𝑛
! 1
!!! 𝑥𝑖
- Meetkundig gemiddelde Geo-
!
𝑥1. 𝑥2. … . 𝑥𝑛 metrisch.
5
,à Populairste: het rekenkundig mean()
gemiddelde
Vaak afronden tot op twee cijfers
na de komma volgens klassieke
afrondingsregels:
- Derde cijfer kleiner dan 5
= afronden naar beneden
- Derde cijfer groter dan of gelijk
aan 5 = afronden naar boven
Aanduiden door rode verticale
stippenlijn.
- Bij symmetrische verdeling:
gemiddelde mooi centraal
- Bij verdeling scheef naar
rechts: gemiddelde schuift
op naar links
Op basis van de
frequentieverdeling:
𝑢
Extra notatie nodig: 𝑥
𝑖
𝑢 ! ! 𝑢
𝑥 = de unieke waarden van de ! !!! 𝑓𝑖 𝑥
𝑖
𝑖
variabele X in de steekproef
p: aantal unieke
𝑢 waarden van de
Absolute frequentie van 𝑥 = 𝑓𝑖 variabele X in de
𝑖
steekproef
à We komen hetzelfde
gemiddelde uit als de berekening
via de vorige formule
à Er zijn dus twee verschillende
formules om het gemiddelde te
berekenen
Gegroepeerde data:
Vorige formule niet onmiddellijk
gebruiken omdat we de exacte
waarden van de variabelen niet ! ! (!"!!")
! !!! 𝑓𝑖 !
kennen. We kennen enkel de klasse
waartoe de waarde behoort.
Oplossing: rekenregel:
Vorige formule gebruiken
6
, 𝑢
waarbij de waarden 𝑥
𝑖
vervangen worden door hun
klassenmiddens.
Klassenmidden van interval
!!!
𝑎, 𝑏 wordt gegeven door .
!
à Gemiddelde via deze formule is
verschillend van gemiddeldes via
vorige formules
Verklaring: vorige formules gebruik
gemaakt van ongegroepeerde data
à Voorkeur voor gemiddeldes
via ongegroepeerde data!
GEVOELIG OUTLIERS1
Enkel indien outliers duidelijk foutief
zijn (bijvoorbeeld negatieve leeftijd),
kan je ze verwijderen. Indien outlier
een correct gemeten waarde is, laat je
ze best in de dataset.
De mediaan Informeel: mediaan is de middelste Ordinaal 𝑚𝑑 𝑋 Median()
waarde nadat we de waarden van
een variabele van klein naar groot Interval
geordend hebben.
Ratio
Formeel:
Mediaan van een variabele X in
een steekproef is de waarde
𝑚𝑑 𝑋 waarvoor geldt dat:
- niet meer dan de helft van
de elementen in de
steekproef een waarde
kleiner dan 𝑚𝑑 𝑋 hebben
EN
- Niet meer dan de helft van
de elementen in de
steekproef een waarde
1
Outliers: waarden die ver verwijderd zijn van de overige waarden van een variabele.
7
, groter dan 𝑚𝑑 𝑋 hebben.
Indien verschillende waarden
voldoen aan de definitie van de
Interval
mediaan, wordt de mediaan
gelijkgesteld aan het Ratio
rekenkundig gemiddelde van
deze waarden.
!
Gegroepeerde data ( − 𝑐) (𝑏−𝑎)
!
𝑎+
𝑑
Eerst klasse bepalen waartoe de
a: ondergrens
mediaan behoort.
mediane klasse
Bv: klasse 25,30 = mediane b: bovengrens
klasse mediane klasse
à Mediaan berekend o.b.v. c: cumulatieve
gegroepeerde data is absolute frequentie
van de klasse net
verschillende van mediaan
kleiner dan de
o.b.v. ongegroepeerde data mediane klasse
d: absolute
frequentie mediane
NIET GEVOELIG OUTLIERS klasse
n:
steekproefgrootte
De modus De klasse of waarde met de Allemaal Table()
grootste frequentie.
Meerdere klassen = meerdere
modi.
- 1 modi = verdeling
unimodaal
- 2 modi = verdeling
bimodaal
Gegroepeerde data:
Modale klasse bevat de meeste
personen.
NIET GEVOELIG OUTLIERS
8