Opleidings- en onderwijswetenschappen
STATISTIEK A Universiteit Antwerpen
academiejaar 2024-2025
Statistiek heeft drie belangrijke betekenissen:
1. Data: De gegevens die worden verzameld.
2. Bewerkingen op data: De processen die worden toegepast om gegevens te analyseren.
3. Wetenschap: Het vakgebied dat zich richt op het werken met en begrijpen van data.
Statistiek is de wetenschap die zich bezighoudt met het verzamelen, organiseren, presenteren,
analyseren en interpreteren van gegevens volgens een logische, numerieke aanpak.
Daarnaast heeft statistiek drie belangrijke functies:
1. Beschrijven: Het samenvatten van de kenmerken van een dataset, zodat patronen en trends zichtbaar worden.
2. Verklaren: Het ontwikkelen van een statistisch model. Dit model is een vereenvoudigde weergave van de realiteit waarin wordt beschreven hoe een situatie gemiddeld
werkt of hoe deze in probabilistische termen kan worden begrepen.
3. Voorspellen: Het doen van voorspellingen over toekomstige gebeurtenissen. Deze voorspellingen zijn niet exact of definitief, maar geven eerder kansen aan op basis van
de beschikbare gegevens.
Statistiek wordt bijgevolg traditioneel ingedeeld in twee hoofdsoorten:
1. Beschrijvende statistiek:
Richt zich op het samenvatten en presenteren van gegevens.
Het doel is om inzichten te bieden in de dataset door middel van tabellen, grafieken, en samenvattende statistieken zoals gemiddelden, mediaan, spreiding,
enzovoort.
Dit type statistiek analyseert alleen de gegeven dataset en doet geen uitspraken over een grotere populatie.
Voorbeeld: Het berekenen van de gemiddelde leeftijd van studenten in een klas.
2. Inferentiële statistiek:
Richt zich op het trekken van conclusies over een populatie op basis van een steekproef.
Het doel is om patronen of voorspellingen te maken die verder gaan dan de geanalyseerde data, met behulp van kansrekening en statistische modellen.
Dit type statistiek houdt rekening met onzekerheid en geeft schattingen, betrouwbaarheidsintervallen, en significante verbanden.
Voorbeeld: Het inschatten van de gemiddelde leeftijd van alle studenten in een universiteit op basis van een steekproef.
,VARIABELEN EN HUN MEETNIVEAU
Tellingen: aantal auto’s in de Metingen: tijd die persoon over
Bijvoorbeeld
straat marathon doet
Een discrete variabele neemt
Een continue variabele kan elke
alleen bepaalde, afzonderlijke
waarde aannemen binnen een
waarden aan. Er zijn geen Omschrijving
bepaald bereik. Er zijn oneindig
kwalitatieve variabelen tussenliggende waarden
veel mogelijke waarden.
mogelijk.
=
categorische variabelen discreet continue Meetniveau
kwantitatieve variabelen
=
numerieke variabelen
Meetniveau nominaal ordinaal interval ratio
Totale orde? -
Meeteenheid? - -
Absoluut nulpunt? - - -
kleur ogen, score op 5 punts Likert schaal,
temperatuur in °C IQ-scores, lichaamsgewicht, inkomen in
Bijvoorbeeld besturingssystemen, geslacht, onderwijsniveau (lager,
jaartelling euro, afstand in kilometer
politieke voorkeur middelbaar, hoger)
In R Studio: factor factor, ordered = TRUE numeric
Modus - Mediaan - Gemiddelde
Modus - Mediaan - Gemiddelde
Kwantielen - Variatiebreedte
Kwantielen - Variatiebreedte
Interkwartiel- of
Modus - Mediaan - Kwantielen Interkwartiel- of
interdecielafstand
Wat kan je berekenen? Modus Interkwartiel- of interdecielafstand
Gemiddelde absomute
interdecielafstand Gemiddelde absomute
afwijking
afwijking
Variantie -Standaardafwijking
, Dataframe
DATABEHEER IN R
AANMAKEN VAN DATA IN
Vector
Namen <- c(“Sofie”, “Vincent”, “Ellen”, “Bea”)
# de waarden tussen de haakjes samenvoegen tot
# een vector en wegschrijven in de variabele Namen
seq(5, 15 , 0.5) # reeks opeenvolgende cijfers te maken
# 5= min, 15= max, 0.5= stapgrootte
rep (c(‘Ned’,’Bel’),c(3,2)) WERKEN MET EEN DATAFRAME IN
# de eerste 3 waarden krijgen de waarde Ned
# en de laatste 2 krijgen de waarde Bel.
fix(Dataframe)
#eenvoudige spreadsheet-achtige interface om snel wijzigingen aan
te brengen in een dataframe of ander object. Het is vooral handig
AANMAKEN VAN DATAFRAME IN voor kleine correcties of aanpassingen.
NaamBestand <-data.frame(vector, vector, vector, ...) Dataframe$Variabele
#bepaalde variabele selecteren uit dataframe
, SOORTEN VECTOREN IN R
SOORTEN VECTOREN IN
Numerieke vector Karaktervector Logische vector Complexe vector Factor vector
numeric character logical complex factor
Waarden:
Waarden:
Bevat categorische data, zoals
Bevat tekst (strings), zoals
"rood", "blauw", "groen".
namen, beschrijvingen of labels.
Waarden worden intern
Waarden staan altijd tussen
opgeslagen als integers, met elk
dubbele (") of enkele (')
een bijbehorend label (levels).
Subtypes: aanhalingstekens.
Waarden: Waarden: Voorbeelden:
Integer (gehele getallen): Voorbeelden: "Jan", "groen", "2023",
Bevat alleen TRUE, FALSE of NA Bevat getallen met een reëel Nominaal (geen volgorde): "rood",
worden aangegeven met een L "123" (opgeslagen als tekst, niet als
(indien niet ingevuld). deel en een imaginair deel, zoals "blauw", "groen".
achter het getal, bijvoorbeeld 1L. getal).
Wordt vaak gebruikt in 3 + 4i. Ordinaal (met volgorde): "laag",
Double (decimale getallen): Kenmerken:
voorwaarden en filters, zoals in Kenmerken: "middel", "hoog".
standaard in R als je met getallen Kan elke tekst bevatten, zelfs
if-statements. Complexe getallen zijn handig bij Kenmerken:
werkt zonder expliciet een numerieke data die als tekst
Kenmerken: wetenschappelijke berekeningen Speciaal ontworpen voor
integer te definiëren. wordt ingevoerd.
Kan direct worden gebruikt in en in specifieke wiskundige statistische analyses met
Kenmerken: Geschikt voor vrije
logische operaties zoals & (AND), toepassingen. categorische gegevens.
Kan zowel positieve als tekstmanipulatie en niet-
| (OR) en ! (NOT). Ondersteunt complexe operaties Maakt onderscheid tussen
negatieve getallen bevatten. categorische gegevens.
Logische waarden worden bij zoals nemen van modulus unieke categorieën via de levels.
Ondersteunt numerieke Ondersteunt veel bewerkingen,
numerieke operaties (Mod(z)), argument (Arg(z)), of Ordinale factoren behouden een
operaties zoals optellen, zoals samenvoegen (paste()),
automatisch geconverteerd: conjugaat (Conj(z)). volgorde (belangrijk voor
aftrekken, vermenigvuldigen, zoeken naar patronen (grep()), of
TRUE = 1 en FALSE = 0. analyses).
etc. omzetten naar hoofdletters
Niet flexibel voor
(toupper()).
tekstbewerking, maar erg
Karaktervectoren kunnen direct
krachtig voor analyses.
worden gecombineerd in een
Levels kunnen worden
nieuwe vector.
aangepast of geherordend.
numerieke data tekstuele data booleaanse data complexe data categorische data
, VARIABELEN EN HUN FREQUENTIEVERDELING
nominaal, ordinaal & Interval & ratio nominaal, ordinaal & Interval & ratio ordinaal & Interval & ratio ordinaal & Interval & ratio
absolute frequentie relatieve frequentie absolute relatieve
cumulatieve frequentie cumulatieve frequentie
Het aantal keer dat een bepaalde Het aantal keer dat een bepaalde Het percentage van waarnemingen waarbij
Het aantal keer dat een bepaalde waarde
waarde (x) voorkomt in de waarde (x) voorkomt in de een bepaalde waarde (x) of een lagere
(x) of een lagere waarde voorkomt in de
meetresultaten. meetresultaten, uitgedrukt in waarde voorkomt in de meetresultaten,
meetresultaten. Het is de opeenstapeling
procenten. uitgedrukt in procenten. Het is de
van absolutefrequenties tot en met een
Notatie: opeenstapeling van relatieve frequenties
bepaalde waarde
Notatie: tot en met een bepaalde waarde, uitgedrukt
n komt van number als een percentage van het totaal aantal
Notatie:
i geeft aan welke waarde uit de f komt van frequency waarnemingen.
geordende rij wordt bedoeld i geeft aan welke waarde uit de
c komt van cumulatief
geordende rij wordt bedoeld Notatie:
i geeft aan welke waarde uit de
Bijvoorbeeld:
geordende rij wordt bedoeld
Bijvoorbeeld: c’ komt van cumulatief
i geeft aan welke waarde uit de
Bijvoorbeeld:
geordende rij wordt bedoeld
De waarde die op de 11e plaats staat
in een geordende rij, komt 5 x voor. De waarde die op de 4e plaats staat Bijvoorbeeld:
in een geordende rij, komt 5 x voor.
De eerste zes waarden in de geordende
Interpretatie: Bijvoorbeeld: Er zijn 5
reeks komen samen 24 keer voor. Alle
werknemers in het bedrijf die score Interpretatie: Bijvoorbeeld: 22% van
waarnemingen met een waarde lager dan
11 hebben aangeduid in het alle werknemers in het bedrijf heeft De eerste zeven waarden in de geordende
of gelijk aan de 6e waarde komen in totaal
tevredenheidsonderzoek. score 4 aangeduid in het reeks vertegenwoordigen samen 68% van
24 keer voor.
tevredenheidsonderzoek. de waarnemingen. Dit betekent dat 68% van
Eigenschappen: alle waarnemingen een waarde heeft die
Interpretatie: Bijvoorbeeld: Er zijn 24
Wanneer we alle absolute waarden Eigenschappen: lager dan of gelijk aan de 7e waarde is.
werknemers in het bedrijf die score 6
optellen, bekomen we het totaal Wanneer we alle relatieve waarden
hebben aangeduid in het
aantal respondenten. optellen, bekomen we 100% Interpretatie: Bijvoorbeeld: 68% van alle
tevredenheidsonderzoek.
werknemers in het bedrijf vulde score 7 of
minder in tijdens tevredenheidsonderzoek.
Eigenschappen:
De absolute cumulatieve frequentie van de
Eigenschappen: de relatieve cumulatieve
hoogste meetwaarde is altijd gelijk aan het
frequentie van de hoogste meetwaarde is
aantal respondenten.
altijd gelijk aan 1 of 100%
,
geordende waarden uit
dataset
absolute frequentie
relatieve frequentie
absolute
cumulatieve frequentie
FREQUENTIETABEL
relatieve
cumulatieve frequentie
indexnummer
geordende waarden uit
dataset
absolute frequentie
Frequentietabel in
relatieve frequentie
absolute
cumulatieve frequentie
relatieve
cumulatieve frequentie
Werkt alleen als OLP-
freqtabel(Dataframe$Variabele) functies zijn ingeladen!