Samenvatting
Statistiek
1
Hoofdstuk
1:
Introduction
and
basic
concepts
Een
paar
basisbegrippen
van
statistiek:
• Population:
de
complete
groep
(bestaande
uit
losstaande
‘elements’)
die
onderzocht
wordt
• Sample:
een
voorbeeld
(groepje)
van/uit
de
originele
populatie
dat
men
gebruikt
om
representatieve
informatie
te
onderzoeken
van
een
onmeetbaar
grote
groep`
• Measurements/data:
de
meetgegevens
van
de
groep
over
het
te
bestuderen
verschijnsel
• Data
(van
samples)
moeten
worden
verzameld
en
opgesomd,
pas
daarna
gaat
men
onderzoeken
welke
conclusies
er
voor
de
hele
populatie
getrokken
kunnen
worden
• Elements:
de
objecten
die
in
het
onderzoek
gebruikt
worden
(bijvoorbeeld
mensen
of
evenementen)
en
deze
objecten
kunnen
aan
de
hand
van
een
karakteristiek
met
elkaar
vergeleken
worden
(bijvoorbeeld
leeftijd)
• Metingen
worden
uitgedrukt
in
(population)
variabelen
die
de
waarde
van
de
karakteristiek
weergeven
en
die
van
waarde
veranderen
als
de
uitkomst
van
de
meting
verandert.
Metingen
worden
ook
wel
observatie(waardes)
,
of
data(punten)
genoemd
• Het
principe
van
Inferential
statistics
stelt
dat
je
bij
het
bekijken
van
een
zeer
grote
groep
een
‘sample’
moet
nemen
en
aan
de
hand
daarvan
een
conclusie
voor
de
hele
groep
moet
trekken.
Descriptive
statistics:
• Het
verzamelen
en
ordenen
van
data,
om
deze
vervolgens
weer
te
geven
in
tabellen
of
grafieken
en
er
‘distinctive
numbers’
(oftewel
statistics)
mee
te
bepalen
(bijvoorbeeld
de
variantie
berekenen).
Statistics
meten
iets
van
de
gehele
groep.
Probability
(theory):
• Bestudeert
het
gedrag
en
de
regels
van
kansberekening,
waarbij
er
in
experimenten
vaak
meerdere
uitkomsten
met
bijbehorende
kansen
mogelijk
zijn.
Als
je
bijvoorbeeld
een
methode
voor
het
verzamelen
van
data
wilt
kiezen,
kijk
je
naar
de
methode
met
in
dit
geval
de
grootste
kans
op
een
volledige
en
goede
meting.
Sampling
theory:
• Bestudeert
de
verschillende
methodes
om
uit
een
grote
groep
een
voorbeeld
groepje
te
selecteren,
bijvoorbeeld
‘random
sampling’,
waarbij
ieder
individu
uit
de
populatie
een
gelijke
kans
heeft
om
als
voorbeeld
gekozen
te
worden.
Inferential
statistics:
• Verstrekt
en
bestudeert
de
mogelijkheden
om
conclusies
te
trekken
over
de
gehele
populatie
aan
de
hand
van
‘distinctive
numbers’
(zoals
het
gemiddelde)
van
de
voorbeeldgroep.
‘Qualitative/categorical
variable’:
• Een
variabele
die
niet
met
getallen
meet,
maar
in
vastgelegde
categorieën
(bijvoorbeeld
kledingmaten),
een
variabele
met
twee
categorieën
wordt
een
alternatieve/’dichotomous’
variabele
genoemd
en
een
variabele
met
categorieën
één
en
nul
heet
een
dummy
variabele
• Kwalitatieve
variabelen
kunnen
onderverdeeld
worden
in
twee
soorten:
nominal
(categorieën
zijn
niet
boven
of
onder
elkaar
te
rangschikken)
en
ordinal
(categorieën
zijn
wel
te
rangschikken,
zoals
kledingmaten)
• Een
‘Quantitative/numerical
variable’
meet
wel
in
getallen
en
niet
in
categorieën,
de
dummy
variabele
zit
dus
tussen
qualitative
en
quantitative
in.
• Variabelen
meten
de
waarde
van
een
individu
en
geven
geen
kennis
over
de
gehele
groep
,
Discreet/continu:
• Een
discrete
variabele
verandert
stapsgewijs
doordat
er
bijvoorbeeld
alleen
maar
hele
getallen
als
waarde
mogelijk
zijn.
Bij
een
continue
variabele
zijn
alle
waardes
mogelijk,
waardoor
alle
waardes
vloeiend
in
elkaar
overlopen
(bij
een
grafische
weergave).
Er
wordt
binnen
de
statistische
wetenschap
aangenomen
dat
onderzochte
waarden
meestal
continu
zijn,
de
waardes
zijn
dus
te
meten
in
meer
dan
twee
decimalen.
Interval-‐
of
ratio-‐variabele:
• Een
interval-‐variabele
is
een
variabele
waarvan
de
ratio
van
twee
verschillende
waarden
van
een
kwantitatieve
variabele
betekenisloos
is
en
een
ratio-‐variabele
is
een
variabele
waarbij
dit
ratio
van
twee
variabelen
wel
wat
betekent.
Census:
• Een
onderzoek
waarbij
alle
elementen
van
de
populatie
onderzocht
worden,
de
dataset
wordt
dan
een
population
dataset
genoemd
(als
er
alleen
een
sample
wordt
gebruikt,
is
er
sprake
van
een
sample
dataset)
Parameters:
• Statistics
van
de
populatie
worden
ook
wel
zo
genoemd
als
deze
statistic
bepaald
is
aan
de
hand
van
een
klein
deel
van
de
totale
populatie
Notatie:
• Een
statistic
wordt
vaak
met
een
Griekse
letter
weergegeven
• De
grootte
van
de
populatie
wordt
met
N
weergegeven
en
de
grootte
van
‘samples’
wordt
met
n
weergegeven
Hoofdstuk
2:
Tables
and
graphs:
Nominale
variabelen:
• De
(absolute)
frequentie
is
het
aantal
keer
dat
een
waarde
voorkomt
in
de
dataset,
de
relatieve
frequentie
is
de
absolute
frequentie
gedeeld
door
het
totaal
aantal
waarnemingen
en
het
percentage
t.o.v.
van
het
totaal
is
de
relatieve
frequentie
maal
100
• Een
frequentie
distributie
is
het
kwantitatieve
overzicht
van
de
spreiding
van
de
frequenties,
dit
kan
ook
voor
de
relatieve
frequentie
• Een
bar
chart
geeft
in
een
staafdiagram
de
spreiding
weer
van
de
dataset,
hierbij
representeert
zowel
de
hoogte
als
de
oppervlakte
van
de
staven
de
(relatieve)
frequentie
• Pie
charts
geven
ook
een
overzicht
over
de
grootte
van
verschillende
categorieën
door
iedere
categorie
een
bepaald
aandeel
van
de
totale
cirkel
te
geven
aan
de
hand
van
de
relatieve
grootte
van
die
categorie
• Een
legend
bevat
informatie
over
de
kleuren
en
het
arceren
van
weergegeven
diagrammen
Ordinale
variabelen:
• Ook
hier
kan
weer
de
verdeling
van
de
(relatieve)
frequenties
weergegeven
worden
met
een
bar
of
pie
chart,
maar
de
frequenties
zijn
nu
ook
te
ordenen,
waardoor
ook
de
cumulatieve
frequentie
berekend
kan
worden
door
de
relatieve
frequenties
tot
aan
die
categorie
op
te
tellen
(je
weet
dan
hoeveel
procent
in
die
categorie
en
de
lagere
categorieën
valt)
• Het
overzicht
van
de
spreiding
van
verschillende
waarden
met
hun
(relatieve)
frequenties,
wordt
hier
dan
de
cumulatieve
(relatieve)
frequentie
verdeling
genoemd
• De
Likert
scale
gebruikt
vijf
punten
die
de
respondent
in
het
onderzoek
kan
kiezen
om
zijn
tevredenheid
weer
te
geven
(de
Likert
scale
is
dus
een
schaal
bestaande
uit
vijf
categorieën)
, Kwantitatieve
variabelen:
• Wanneer
je
een
dergelijke
variabele
gaat
plotten,
gebruik
je
bij
een
discrete
variabele
meestal
een
klasse
bestaande
uit
één
waarde,
terwijl
je
bij
een
continue
variabele
vaak
een
bepaald
interval
neemt
(dus
meerdere
waardes)
als
klasse/categorie
• Naast
alle
eerder
genoemde
weergavemethodes
voor
een
dataset,
is
het
bij
kwantitatieve
variabelen
mogelijk
om
de
waardes
die
in
de
dataset
direct
(en
dus
niet
als
frequentie)
weer
te
geven
in
een
grafiek
via
puntjes
op
een
horizontale
lijn
waar
alle
mogelijke
waardes
op
passen
(een
dergelijke
grafiek
heet
een
dotplot)
• Bij
discrete
variabelen
zijn
er
vaak
maar
een
beperkt
aantal
waardes
en
dus
klassen
mogelijk:
men
kan
bijvoorbeeld
niet
vaak
meer
dan
30
kinderen
krijgen.
Je
kunt
dan
bijvoorbeeld
wel
kiezen
voor
een
extra
klasse
die
dan
een
huishouden
met
meer
dan
30
kinderen,
dus
de
restwaardes,
weergeeft.
Verder
kun
je
alle
hiervoor
behandelde
weergavemethodes
ook
voor
de
discrete
variabelen
gebruiken.
• De
Cumulatieve
distributie
functie
(cdf)
voor
een
discrete
variabele
F(b)
geeft
de
relatieve
frequentie
van
de
observaties
kleiner
of
gelijk
aan
b
weer
en
heeft
de
volgende
eigenschappen:
het
is
een
niet
afnemende
stapfunctie,
de
overgang
naar
een
andere
waarde
gebeurt
middels
een
sprong
en
de
grootte
van
die
sprong
is
gelijk
aan
de
relatieve
frequentie
van
die
waarde
• Bij
een
klasse
van
een
continue
variabele
weergegeven
door
(2,3],
doet
de
3
wel,
maar
de
2
niet
mee,
bij
de
klasse
[2,3)
is
het
juist
andersom.
Dit
onderscheid
is
nodig
om
een
categoriaal
systeem
te
vormen
(hierbij
zijn
alle
mogelijke
waardes
door
middel
van
classificatie
vertegenwoordigt
in
klassen
die
elkaar
niet
overlappen)
• Een
frequentieverdeling
van
de
gekozen
classificatie
en
bijbehorende
frequenties
wordt
ook
wel
de
‘classified
frequency
distribution’
genoemd,
die
d.m.v.
een
histogram
met
aan
elkaar
grenzende
staven
kan
worden
weergegeven
(met
losse
staven
is
een
bar
chart).
Als
de
klassenbreedtes
wisselen
moet
de
hoogte
van
de
staaf
(dus
de
relatieve
frequentie
van
die
klasse)
worden
bepaald
door
de
(relatieve)
frequenties
te
delen
door
de
bijbehorende
klassenbreedtes
• De
‘frequency
density’
van
een
classificatie
van
data
van
een
continue
variabele
combineert
alle
klassen
met
het
ratio
van
de
relatieve
frequentie
en
de
klassenbreedte
en
geeft
zo
een
overzicht
van
de
spreiding
• De
cdf
bij
een
continue
variabele:
Om
de
cumulatieve
frequentie
in
een
bepaald
punt
te
weten
moet
je
de
methode
van
lineaire
interpolatie
toepassen
(aan
de
hand
van
de
waarde
bij
het
begin-‐
en
eindpunt
van
de
klasse,
kun
je
als
je
de
verdeling
binnen
de
klasse
lineair
veronderstelt,
de
waarde
berekenen
voor
een
punt
dat
ergens
midden
in
een
klasse
valt)
Cross-‐sectional
data:
• Datasets
die
gebaseerd
zijn
op
metingen
die
gedaan
zijn
op
één
moment/een
kort
tijdsbestek
Time
series
data:
• Data
waarbij
één
variabele
gemeten
wordt
op
verschillende
momenten,
de
reeks
getallen
wordt
dan
een
time
series
genoemd,
waarmee
je
de
ontwikkeling
van
de
waarde
van
de
variabele
in
kwestie
kunt
zien.
Als
je
die
ontwikkeling
van
waardes
in
een
grafiek
weergeeft
met
de
hoogte
van
de
waarde
op
de
y-‐as
en
de
tijd
op
de
x-‐as,
heb
je
een
time
plot
gemaakt
Hoofdstuk
3:
Measures
of
location:
Measures
of
location:
• Geven
het
centrale
punt
en
de
verdeling
van
een
dataset
weer
• Voorbeelden
zijn
de
mediaan,
het
gemiddelde
en
de
modus