STATISTIEK 2
Hoofdstuk 1: Beschrijvende statistiek
1.1. Inleiding
- Beschrijvende statistiek: technieken om gegevens in een steekproef te beschrijven, ordenen,
presenteren en samen te vatten.
- Inductieve statistiek: technieken om observaties te veralgemenen naar de populatie.
1.1.1. Variabelen
Variabele: eigenschap die bij de elementen van de populatie of steekproef varieert.
- Numeriek of niet numeriek: 0/1 of man/vrouw
- Continu of discreet: continu: tussen elke twee willekeurige waarde ligt een derde waarde, oneindig
aantal waarden (bv: lengte in cm, temperatuur), discreet: er kan geen derde waarde tussen liggen,
eindig aantal waarden (bv: aantal kinderen)
- Aangeduid met hoofdletter 𝑋
- Waarnemingen van variabelen met kleine letter 𝑥
1.1.2. Meetniveau
Absolute schaal Variabele wordt gemeten door te tellen + vast nulpunt + Aantal meisjes,
vaste meeteenheid + variabele is discreet gezinsgrootte
Ratioschaal Vast nulpunt + variabele is continu Lengte, gewicht, geldbedrag
in euro, reactietijd
Verhoudingen hebben betekenis: €10 is dubbel zoveel als
€5
Bij interval zijn verhoudingen niet zinnig: temperatuur van 10°C
is niet dubbel zo warm als 5°C, omdat deze uitspraak bij
omzetting naar Fahrenheit niet meer klopt
Intervalschaal Geen vast nulpunt + variabele kan continu of discreet zijn Temperatuur, IQ
Intervallen (verschillen tussen waarden) hebben een
betekenis: stijging van 10°C naar 20°C is evenveel als stijging
van 20°C naar 30°C, dit blijft behouden bij omzetting naar
Fahrenheit: het verschil tussen 68°F en 50°F = verschil tussen
86°F en 68°F
Bij ordinaal niet: verschil in uitslag tussen de eerste (goud) en de
tweede (zilver) hoeft niet gelijk te zijn aan het verschil in uitslag
tussen de tweede en de derde (brons)
Ordinale schaal Waarden kunnen geordend worden (volgorde!) + Uitslag wedstrijd (goud,
variabele kan continu of discreet zijn zilver, brons), officiersgraad
(onderluitenant, luitenant,
Een kleinere waarde wil zeggen dat de atleet beter is (bij kapitein, kapitein-
nominaal heeft volgorde niets te maken met beter/slechter) commandant)
1
, <- c("ja", "neen", "ja"), dan weet R automatisch dat de drie waarden van
de variabele roker van ordinaal of nominaal meetniveau zijn: R weet dat woor-
den (aangeduid door de aanhalingstekens) niet numeriek zijn. Als je R vraagt
om het gemiddelde van de vector te berekenen, dan krijg je een foutmelding:
> mean(roker)
[1] NA
Nominale schaal
Warning message: Waarden zijn slechts namen (variabelen geen numerieke Haarkleur, geslacht,
betekenis)
In mean.default(roker) + noch continu
: argument is not noch discreet
numeric or logical: rekeningnummer
returning NA
Statistische
Als je een technieken voor variabelen
vector aanmaakt van interval-inofGent
van tramnummers rationiveau
met dezijn identiek, daarom worden ze vaak
commando
gegroepeerd
tramnummer onder de noemer:
<- c(1, 21, 22,continue
4, 22, variabelen.
21, 1, 4),Nominale
dan kan R enniet
ordinale
wetenvariabelen
dat worden soms
die getallen de
gegroepeerd waarden
onder van een
de noemer: nominale variabele
categorische variabelen.zijn. Als je R vraagt om
het gemiddelde van de vector te berekenen, dan krijg je geen foutmelding:
R> mean(tramnummer)
[1] 12
R weet automatisch dat woorden (aangeduid door aanhalingstekens) niet numeriek zijn en getallen wel. Om
Omte
aan ditduiden
te vermijden gebruik
dat getallen nietjenumeriek
de functiebeschouwd
factor om mogen
R te zeggen dat (bv.
worden de getallen
tramnummers): functie factor
in de vector als niet numeriek beschouwd moeten worden. Bv.
> tramnummer <- factor( c(1, 21, 22, 4, 22, 21, 1, 4) )
Als je dan probeert het gemiddelde te berekenen, krijg je een foutmelding:
Als je de naam van de vector typt, dan krijg je de vector te zien, maar ook de lijst van verschillende waarden in
> vector.
de mean(tramnummer)
Die waarden noemen we levels.
> tramnummer
[1] NA
[1] 1 21 22 4 22 21 1 4
>Levels:
tramnummer
Warning message:
1 4 21 22
metmean.default(tramnummer)
[1]
In 1elkaar
21 22 vermenigvuldigen
4 22 21 1 4 of door : elkaar delen. Je mag ook de logaritme van
Levels:
een Als
argument 1 4 21
je eenisvector
afwijking 22 wil
berekenen.
not aanmaken
numeric Bij variabelen met waarden
or logical: van een ordinale
van ratiomeetniveau
returning NA zijnvariabele,
er bijna geen dan
gebruik
restricties. je ook Bijde commando
variabelen vanfactor
absoluut maar je gebruiktis bovendien
meetniveau de argumenten
er geen restrictie.
Als je een vector wil aanmaken met waarden van een ordinale variabele, dan
Bijlevels
Als een
gebruik dejeen
je vector naam ordered.
ookvandevan de Voorbeeld:
ordinale
commando vector typt,je
variabelen:
factor dan
maar
wil
functieeen factor,
krijg vector
je
je gebruikt
aanmaken
maar
de vector
bovendienook met
argumenten
te zien,
de maarde ook
argumenten
uitslagen
de en ordered.
levels
van
lijst
1.1.5
levels een
vanen groep
deDe atleten.
verschillende Je gebruikt
in waarden
dataVoorbeeld:
ordered. R je wil deze
in de commando:
eenvector. Die waarden
vector aanmaken metworden “levels”
de uitslagen
genoemd
van een groep in hetatleten.
R jargon. Je gebruikt deze commando:
>Weuitslag
gebruiken <-een factor( c("brons",
fictief voorbeeld met"goud",
8 variabelen "goud", "brons",in"zilver",
waargenomen een steek-
"brons",
>proef
uitslag "brons",
van n<-= factor( 30 FPPW "brons"), levels
studenten."goud",
c("brons", =
De variabelen c( "brons",
"goud", zijn"brons", "zilver",
"zilver", "goud" ),
ordered
>"brons",
roken <- ="brons",
TRUE)
c("Neen", "Neen",levels
"brons"), "Neen",9 = c("Neen","brons", "Ja", "Neen","goud"
"zilver", "Ja",),
"Ja",
ordered – =score
score "Neen", TRUE) op het examen
"Ja", "Neen",statistiek"Ja", "Neen", II "Ja", "Ja", "Ja",
"Neen", Als je de
"Ja", naam van
"Neen", de vector
"Neen", typt,
"Neen", dan krijg
"Neen", je de"Neen",
vector te"Ja", zien, maar ook
1.1.3.
de –Zinvolheid
iq lijst
Als intelligentie-quotiënt
jevan de naam
de van
levels de
en vector
hun typt,
volgorde. dan krijg
Voor je de
sommige vector te
analyses zien,
is maar ook
het belangrijk
"Neen", "Neen", "Neen", "Neen", "Neen", "Neen")
>de
dat lijst
R
opleidingvanvolgorde
de de <-
motivatie –degemeten
levels en hun
van
c("psy", de volgorde.
levels
"psy",
opcorrect
een Likert kent. Voor sommige
"psy", "psy", analyses
"psy", is "ped",
het belangrijk
"psy",
Zinvol:
dat R indien
de"psy",
volgorde bewering
van de "ped",
levels kent. is metschaal van 1 (zeer
een bepaalde laag)
schaal, dan totblijft
7 (zeer hoog) met een andere schaal.
ze correct
"psy", "ped", "psy", "soc", "soc", "ped", "ped",
>geslacht
"psy",uitslag "ped", – geslacht
"psy", van"psy",
de student: "ped", man of vrouw
"ped", "ped", "psy", "psy",
>[1]uitslag
- bronsNominale goud en ordinale
goud variabelen:
brons niet optellen,
zilver brons vermenigvuldigen,
brons brons aftrekken of delen (dus geen
"psy",
[1] brons "psy", goud "psy", goud "ped", brons "psy")zilver brons brons brons
roken
Levels:
>Levels:
gewicht – de student
brons
gemiddelde,
<- c(69, < rookt
zilver
variantie,
64, <96, regelmatig:
< goud
covariantie,
76, 78, 75, ja of neen
correlatie,…)
74, 51, 80, 76, 88, 73,
brons < zilver goud
83, - 86,Interval:
opleiding 73,– 67, niet53,vermenigvuldigen
psychologie, 64, pedagogische
90, 67, 48, of delen,
59, 46, maar
wetenschappen, 59,wel80, afwijkingen
104,werk
sociaal 53,(bv.82, 𝑥# − 𝑥% ) vermenigvuldigen of
61,
1.1.4 69) Zinvolheid
delen
>1.1.4
lengteZinvolheid
gewicht –<-gewicht
c(158,van 170, 180, 156,
de student in kg 176, 174, 162, 147, 168, 170,
Een - Ratio164,
bewering en absoluut: alles magindien
169, 187,
Een bewering ofofuitspraak
uitspraak
169, 174, is is zinvol
159,
zinvol 170,haar
indien haar
163, waarheidswaarde
163, 166, 147,
waarheidswaarde onafhankelijk
173, 156,
onafhankelijk is is
lengte
van
178, de
van de162, – lengte
meetschaal
meetschaal195, 150, van
die de
je student
gebruikt.
154, 182,
die je gebruikt. in m
M.a.w., indien de bewering
158) indien de bewering correct is met een
M.a.w., correct is met een
ctor aan in R, 1.1.4.
bepaalde
bepaalde Dataschaal in R dan
schaal danblijft
blijftzeze correct
correct met meteenin een andere
andere schaal;
schaal; indien indien de bewering
decommando
bewering
rt en met de We gaan
Wat zijn een dedescores
data van voordedit voorbeeld
eerste student opRfout
stoppen.
alle Met de
8 variabelen? kijkt naar ‘c’,
Jeschaal.
fout
fout is met
is met een bepaalde schaal dan blijft ze met een andere
al, basketbal, hetmaken
eerste eenbepaalde
weelement vector
in alleaan
schaal met dandeblijft
8 vectoren scores
en
ze fout
je vindtvan met een andere schaal.
de 127,
16, studenten
4, V, Neen,en wepsy, geven
69 endeze
al, zwemmen, Vector aanmaken:
Voorbeeld:
Voorbeeld: commando
dedegemiddelde
gemiddelde ‘c’leeftijd
leeftijd in
in groep groep A isAgroter
is groter
dan dan in groep
in groep 2. Stel 2. Stel
ton, voetbal. vector
158. Voorde naamjou is hetscore. gemakkelijk omdat je weet dat alle 8 vectoren betrekking
dat deze
dat deze bewering
beweringjuist juistis iswanneer
wanneer we we de de leeftijd
leeftijd in jaar
in jaar uitdrukken.
uitdrukken. Dan is Dan is
hebben op dezelfde 30 studenten. Maar R weet het niet. We hebben het niet
ze
ze> ook correct
ook
score correct
<- alsalswewede
c(16, deleeftijd
10, leeftijd
11, in
14, in maanden
maanden
8, 18, of eeuwen
of 13,
eeuwen 9, of
11, of10,seconden
seconden 5, uitdrukken.
uitdrukken.
14, 11, 11,
expliciet aan R gezegd. Voor R zijn er 8 vectoren met lengte 30, maar ze hebben
Deze
Deze
0, bewering
18,bewering
19, isisdus
18, dus
9, zinvol.
zinvol.
6, 4, 18, 9, 20, 3, 6, 11, 6, 16, 18)
misschien betrekking op 8 verschillende steekproeven met grootte 30. We gaan
Voorbeeld:
Voorbeeld: de gemiddelde temperatuur in Gent in Februari is dubbel zo zo
nu de 8 vectorendeingemiddelde een grotere temperatuur
structuur zetten in Gent(een in data Februari
frame) is dubbel
zodat het
Probeer
groot als
groot als voor niet
in al
Helsinki.
in Helsinki.die commando’s
Stel dat
Steldat deze
datde deze in R
bewering zelf te
juist
beweringbetrekking typen.
is wanneer
juist is wanneerZe zijn
we de veel te
temperatuur
weopdedezelfdelang.
temperatuur Bin-
duidelijk
8in verschillende R zal
vectoren zijn in een 8
grotere vectoren
structuur zetten hebben
(een data frame): 30
commando
Celsius
nenkort
in Celsius gradengraden
krijg je uitdrukken.
wel eenvoudige
uitdrukken. Ze is Rfout
Ze is fout indien
oefeningen. we deWetemperatuur
maken
indien we deentemperatuur in
nieuwe Fahrenheit
vectoren
in de
Fahrenheit aan ‘data.frame’. We geven
studenten. We gebruiken de commando ‘data.frame’ tussen haakjes naam
de data
graden
met
graden deframe
van Voorbeeld:
uitdrukken.
andere de
uitdrukken.
de 8 vectoren.
naamDeze
variabelen.
Deze bewering
myData.
We geven de bewering is dus
naam is duszinloos.
zinloos.
ctor aan in R,
de gemiddelde score op de Likertaan
myData deze“intrinsieke
schaal data frame. motivatie”
erwijs en met Voorbeeld:
> groter
iq <-inc(127, de gemiddelde score op de Likert schaal “intrinsieke motivatie”
SO, ASO, TSO, is groep 1 125, dan in138, groep104, 2. Stel118, 132,bewering
dat deze 121, 120, juist 82, 103,
is wanneer 145,
we
>is myData
groter in <-groep 1 dan
data.frame(score, in groep 2.iq,Stel dat
motivatie,deze bewering
geslacht, juist is
roken,wanneer we
O, TSO, ASO. de119,
vijf 109,
niveaus 111,van 128, 133, coderen
deze schaal 128, 94, 86, 1,
d.m.v. 119,2, 3,126,
4 en 106,
5. Ze 90, hoeft119,niet
opleiding,
de vijf niveaus gewicht,
van deze lengte)
schaal coderen d.m.v. 1, 2, 3, 4 en 5. Ze hoeft niet
correct
116, 133, te zijn119, indien 106,we de 139, vijf 122)
niveaus coderen d.m.v. 0, 2, 3, 4 en 6. Deze
correct teis zijn
bewering dus indien we de vijf niveaus coderen d.m.v. 0, 2, 3, 4 en 6. Deze
zinloos.
Om te begrijpen wat er gebeurd is, 2,
> motivatie <- factor( c(4, typ1, 6, 5, 5,en 5,
je ‘myData’ 6, 1,als6,output
je krijgt 5, 2, 7, 5,
Om bewering is duswat zinloos.
5, te5,begrijpen
Om zinloze
6, 5, beweringen
5, 2, gebeurd
3, 7, te is,1,typ1,je 1,
vermijden ‘myData’:
moet
3, 2, je voorzichtig
7, 2, 6),zijn bij het mani-
>pulerenOm van
myData zinlozescores.beweringen
Bij3, nominale te vermijden moet je voorzichtig zijn bij hetnietmani-
levels = c( 1, 2, 4, 5, en 6,ordinale
7 ), ordered variabelen = mag
TRUE) je de scores
puleren
score
optellen vanmet
of iqscores.
motivatie
elkaar Bij nominale
geslacht
vermenigvuldigen en roken
ordinale
of uit variabelen
opleiding
elkaar mag
gewicht
aftrekken of je de elkaar
lengte
door scores niet
> geslacht <- c("V", "V", "V", "M", "M", "V", "V", "V", "M", "M",
optellen
1delen. 16of127 met gemiddelde,
elkaar vermenigvuldigen of uit elkaar aftrekken 69Bijofvariabe-
door elkaar
"M", "V",Dus "V", "V", 4"V",
geen "M",V "V",
variantie, Neen
covariantie, psy "M",
"M", correlatie,
"M", enz. "M", 158 "V",
"M",
delen.
2len van 10Dus geen gemiddelde,
intervalmeetniveau
125 2mag variantie,
je de Vscores covariantie,
Neen optellen enpsy correlatie,
uit enz. Bij
elkaar aftrekken.
64 170variabe-
De
"V", "V", "V", "V", "M", "M", "M")
len vandoor
3scores 11intervalmeetniveau
elkaar delen of1 met
138 mag je de
elkaar scores
Neen optellenpsy
V vermenigvuldigen en uit elkaar
is riskant. aftrekken.
96Logaritmes
180 De 2
4van
scores scores
14
Heb je door zijn
104 verboden.
elkaar delen of met
de aanhalingstekens 6 Je mag
opgemerkt?wel
M deNeenafwijkingen
elkaar vermenigvuldigen (bv.
psy
Zonder aanhalingstekens xis x
76
1 riskant.
2 of x
zou 156 x̄)
Logaritmes
i R denken
5van en8 M118
dat Vscores zijn
de namenverboden. van5 tweeJe mag Mwel de
variabelen Ja afwijkingen
zijn, zoals psyiq(bv. x78
of motivatie.
1 x2 176of xHebi x̄)
je
6ook de18 132 5 V Neen
functie factor opgemerkt bij het aanmaken van de vector motivatie? ped 75 174