Samenvatting Inleiding Statistiek
Gebaseerd op de hoorcolleges 2019/2020
College 1
Meetniveau
Het meetniveau van een variabele bepaalt wat voor betekenis de nummers die we
toewijzen hebben. De niveaus zijn cumulatief: elk niveau heeft de eigenschappen
van de vorige niveaus. Het meetniveau van een random variabele bepaalt wat voor
analyses je er beter wel/niet op kan uitvoeren. Er zijn 4 niveaus:
- Bij nominale variabelen worden mutueel exclusieve getallen toegeschreven aan
mutueel exclusieve uitkomsten 🡪 Geslacht: man, vrouw (0, 1) ; Nationaliteit:
Nederlands, Duits, Grieks, Pools, etc. (0, 1, 2, 3, etc.) ; Teamnaam: rocket, galactic,
magma (0, 1, 2).
- Bij ordinale variabelen is er daarnaast ook een betekenisvolle ordening in de
mogelijke uitkomsten 🡪 Dosering: laag, medium, hoog (0, 1, 2) ; Rangen: 1e plaats,
tweede plaats, derde plaats (0, 1, 2) ; Likert schalen: Zeer oneens, oneens, neutraal,
mee eens, zeer eens (0,1,2,3,4) ; Leeftijdscategorieën: 9-13, 14-18, 19-30, etc.
(0,1,2, etc.).
- Interval variabelen hebben dan ook nog intervallen die betekenisvol en van
dezelfde grootte zijn tussen elk van de geordende uitkomsten 🡪 temperatuur in
graden Celsius.
- Als laatste hebben ratio variabelen ook een absoluut nulpunt: 0 betekent dat de
eigenschap afwezig is 🡪 Dosering drug in milligram: 0 mg, 1 mg, 2 mg, etc. (0 mg =
geen drug) ; Lengte in cm (0 cm = geen lengte) ; Temperatuur op de kelvin schaal (0
graden = geen temperatuur).
Types variabelen
Er zijn twee types random variabelen die bepalen wat voor analyse er beter wel/niet
op uit kunnen worden gevoerd:
- Discrete Random Variabelen: de mogelijke uitkomsten voor de variabelen zijn te
vangen in een eindige, telbare lijst van waarden. Voorbeelden: aantal kinderen per
gezin, dosering categorieën ( laag, medium, hoog), sekse categorieën (man, vrouw),
en categorieën voor haarkleur (blond, bruin, rood, etc.).
- Continue random variabelen: de mogelijke uitkomsten van de variabele kunnen elke
waarde aannemen binnen een bepaald interval. Voorbeelden: leeftijd (geen
categorieën), ml gedronken alcohol, dosering in grammen (geen categorieën),
lengte, sekse schalen (van vrouwelijk tot mannelijk).
Beschrijvende statistiek
Voor het samenvatten van variabelen en hun kansverdelingen in een paar getallen
gebruiken we centrummaten.
- Modus: de uitkomst die het vaakst voorkomt, d.w.z., de uitkomst met de hoogste
frequentie. 2, 4, 7, 7, 8 🡪 dus 7
- Mediaan: de waarde die de hoogste helft van de data scheidt van de laagste helft
van de data. 50% van de data ligt boven deze waarde, en 50% ligt onder deze
waarde. 2, 4, 7, 9, 10 🡪 dus 7
- Gemiddelde: tel eerst alle observaties voor variabele X op (neem de som van X).
,Bepaal het totale aantal observaties, we noemen dat N (populatie) of n (steekproef).
Deel de som door het totale aantal observaties van stap. Notatie: μ, voor het
gemiddelde van een populatie en X̄ voor het gemiddelde van een steekproef. De
som van de deviaties (X-𝜇) is altijd 0!
𝑁
𝛴 𝑋𝑖
Formule: X̄ = 𝑖=1
.
𝑁
Spreidingsmaten beschrijven de variatie/spreiding van een variabele.
- Bereik: het verschil tussen de laagste en hoogste waarde van de variabele.
- Variantie: de gemiddelde gekwadrateerde afwijking (deviatie) van het gemiddelde.
Voor elke observatie bereken je de afwijking (deviatie (X-𝜇)) van het gemiddelde.
Kwadrateer alle deviaties die je hebt berekend en neem vervolgens de som van alle
gekwadrateerde deviaties. Bepaal het totaal aantal observaties, we noemen dat
aantal n of N. Deel de som van de gekwadrateerde deviaties door het totaal aantal
observaties. Notatie: σ voor de populatie en s voor de steekproef.
𝑁
𝛴 (𝑋−𝜇)2
De formule: σ2 = 1
bij de steekproef is het dus s en moet de noemer N-1 zijn!
𝑁
- Standaard deviatie, de wortel van de variantie. Handig om te hebben omdat het
uitgedrukt wordt in dezelfde eenheden als de observaties, i.p.v. die kwadraten in de
variantie.
De formule: √σ2
College 2
Kansverdelingen
Frequentieverdelingen tonen hoe vaak een uitkomst is geobserveerd.
Kansverdelingen tonen de relatieve frequentie van de uitkomst; hoe vaak de uitkomst
voorkomt in verhouding tot het totale aantal observaties. Kansverdelingen laten de
kans zien op elke mogelijke uitkomst voor een random variabele. Deze kansen
moeten altijd optellen tot 1! Kansen worden op de y-as gezet en uitkomsten van de
variabele op de x-as. Notatie voor de kans van een bepaalde uitkomst: P(x=uitkomst)
of korter P(uitkomst).
Kansregels discreet
- Een kans is altijd tussen 0 en 1.
- De kansen voor alle uitkomsten voor een variabele tellen samen op tot 1.
- Voor mutueel exclusieve gebeurtenissen A en B: P(A of B) = P(A) + P(B),
bijvoorbeeld:
P(Aas of Heer) = P(Aas) + P(Heer) = 4/52 + 4/52 = 8/52= .153
P(klaveren, ruiten of schoppen) = P(klaveren) + P(ruiten) + P(schoppen) = .25 + .25
+ .25 = .75
- Complementregel: P(A) = 1 -P(NIET A), bijvoorbeeld:
P(harten) = 1 –P(NIET harten) = 1-P(klaveren, schoppen, ruiten)= 1 –.75 = .25
- Voor NIET-mutueel exclusieve gebeurtenissen A en B: P(A of B) = P(A) + P(B) –
P(A én B), bijvoorbeeld:
P(harten of dame)= P(harten) + P(dame) – P(Harten én dame) = 13/52 + 4/52 –1/52
= 16/52
,Kansregels continu
- Een kans is altijd tussen de 0 en 1. De oppervlakte onder de curve is de kans.
- De totale oppervlakte onder de curve is gelijk aan 1.
- De kans op een specifieke uitkomst is gelijk aan 0. P( leeftijd = 25) = 0. We werken
daarom met intervallen van uitkomsten.
P( leeftijd > 35) = .15
P(leeftijd tussen de 25 en 35) = .25
- Voor mutueel exclusieve gebeurtenissen A en B: P(A of B) = P(A) + P(B),
bijvoorbeeld:
P( leeftijd 15 tot 25 of leeftijd 25 tot 35 ) = P(leeftijd 15 tot 25 )+ P(leeftijd 25 tot 35 ) =
0.6+ 0.25= .85
- Complementregel: P(A) = 1 -P(NIET A), bijvoorbeeld:
P(leeftijd > 25) = 1 –P(NIET leeftijd > 25) = 1-P(leeftijd < 25) = 1 –.60 = .40
- Voor NIET-mutueel exclusieve gebeurtenissen A en B: P(A of B) = P(A) + P(B) –
P(A én B), bijvoorbeeld:
P(15 tot 30 of 25 tot 50)= P(15 tot 30) + P(25 tot 50) – P( 25 tot 30) = .75 + .35 –.15
= .95
Deze regels voor discrete variabelen worden gegeven in het tabellen en formule
boekje, het is belangrijk dat je ze snapt, maar je hoeft ze dus niet uit je hoofd te
leren!
De Bernoulli Verdeling
Voor discrete variabelen met 2 uitkomsten (dichotome
variabelen).
- We noemen een uitkomst ‘succes’ en de ander ‘falen’ of
‘geen succes’
- Tilburg = succes, Anders = geen succes
- De vorm van de kansverdeling wordt bepaald door één
parameter “p”
- p is de kans op een succes.
- Als Tilburg succes is, dan: p=.36
Notatie: X ~ Bernoulli(p)
- Woonplaats ~ Bernoulli(.36)
De Normaalverdeling
Voor continue variabelen.
- X loopt van -∞ tot ∞ (-oneindig tot oneindig)
- De oppervlakte onder de curve geeft de
kans weer.
- De totale oppervlakte onder de curve is
gelijk aan 1.
- Perfect symmetrisch, en “bel-vormig”
- HEEL belangrijk in de statistiek.
- Vorm wordt bepaald door 2 parameters: Het
gemiddelde (μ) is het exacte midden en de
standaarddeviatie of variantie (𝜎 𝑜𝑓 𝜎2)
bepaalt de breedte. Notatie: X ~ N(μ, 𝜎2) of X ~ N(μ,𝜎)
, Z-verdeling
De Z-verdeling is een normale verdeling met
gemiddelde 𝜇 = 0 en standaarddeviatie 𝜎 = 1
(en variantie 𝜎2 =1). De kansen voor heel veel
gebieden van de Z-verdeling zijn al uitgewerkt
in statistische tabellen, ook wel tabel B.1 uit
Gravetter. Door normaal verdeelde X scores
te transformeren naar standaard normaal
verdeelde Z-scores, kun je de Z-tabellen
gebruiken voor het berekenen van de kansen
voor X.
Deel van tabel B.1:
Stappenplan om normale scores in Z-scores om te zetten:
Stap 1: Trek van elke observatie X het gemiddelde van X af. Hierdoor wordt het
gemiddelde van de nieuwe scores gelijk aan 0.
Stap 2: Vervolgens deel je elke observatie door de standaarddeviatie van X. Hierdoor
krijgen de nieuwe scores een standaarddeviatie gelijk aan 1.
𝑋−𝜇 𝑋−𝑋
De formule: Populatie: Z = 𝜎 , Steekproef: Z = 𝑠
Een Z-score geeft aan hoeveel standaarddeviaties een observatie af ligt van het
gemiddelde. Bijvoorbeeld Z=3; x ligt 3 standaarddeviaties boven het gemiddelde. z=
0 ; x is gelijk aan het gemiddelde. z= -2 ; x ligt 2 standaarddeviaties onder het
gemiddelde. Om van Z scores weer terug te gaan naar X scores gebruik je de
volgende formule: Populatie: X = μ + Z × 𝜎, Steekproef: X = X̄ × s