STATISTIEK
DEEL 1: UNIVARIATE BESCHRIJVENDE STATISTIEK
1.1 Basisconcepten
a. Onderzoekspopulatie, statistische eenheid
Onderdelen van realiteit waarop onderzoek betrekking heeft:
= (onderzoeks)elementen of (statistische)eenheden cases
- eenduidige definitie noodzakelijk
- individuen, gebeurtenissen, dingen, … deelnemers aan het onderzoek
Verzameling van (onderzoeks)elementen:
= (onderzoeks)populatie
- eenduidige definitie noodzakelijk
- vaak gebonden aan tijd en ruimte
Eenheid waarop analyse gebeurt = analyse-eenheid
b. Variabelen, waarden, dataset
Eigenschap van elementen = kenmerk
- varieert over eenheden variabele
Verzameling van alle mogelijke uitkomsten van een variabele =
uitkomstenverzameling
Meten: volgens bepaalde meetprocedure vaststellen van de waarde van een
kenmerk
- nauwkeurigheid: exactheid (= exacte periodes, locaties, … vragen)
- betrouwbaarheid: consistentie bij herhaalde waarneming (= 2x dezelfde
vraag stellen, maar anders formuleren controleren of je hetzelfde antwoord
krijgt)
- validiteit: afwezigheid van systematische fouten (= manier van
vraagstelling)
Resultaat van meten = waarde
Voorbeeld:
- kenmerk: geslacht - variabele: man/vrouw/x
- uitkomstenverzameling: man + vrouw + x
- waarde: ‘antwoord’ (1 keer naar museum geweest dan is je waarde 1)
c. Meetniveau van variabelen
Kwalitatieve / categorische variabelen (cijfers hebben geen betekenis):
- nominale variabelen
onderscheiden, maar niet ordenen
bv. geslacht, Tv-zender, haarkleur, werelddeel, wapen, merk, …
- ordinale variabelen
+ ordening (meer/minder)
bv. opleiding, opinievraag (zeer slecht – zeer goed), kwaliteitsoordeel in *,
medaille, …
Kwantitatieve / metrische variabelen (cijfers zijn betekenisvol):
- intervalvariabelen
+ gelijke afstanden (hoeveel meer/minder)
bv. temperatuur in graden Celsius, geboortejaar, …
- ratiovariabelen
+ nulpunt (= de waarde nul heeft een betekenis & kan niet negatief
worden)
bv. leeftijd, tijdsverschil, budget, …
(weinig informatie) nominaal < ordinaal < interval < ratio (veel informatie)
Andere classificatie:
- Continue variabelen
tussenliggende waarde vaststellen (bv. 2 jaar – 2,7 jaar – 3 jaar)
bv. tijd, exacte leeftijd, inkomen, …
- Discrete variabelen
eindige uitkomstenverzameling (bv. 1 – 2 – 3 - … boeken)
1
,STATISTIEK
bv. leeftijd in verstreken jaren, aantal kinderen, museumbezoek, …
1.2 Frequentieverdelingen
a. Frequenties, klassenindeling
Absolute frequentie: aantal elementen met een bepaalde waarde = f i
- Bv. 100 mensen = 70 vrouwen + 23 mannen + 7 ‘x’
Relatieve frequentie: aantal elementen met een bepaalde waarde gedeeld
door het totaal aantal elementen = fractie (proportie): Pi
- Bv. (n) = 23:100 = 0,23 x 100 = 23% mannen
Formule:
m
fi
P i= ↔ f i=Pi ×n n=f 1 + f 2+ …+ f m=∑ f i
n i=1
b. Frequentietabel
Cumulatieve frequentie: aantal of proportie eenheden met waarde i of lager
- Vanaf ordinaal meetniveau
- Bv. mensen die uitzonderlijk of slechts 1 keer naar tv kijken
Gegevens in klassen groeperen = klassenindeling
- Klassengrenzen: laagste waarde > hoogste waarde bv. 25-34
- Klassenmidden: ((laagste waarde + hoogste waarde) : 2) bv. 29,5
c. Grafische voorstellingen
(zie afgedrukte pwp)
1.3 Maten van positie
a. Rekenkundig gemiddelde
n
Voor individuele waarnemingen: x 1+ x 2 +…+ x n ∑ xi
i=1
x= → x=
n n
m
1
Met absolute frequenties: x= ∑ f ×x
n i=1 i i
m
Met relatieve frequenties: x= ∑ pi × x i
i=1
m
1
Met gegroepeerde gegevens: x= ∑ f ×mi
n i=1 i
b. Kenmerken van het rekenkundig gemiddelde
Enkel voor metrische variabelen (of in klassen gegroepeerd)
Evenwichtspunt van de verdeling (midden)
Geen resistente maat: gevoelig voor uitschieters
Som van deviatiescore = 0 (= verschillen in gemiddelde; bv. 21 – 19 =
deviatiescore 2)
c. Andere maten van positie
Mediaan
- M: middenpunt van de verdeling evenveel waarnemingen met lagere
waarde als met hogere waarde
- Eerst: alle waarnemingen ordenen van laag naar hoog !
- M = waarde van ((n+1):2)-de waarneming
n = oneven : M direct afleesbaar 10 – 10 – 11 – 12 – 13 (M = 11)
n = even : M = gemiddelde vd 2 middelste 10 – 10 – 11 – 12 – 12 – 13
(M = 11,5)
- Geschikt vanaf ordinaal meetniveau
2
, STATISTIEK
- Afleiden uit frequentietabel = cumulatief percentage
Modus
- M 0 = waarde met de hoogste frequentie
- Geschikt vanaf nominaal meetniveau
- Hoogste percentage (bv. 70%) variabele (bv. getrouwd) modus =
getrouwd
Kwartielen
- Definities:
Q 1 = waarde van de waarneming die de verdeling opsplitst in: 25% van
waarnemingen kleiner en 75% van waarnemingen groter (= onder de globale
mediaan)
Q 3 = waarde van de waarneming die de verdeling opsplitst in: 75% van
waarnemingen kleiner en 25% van waarnemingen groter (= boven de globale
mediaan)
Q 2 = M = mediaan
- Geschikt vanaf ordinaal meetniveau
- Percentielen = waarde vd waarneming die de verdeling opsplitst in: x% van
waarnemingen kleiner
1.4 Maten van spreiding
IKA = interkwartielafstand
- Q = Q3 – Q1
- Centrale 50%: gebied waarbinnen zich de helft van elementen bevindt
- Resistente maat van spreiding
- Geschikt op metrisch meetniveau
- Hoe kleiner, hoe dichter centrale helft bij elkaar geringe spreiding
- Uitschieters = Q3 + 1,5 x IKA <-> Q1 – 1,5 x IKA
Variantie & standaardafwijking
- Geeft aan hoe ver waarnemingen van het gemiddelde zijn verwijderd
n
-
2
Variantie: s = ∑ ¿ ¿ ¿¿
i =1
√∑
n
- Standaardafwijking: s= ¿¿ ¿ ¿ ¿
i=1
- Geschikt voor metrische variabelen
- Standaardafwijking = meest gebruikte spreidingsmaat voor metrische
variabelen
- Variantie: gemiddelde gekwadrateerde afwijking t.o.v. het gemiddelde
s2 niet in zelfde meeteenheid als X; s wel
s2 en s steeds positief (hoe groter spreiding, hoe groter-
- Niet zeer resistent (nog minder dan gemiddelde)
1.5 Vorm van de verdeling
Symmetrisch
- Spiegelbeeld
- x=M
Rechts a-symmetrisch
- Lange staart naar rechts ->
- x>M
Links a-symmetrisch
3