Theorie werkzittingen
Werkzitting 1 – Dries De Witte
VARIABELEN
discreet
Nominaal (categorisch = uitkomsten zijn categorieën):
¾ waarden kennen geen rangorde
¾ er is geen meeteenheid
¾ er is geen nulpunt (bv. man/vrouw of plaats waar persoon geboren is kan men niet zeggen wat beste is)
Ordinaal (data nog steeds categorieën, maar kunnen ze rangschikken)
¾ er is wel een rangorde
¾ er is geen meeteenheid
¾ er is geen nulpunt (kunnen nog steeds niet optellen/aftrekken…)
Numeriek/continu:
¾ er is wel een rangorde
¾ er is wel een meeteenheid
¾ er is geen nulpunt bij interval(schaal)
¾ er is wel een nulpunt bij ratio/verhoudingsschaal
¾ SPSS kent geen verschil = statische software die men gebruikt om dingen te analyseren
NATUURLIJK NULPUNT
= betekent dat er geen waarde is voor die variabelen (bij lengte 0m is er geen lengte maar temperatuur bij 0°C
dan is er wel nog een temperatuur dus geen natuurlijk nulpunt bij temperatuur, wel bij lengte)
RANGORDE EENHEID NULPUNT
NOMINAAL
ORDINAAL x
INTERVAL x x
RATIO x x x
Type gegevens is belangrijk omdat men met statische software ook zinloze resultaten kan bekomen:
Het gemiddelde is hier 1,4 maar dat is onzinnig want dat kan je niet zeggen over een geslacht.
1
,KERNGETALLEN
Centrummaten
¾ Modus: vaakst voorkomende getal of gegeven
! "! "⋯" !#
¾ Gemiddelde: ! " %
¾ Mediaan (Q2): alle waarden ordenen en middelste getal is mediaan
Spreidingsmaten (hoe data verspreid liggen)
¾ Bereik (range): grootste waarde – kleinste waarde
∑(!(!̅ )"
¾ Variantie: (%(+)
¾ Standaarddeviatie: vierkantswortel van variantie
¾ Interkwartielafstand: Q3 (75%) – Q1 (25%)
Waarden die gevoelig zijn voor uitliggende waarden ® gemiddelde, bereik, variantie, standaarddeviatie
Variantie Standaarddeviatie
∑(𝑥 − 𝑥̅ ),
∑(𝑥 − 𝑥̅ ),
(𝑛 − 1) )
(𝑛 − 1)
Waarom is standaarddeviatie zo belangrijk?
® Belangrijk om te weten waar het bepaalde resultaat zich bevindt en om het te kunnen vergelijken
Voorbeeld
Data 1: 140, 80, 120, 70, 90 (n=5) 150 is hier een zeer extreme waarde
Data 2: 170, 160, 10, 20, 140 (n=5) 150 is een grote waarde maar niet zo extreem als in data 1
Twee studenten allebei 150 maar dan kan je niet zeggen dat ze
het allebei even goed hebben gedaan. Bij data 2 is het geen
topscore want die is breder, en bij data 1 is het wel heel goed
want daar is de variantie smaller.
In data 1 ligt 150 1,71 standaarddeviaties boven het gemiddelde
terwijl het in data 2 maar 0,64 standaarddeviaties boven het
gemiddelde ligt
Standaarddeviatie: 19 (data 1) – 78,42 (data 2)
Z-score: 1,71 (data 1) – 0,64 (data 2)
Z-score = om 2 scores te vergelijken, toepassen op 2 observaties van variabele die je rechtstreeks wil vergelijken
!$ (!̅
a𝑍 = -.
§ 𝑥̅ = gemiddelde van steekproef
§ 𝑥/ = waarde waarvoor we de z-score willen berekenen
§ 𝑆𝐷 = standaarddeviatie van steekproef
2
,Andere kengetallen
¾ Range: maximum – minimum
¾ Kwantielen:
§ Q1: 25% links en 75% rechts
§ Q2 = mediaan
§ Q3: 75% links en 25% rechts
¾ Interkwartielafstand: Q3 – Q1
¾ Percentielen,…
FIGUREN EN TABELLEN
= eerste impressie van data
Frequentietabel
Staafdiagram:
voor nominale en ordinale variabelen
Histogram:
voor numerieke en continue variabelen
Taartdiagram:
proporties (bv hoeveelheid mannen tov. vrouwen)
Boxplot/whiskerplot:
Voor continue variabelen
3
, BETROUWBAARHEIDSINTERVAL
= gebruikt om obv steekproef een uitspraak te doen over de hele populatie
95% BI = als we 100 maal een steekproef van omvang n uit de populatie
zouden trekken, zouden gemiddeld 95/100 van de resulterende
betrouwbaarheidsintervallen het ongekende centrum µ bevatten.
Niet geïnteresseerd in steekproefgemiddelde maar gemiddelde van populatie dus er is onzekerheid.
Betrouwbaarheidsinterval construeren met betrouwbaarheidsniveau, vaak 95% genomen (95/100 gevallen
zouden populatiegemiddelde bevatten, maar je weet niet of het de juiste 95% is of de 5% die fout is dus er is
onzekerheid)
100% zeker enkel bij interval van -¥ tot +¥ maar dat geeft weinig informatie en daar kunnen we geen uitspraken
over populatiegemiddelde doen, hoe hoger betrouwbaarheidniveau hoe breder interval.
2%
a𝜇! = 𝑥̅ ± 𝑧0/, .
√%
§ 𝜇! = populatiegemiddelde
§ 𝑥̅ = gevonden gemiddelde in de steekproef
§ 𝑧0/, = het 100 - a/2 percentiel van normale verdeling
§ 𝜎! = standaarddeviatie van variabele
§ 𝑛 = aantal respondenten
§ 𝛼 = significatieniveau: hoeveel onzekerheid men toelaat (1 – betrouwbaarheisniveau)
Parameters:
¾ sample size n = hoeveel respondenten je hebt
¾ variantie
¾ niveau van betrouwbaarheid
HOE meer respondenten, minder variantie en lager betrouwbaarheidsniveau
HOE smaller betrouwbaarheidsinterval en nauwkeuriger men het populatiegemiddelde kan schatten
Betrouwbaarheidsinterval (95%) – significantie (5%)
-.
a[𝑥̅ − 1,96 𝑆𝐸; 𝑥̅ + 1,96 𝑆𝐸] 𝑆𝐸 =
√%
HYPOTHESETOETSEN MET EEN BETROUWBAARHEIDSINTERVAL
Hypothesetoets:
1 Nulhypothese H0 – Alternatieve hypothese Ha – significantieniveau a
2 Teststatistiek
3 P-waarde
4 ALS p < a: verwerp H0
ALs p > a: verwerp H0 niet
4