Analyse en interpretatie
Les 1, 11-11-2019 Kwantitatieve data-analyse
Meetniveau’s variabelen
- Nominaal: ‘discrete variabelen die bestaan uit losse categorieën waar niet mee
gerekend kan worden. (geslacht, afkomst, politieke keuzen).
- Ordinaal: variabelen met een ‘rangorde’ waar niet mee gerekend kan worden.
(niveau op school, maten).
- Interval: categorieën met gelijke gevallen, nummeratiek waarden (kwantitatief), maar
geen ‘natuurlijk nulpunt’ en intervallen staan in statistische zin niet in gelijke
verhoudingen met elkaar. (temperatuur, er is geen echte nul-punt) Je kunt wel - 10
graden hebben.
- Ratio: numerieke variabelen waarmee gerekend kan worden, met een natuurlijk
nulpunt en gelijke, betekenisvolle verhoudingen. (aantal mensen, gewicht, lengte,
afstand) Je kunt niet - 10 kilometer hebben.
Boxplot
- Kwartielafstand: 1e tot 3e kwartiel.
- Spreidingsbreedte of variatiebreedte: kleinste waarneming tot de grootste
waarneming. Een spreidingsmaat geeft een beeld van hoe je gegevens verdeeld zijn.
- Centrummaten: gemiddelde, modus, mediaan.
- Een spreidingsmaat geeft antwoord op de vraag hoe de waarnemingen liggen ten
opzichte van elkaar.
- Interkwartiel: middelste waarneming (50% van het aantal waarnemingen). Kan
gebruikt worden bij interval, ratio en ordinaal.
Kennis van de spreidingsmaat kan nuttig zijn bij het opstellen van maatregelen, of het
bepalen van de doelgroep van je campagne.
Variantie
Gemiddelde gekwadrateerde afwijking van het gemiddelde
- Bruikbaar bij meetniveau’s (interval of ratio).
- Zegt iets over de afstand van alle waarnemingen t.o.v. het gemiddelde
- UItgedrukt in 1 getal
- Let op!: variantie is sigma^2 en niet sigma
Formule populatievariantie
Xi = waarde van waarnemingen
Omgekeerde h = gemiddelde
GROOTTE E = de som van (Xi - h)
N = aantal waarnemingen
Q = sigma (gedefinieerd als
variantie)
Uitkomst -> de wortel vanaf trekken.
De letter sigma (Q) maar dan zonder kwadrant,
heeft ook de naam standaardafwijking of standaarddeviatie.
- De uitkomst van de variantie zegt iets over hoe breed de voorkomende cijfers
verspreid zijn rondom het populatiegemiddelde.
Oefening:
, De gemiddelde (h) lengte van een groep = 170 cm
Vier variaties:
- 165 = - 5
- 175 = + 5
- 210 = + 40
- 160 = - 10
Alle variaties in het kwadraat doen:
- - 5 = 25
- + 5= 25
- + 40 = 1600
- - 10 = 100
Grootte E (de som van alle varianten) = 1750
Er zijn 4 varianten -> 1:4 x 1750 of 1750 : 4 = 437,5 = variantie
Variantie is in het kwadraat gerekend, dus de wortel moet er vanaf getrokken worden.
De wortel van 437,5 = 20,917 = Standaard defiantie.
Verschil populatie en steekproef
- Bij experimenten of metingen in de praktijk, gebruik je meestal een steekproef en niet
een gehele populatie.
- Maar je weet nooit zeker hoe representatief je steekproefomvang is.
- Daarom delen we door N door (n-1) voor de steekproef bij variantie.
In een steekproef zit een bepaalde onzekerheid, omdat je nooit helemaal kunt zeggen hoe
goed je steekproef op je populatie lijkt. Om er wat zinnigs over te kunnen zeggen, moet je
maar aannemen dat je steekproef hetzelfde is als je populatie.
Hoe groter de steekproef, hoe meer kans dat die echt op de populatie lijkt. Bij een kleinere
steekproef weet je dat niet zeker, dus kun je een correctie toepassen.
In de statistiek ga je dan kijken naar de vrijheidsgraden. De truc hiervoor is om niet te delen
door de steekproefaantal (n), maar door (n - 1).
Variantie versus standaarddeviatie
- De gemiddelde kwadratische afwijking van het gemiddelde is lastig te interpreteren.
- Terug vertalen naar bruikbare maat door wortel te trekken:
- Standaarddeviatie = sigma (Q) = de wortel van Q^2
Variantie is lastig te interpreteren, er is niet meteen een beeld bij van wat het getal betekent
ten opzichte van de centrum maat (meestal gemiddelde). Door de terugvertaling van
variantie naar standaarddeviatie krijgt de uitkomst een betekenis, want €^2 of cm^2 is niks.
Doe je dit in de wortel dan komt er weer € of cm uit.
De standaarddeviatie is een getal in precies dezelfde eenheid als je centrummaat.