HOORCOLLEGEVIDEO’S STATISTIEK 1
VIDEOS WEEK 1
INTRODUCTIE TOT DE CURSUS
Waarom statistiek:
1. Beschrijven: beschrijving van bijvoorbeeld stemgedrag, of overzicht van allerlei artikelen.
Veel gegevens, die moeten worden gekwantificeerd.
2. Patronen ontdekken
3. Relaties onderzoeken: relaties tussen variabelen
4. Werken met steekproeven: kiezersonderzoek kan niet door alle kiezers te vragen, maar
steekproefsgewijs. Met deze gegevens kun je een inschatting maken voor de rest van de
bevolking.
VARIABELEN EN MEETNIVEAUS
Variabele
Field: ‘anything that can be measured and can differ across entities or across time’. → variabele
verschilt tussen personen of groepen en is meetbaar.
Een constante staat tegenover de variabele. Deze verschillen niet per variabele. Bij een onderzoek
naar kiesgedrag, zijn de kiezers constante. Het kiezer zijn veranderd niet.
Onafhankelijke variabele: onafhankelijke variabele heeft impact op de afhankelijke variabele. Het is
de oorzaak. Deze variabele staat vast.
Afhankelijke variabele: het gevolg. Deze verandert afhankelijk van wat de mate van de
onafhankelijke variabele is.
➔ Wat de (on)afhankelijke variabele is hangt af van de onderzoeksvraag
Meetniveaus
Nominaal: verschillende categorieen, maar geen volgorde in die categorieen. Een voorbeeld is
religie. Keuzes zijn islam, katholiek, jodendom. Er zijn categorieen zonder volgorde. Andere
voorbeelden zijn in welk land iemand woont. Of soort conflict.
Ordinaal: wel een volgorde. Hoe vaak bezoek je de kerk: elke zondag, vaak, regelmatig, soms, nooit.
Er zit een ordening in de keuzes. Deze ordening gaat niet verder, er hangt geen echt cijfer aan. De
afstand tussen de verschillende opties is niet constant.
Interval-ratio: de afstand tussen de opties heeft betekenis. Er hangt wel een cijfer aan. Inkomen:
1000 euro per maand, 1200 euro per maand, etc. Het verschil tussen de opties is hetzelfde, de
eenheid stijgt telkens hetzelfde. Andere voorbeelden zijn leeftijd (20, 21, 22), positie van politieke
partijen (links-rechtsschaal), aantal internationale conflicten.
➔ Vaak worden verschillende waarden samengenomen tot een categorie.
,Categoriale variabile: nominale en ordinale variabile.
Numerieke variabile: interval-ratio
CENTRUMMATEN
Frequentieverdeling: centrummaat (meest frequente, of gemiddelde waarde (gemiddelde en
mediaan)), het midden van de waarden) en de spreidingsmaat (de verdeling van de waarde, om het
gemiddelde of mediaan).
Centrummaten bepalen
- Nominaal: modus
- Ordinaal: mediaan (middelste in een reeks)
- Interval-ratio: gemiddelde
Modus: meest frequente waarde. We kunnen zeggen welke categorie het vaakste voorkomt. Er zijn
verschillende categorieen. De categorie die het vaakste voorkomt (de hoogste waarde), dat is de
modus. Meest voorkomende waarde.
Mediaan: als alle waarden op een rij worden gezet, wat is dan de middelste waarde. De verschillende
antwoorden worden eerst op volgorde gezet van klein naar groot. De middelste waarde van de reeks
is de mediaan. Mocht er een even aantal getallen hebben. Dan is de mediaan het gemiddelde van de
twee middelste waarden.
Gemiddelde: gemiddelde = som van alle waarden : aantal waarden.
SPREIDINGSMATEN
- Nominaal: geen spreidingsmaat, er is namelijk geen ordening.
- Ordinaal: interkwartielafstand
- Interval-ratio: variante en standaardafwijking
Spreidingsbreedte en interkwartielafstand
Spreidingsbreedte = maximum – minimum (verschil tussen hoogste en laagste waarde)
Interkwartielafstand = Q1 – Q3
➔ Q1: midden tussen laagste waarde en mediaan. Q3: midden tussen mediaan en hoogste
waarde. Vier stukken dus van 25%.
Variante en standaardafwijking
Zijn een maat van de spreiding van waarde rond het gemiddelde.
, Er kan van alle waarden ten eerste een gemiddelde berekend worden. Vervolgens moet dit
gekwantificeerd worden.
Dit kan door bijvoorbeeld de afstand (afwijking) van een waarde vanaf het gemiddelde te berekenen.
Zit iets onder het gemiddelde dan is de afwijking negatief en boven het gemiddelde positief.
➔ Total deviance: alle afwijkingen bij elkaar optellen. Alleen dit is echter altijd nul, want de
negatieve en positieve waarden worden nul. De oplossing is, de afwijkingen te kwadrateren.
Hierdoor worden alle negatieve waarden ook positief.
➔ Kwadratensom/sum of squared errors (ss): alle kwadraten van de waarden optellen.
Sum of squaerred: SS = Som (xgemiddeld – xwaarde)2
Variantie (s2) berekenen
De variantie is het gemiddelde gekwadrateerde verschil. Dus door de sum of squarred errors is
bekend wat alle kwadraten samen zijn. Door dit te delen door het aantal observaties, is de
gemiddelde gekwadrateerde afwijking per waarde bekend. Hoe groter n, hoe groter de sum of
squared errors: dus geen goede maat van vergelijking. Daarom delen we de sum of squared errors
door het aantal observaties (N) minus een:
Variantie: s2 = SS : N -1 → S2 = (xgemiddeld – xwaarde)2 : N -1
Standaardafwijking (s)
De variantie is het gemiddelde gekwadrateerde verschil. Om nu de standaardafwijking te bepalen
moet je van de variantie de wortel nemen.
S = V s2 = V (xgemiddeld – xwaarde)2 : N -1
Hoe groter de standaardafwijking, hoe groter de spreiding rond het gemiddelde!
De standaardafwijking is wel afhankelijk van de schaal waarop gemeten wordt. Als de schaal groter
wordt, wordt de standaardafwijking automatisch ook groter. De standaardafwijking moet dus wel
relatief bekeken worden.
KANSVERDELING
Bij een interval-ratio variabele spreekt men wel van een kansverdeling.
1. Discrete variabelen: kansfunctie. Bijvoorbeeld aantal doden in een oorlog. Kan alleen een
rond getal aannemen.
2. Continue variabelen: kansdichtheid. Bijvoorbeeld temperatuur. Kan een rond getal
aannamen, maar ook alle waarden daar tussen.
Binomiale verdeling: discrete verdeling. (hoeveel ogen er komen als je twee dobbelstenen gooit). Er
is maar een mogelijkheid, een rond getal.