Statistiek
Week 1 Les
Populatie: Alle onderzoekseenheden samen (bijv. bedrijven, personen). Niet alleen
binnen de steekproef.
Variabele: Datgene dat gemeten of geobserveerd wordt -> een eigenschap van de
onderzoekseenheden uit een populatie. (ijv. Leeftijd, inkomen, soort bedrijf).
Observatie: Waarneming van gedragingen of gebeurtenissen, die wordt uitgevoerd
met een bepaald doel. (bijv.’’ Turbo ‘’is een observatie binnen de variabele ‘’methode’’)
Onderzoekseenheden hebben bepaalde waarde op een variabele:
Leeftijd: <20,20-40,<40
Aantal jaren scholing: 10, 11, 12
Soort bedrijf: Wel/niet overheidsbedrijf
Dataset: Bevat informatie (data) over alle participanten en variabelen.
Meetniveau van een variabele
Kwalitatieve classificatie: Het is geen getal
- Nominaal: Kwalitatieve classificatie zonder ordening (Geslacht: man, vrouw) Geen
verschil in rangorde.
- Ordinaal: Kwalitatieve classificatie met logische ordening
Metrisch scale
- Interval: Numerieke schaal zonder absoluut nulpunt (Thermometer buiten)
- Ratio: Numerieke schaal met absoluut nulpunt (Weegschaal)
Cemtrummaten & Spreidingsmaten
Cemtrummaten
Gemiddelde
Mediaan: Middelste waarneming als waarnemingen zijn geordend van laag naar
hoog.
, Modus: Waarneming die het meest voorkomt
Bijvoorbeeld: 6,9,6,2,4,2,6,1
Gemiddelde = 36/8=4,5
Mediaan = 5 (1,2,2,4,6,6,6,9)
Modus= 6
Wat bepaal je
Ordinaal: Mediaan
Nominaal: Modus (Je hebt niks aan geslacht; 1,6)
Spreidingsmaten
Variantie
Gemiddelde gekwadrateerde afwijking van de data tot het gemiddelde
Wordt genoteerd als o^2
Eerst gemiddelde berekenen.
Variantie berekenen: Som van gekwadrateerde afwijkingen/aantal waardes
Standaardeviatie berekenen: Wortel uit de variantie
Week 1 oefeningen
1.1.2 Frequentie
Hoe vaak bepaalde waardes voorkomen. Een tabel waarbij je telt hoe vaak alle waardes
voorkomen heet een frequentietabel.
4 begrippen
1. Absolute frequentie: Aantal keer dat iets voorkomt
2. Relatieve frequentie: Aantal keer dat iets voorkomt uitgedrukt in percentage; relatief
ten opzichte van het totaal aantal keren.
3. Geldige frequentie: De relatieve frequentie berekenen ten opzichte van iedereen die
een geldig antwoord in heeft gevuld.
4. Cumulatieve frequentie: Hierbij tel je de relatieve frequentie (percentage) van een
groep op bij de voorgaande groepen.
Samenvatting
- Hoe vaak bepaalde waardes voorkomen noemen we de Frequentie.
- Een tabel waarin je per waarde aangeeft hoe vaak deze voorkomt, noem je een
frequentietabel.
, - Je kunt frequenties uitdrukken in getallen (absolute frequentie), als percentage
(relatieve frequentie), ten opzichte van alleen geldige antwoorden (geldige
frequentie) en opgeteld bij voorgaande groepen (cumulatieve frequentie)
1.1.3 Kruistabellen
Bij een combinatie van twee variabelen. Je zet dan de frequentie van elke combinatie neer
waar de rij en kolom elkaar kruisen, dit noem je een kruistabel.
Je kunt de onafhankelijke variabele op de rijen zetten, of je kunt de afhankelijke variabele op
de rijen zetten.
Je wil niet dat die te snel groot wordt, daarom maak je een kruistabel voor variabelen op
nominaal/ordinaal niveau.
Samenvatting
Een kruistabel is een frequentietabel voor de combinaties van twee variabelen.
Je kunt kruistabel maken als er niet te veel groepen zijn. Daarom kun je dit vooral maken op
nominaal/ordinaal niveau.
1.1.4 Meetniveaus
2 soorten variabelen:
Categorische variabelen -> Gemeten in groepen/ categorieën !GEEN GETAL!
Binnen deze variabelen heb je twee niveau’s:
1. Nominaal: Kwalitatieve classificatie zonder ordening (Rood,blauw,groen)
2. Ordinaal: Kwalitatieve classificatie met ordening (Geen, code geel, code oranje, code
rood)
Continue variabelen -> Gemeten op schaal
Binnen deze variabelen heb je twee niveau’s:
1. Interval variabelen: Verschillen tussen waardes zijn meetbaar en relevant en geen
absoluut nulpunt.
2. Ratio: Verschillen tussen getallen hebben ook een betekenis. Hebben wel een
absoluut nulpunt -> Betekent dat je kunt zeggen dat 400 euro twee keer zoveel is als
200 euro. (Lengte, gewicht)
Samenvatting
,1.1.5 Mediaan
Het gemiddelde is niet altijd een handige centrummaat (Bijvoorbeeld een uitschieter)
De mediaan is de middelste waarde.
4 stappen:
1. Zet alle waardes op volgorde van klein naar groot
2. Tel hoeveel waardes er totaal zijn
3. Deel het totaal aantal waardes door twee en rond af naar boven
4. Tel vanaf begin tot aan het eind uit stap 3 om zo de middelste waarde te vinden.
De Mediaan is dus altijd de middelste waarde.
- Bij een oneven aantal waarden is dat de waarde in het midden.
- Bij een even aantal waarden is de middelste waarde het gemiddelde van de
middelste twee waarden.
Samenvatting
Laten we de informatie over de Mediaan nog even op een rijtje zetten:
- De Mediaan is de middelste waarde.
- De Mediaan is handig omdat deze minder wordt beïnvloed door uitschieters (zoals de
oma van 105 jaar).
- Je vindt de Mediaan door 1) de data in de juiste volgorde te zetten. 2) de middelste
waarde te pakken.
- Bij een even aantal waardes is de Mediaan het gemiddelde van de middelste twee
waarden.
1.1.5 Modus
Een centrummaat.
Modus: Welke waarde het meest voorkomt.
3 stappen:
1. Tel hoe vaak elke waarde voorkomt
2. De waarde die het meeste voorkomt is de modus
3. Komen er waardes even vaak voor? Dan zijn er twee ‘modi’.
Je gebruikt de modus vooral bij categorische data.
1.1.6 Gemiddelde
Vaak bij interval- of ratio data.
2 stappen:
1. Tel alle waardes bij elkaar op
2. Deel door het aantal waardes
Die stappen kunnen we ook een stuk korter opschrijven. Voor elke stap is er een symbool.
Een waarde wordt aangegeven met XX.
Als je de som van iets neemt, gebruik je de Griekse hoofdletter Sigma \SigmaΣ
Het aantal waardes is nn
De gemiddelde waarde geef je aan door een streepje boven de waarde te zetten: \
overline{X}X
Soms wordt het gemiddelde ook weergegeven met de Griekse letter: \muμ
,1.2.1 Spreiding
Het is belangrijk om niet alleen naar de centrummaten (modus, gemiddelde en mediaan) te
kijken, maar ook naar de spreiding.
Denk aan drukke tijden met de trein.
Spreiding: Een term voor hoe erg data waarden van elkaar verschillen en afwijken van de
centrummaat.
Samenvatting
- Het is belangrijk om ook naar spreiding te kijken en niet alleen naar de centrummaat.
- Spreiding is een term voor hoe veel data van elkaar verschillen en afwijken van de
centrummaat.
- De spreiding is groter als de data meer verspreid is, bijvoorbeeld als er een groot
verschil is in de hoeveelheid mensen die elk uur reizen, en weinig waardes hetzelfde
zijn.
1.2.2 Maten van de spreiding
Beschrijving centrummaat: Waar het grootste deel van je data geconcentreerd is. Maten om
dat punt te bepalen heten centrummaten.
Beschrijving spreiding: Hoeveel de data waarden van elkaar verschillen.
Moeilijk om met blote oog te zien als de verschillen klein zijn, daarom schat je het met een
getal -> Maten van spreiding
Soorten maten:
Bereik
Mean Absolute Deviation (MAD)
Variantie
Standaarddeviatie
Over het algemeen: Als een maat van spreiding hoger is, dan is de spreiding ook hoger.
1.2.3 Bereik
Bereik is de makkelijkste maat van spreiding. Het bereik is het verschil tussen de hoogste
waarde en de laagste waarde in een dataset.
In formulevorm: Maximum-minimum
Als het minimum een negatief getal is, dan –(-…)
1.2.4 Spreidingsdiagram
Als je de relatie tussen twee variabelen op interval/ratio niveau wilt zien, dan maak je een
spreidingsdiagram.
Stappen:
1. Maak een grafiek met twee assen
2. Pak een combinatie van twee variabelen
3. Zoek op de horizontale x-as de waarde van de ene variabele, en op de verticale y-as
de waarde van de andere variabele.
, 4. Waar ze elkaar kruisen, zet je een stip
5. Herhaal dit voor alle waardes en je hebt een spreidingsdiagram.
Je kunt heel snel zien of er een relatie/verband is tussen de twee variabelen.
Als de stippen samen schuin omhoog gaan is dat een positief verband/relatie.
Als de stippen schuin naar beneden gaan is dat een negatief verband/relatie.
Als de stippen horizontaal lopen is er geen verband/relatie.
1.2.5 Gemiddelde afwijking
Het bereik is erg gevoelig voor extreme waardes, en zal daardoor de spreiding erg
beïnvloeden als je alleen daar naar kijkt.
Gemiddelde afwijking: Kijken naar het verschil tussen individuele punten in het midden.
Formule: Som van alle afwijkingen / het aantal waarden
De gemiddelde afwijking is altijd 0.
Afwijkingen: De meeste observaties zijn niet hetzelfde als he gemiddelde. De verschillen
tussen de twee heten afwijkingen. Formule: Waarde – gemiddelde
Samenvatting:
- De afwijking kijkt naar het verschil tussen de individuele waarden en het gemiddelde.
- De gemiddelde afwijking is het gemiddelde van alle afwijkingen.
- Deze kan je zien als een gebalanceerde wip, waarbij er evenveel gewicht op de
negatieve afwijkingen staat als op de positieve afwijkingen.
- Een goede maat van spreiding wordt hoger als er meer spreiding is.
- De gemiddelde afwijking is altijd 00.
- De gemiddelde afwijking op deze manier berekend is daarom nog geen goede maat
van spreiding.
1.2.6 Mean absolute deviation
Gemiddelde absolute afwijking
Omdat de gemiddelde afwijking altijd 0 is, is deze niet te gebruiken als je de spreiding wilt
interpreteren.
Een manier om dit op te lossen is om alle getallen positief te maken door de absolute
waarde te nemen.
Aboslute waarde: De waarde zonder teken (+ of -). Wanneer je de absolute waarde neemt,
wordt dit teken verwijderd.
Stappen:
1. Bereken het gemiddelde
2. Bereken de afwijkingen
3. Bereken de absolute afwijkingen
4. Bereken mean absolute deviation: absolute afwijkingen/aantal waarden
Nauwelijks gebruikt:
- Wiskundig lastig te optimaliseren
- De MAD benadrukt extreme waarden minder dan we zouden willen. Extreme
waarden tellen net zo zwaar mee als de rest.