PM Statistiek
Beschrijvende en inferentiële statistiek
Uitgebreide samenvatting van het boek en de colleges, deeltoets 1.
Februari 2018
, Hoofdstuk 2
Significant: De grens van meer dan twee keer de standaarddeviatie (95%) Als je buiten deze
grens legt ben je significant. Het gaat dus om de bovenste 2,5 % en de onderste 2,5% van de
populatie.
Beschrijvende statistiek: Samenvatting van verkregen data (tabellen, grafieken en nummers).
Inferentiële statistiek: Voorspellingen maken op basis van verkregen data. Het woord komt
van ‘to infer’: concluderen / opmaken uit.
Sample statistic: Uitspraak over steekproef
Population parameter: Numeriek samenvatting over hele populatie
Variabelen:
Variabele: een eigenschap die in waarde kan variëren tussen personen in een steekproef of
populatie, het symbool is y of yi.
Samenvatting, verband, van één variabele is univariaat
Het boekt maakt de volgende contrasten:
- Categorisch vs kwantitatief
- Discreet vs continu
Categorische variabelen: Hebben als waarden geen getallen, puur kenmerken of categorieën
(geslacht, nationaliteit, religie, opleidingsniveau)
Nominaal: Geen volgorde van waarden (geslacht, huisdier, nationaliteit)
Dichotoom is een ja / nee geval: je geeft ja een 1 en nee een 0; het wordt ook wel een dummy
variabele genoemd.
Ordinaal (ordinal): Wel volgorde van waarden (opleiding, mate van geloof), maar geen vaste
afstanden tussen de groepen. Zoals de rangen in het leger. De stapjes tussen de rangen
kunnen we niet goed interpreteren. Ordinale variabelen worden voor het gemak kwantitatief
gebruikt, in de praktijk wordt vaak het gemiddelde gebruikt.
Je kunt een variabele altijd terugbrengen naar een dichotomie. Dan maak je er een ja of nee
vraag van, je studeert bestuurskunde ja of nee. Het is een hele handige manier om te werken
met gegevens die nominaal zijn. Je moet altijd denken wat voor type variabele heb je en welke
berekening kun je hier op los laten.
Presenteren via: Frequentie tabel, taartdiagram, staafdiagram
-2-
, Kwantitatieve variabelen= interval / ratio (Scale) : Variabelen die als waarde getallen
aannemen (leeftijd, gewicht). De stappen tussen de variabelen zijn heel duidelijk.
Interval variabelen: er kan een onderscheid worden gemaakt in ongelijkheid, volgorde én
verschillen tussen de variabelen. Tempratuur is hier een goed voorbeeld van. Als je 4 pannen
op het water zet, 40-50-70 en 80 graden Fahrenheit, dan kun je door een tempratuurmeter zien
dat er een ongelijkheid is, en in welke volgorde je die kan plaatsen. De waarde 0, geeft niet aan
dat er geen tempratuur is.
Ratio variabelen wel een onwillekeurig 0-punt, die hetzelfde is voor elke schaal die je kiest,
voorbeeld hiervan is lichaamslengte. Of je nou lengte in centimeters of inches kiest, 0 is altijd
hetzelfde.
Discreet: Variabele met slechts hele waarden (aantal kinderen); bv 1, 2, 3
Continu: Variabele waarbij oneindig veel mogelijkheden zijn (tijd, gewicht); bv 3,999999
Presenteren via: Histogram, Stem-and-leaf plot
Bij het zoeken naar de centrale tendentie poogt de historicus/statisticus de 'essentie' of het
'zwaartepunt' van zijn gegevens samen te vatten in één statistische maat.
We beschikken over een aantal maatstaven van centrale tendentie:
De modus (mo): de meest voorkomende waarde; toepasbaar voor variabelen gemeten op
nominaal en hoger niveau.
De mediaan (md): getalswaarde bij de middelste waarneming; toepasbaar voor variabelen
gemeten op ordinaal en hoger niveau.
Het rekenkundig gemiddelde (R.G. of ): toepasbaar voor variabelen gemeten op interval- en
ratioschaal.
Mediaan: De middelste waarneming als je ze van laag naar hoog ordent
Modus: De meest voorkomende waarde (voorbeeld hierboven 163). Het kan ook zijn dat twee
waarden de meest voorkomende waarden zijn en dat noem je modi.
Bruggetje: NO MO,ORD = MEDIcatie, de rest is gemiddelde.
-3-