1
Samenvatting Beschrijvende en Inferentiële Statistiek
Inhoud
Hoorcollege 1 - Hoofdstuk 2: beschrijvende en univariate statistiek ..................................................... 2
Hoorcollege 2 – Hoofdstuk 3 Beschrijvende bivariate statistiek............................................................. 7
Hoorcollege 3 - Hoofdstuk 4: Betrouwbaarheidsanalyse ...................................................................... 10
Hoorcollege 4 - Hoofdstuk 5: Kansen (kansrekening) ........................................................................... 13
Hoorcollege 4 - Hoofdstuk 6: Kansberekening (binomiaal en nominaal) ............................................. 15
Hoorcollege 5 - Hoofdstuk 7 Steekproefverdelingen (sampling distributions) ..................................... 20
Hoorcollege 6 – Hoofdstuk 8 Betrouwbaarheidsintervallen ................................................................. 23
Hoorcollege 7 - Hoofdstuk 9: Hypothesetoetsing ................................................................................. 27
Hoorcollege 8 - Hoofdstuk 10: het vergelijken van groepen................................................................. 31
Hoorcollege 9 - Hoofdstuk 12: Enkelvoudige regressie (het lineaire model) ........................................ 34
Hoorcollege 10 - Hoofdstuk 13: Meervoudige (multipele) regressie .................................................... 38
Hoorcollege 11 - Hoofdstuk 12 en 13: regressie vervolg ...................................................................... 42
Hoorcollege 12 - Hoofdstuk 11: verband tussen categorische variabelen ........................................... 48
, 2
Hoorcollege 1 - Hoofdstuk 2: beschrijvende en univariate statistiek
Onderwerpen:
• Meetniveau
• Centrale tendentie (gemiddelde, mediaan, modus)
• Verdeling (histogram, barchart)
• Spreidingsmaten (standaarddeviatie, variantie)
Meetniveau
1. Categorische variabelen: kenmerken of categorieën geen getallen.
a. Nominaal (nominal): meerderde groepen, maar er is geen rangordening. (Bijv.
nationaliteit)
i. Een ‘speciaal’ geval is dichotoom (dummy variabele): 0/1 kenmerk, bijv.
geslacht. Dit heeft namelijk maar 2 mogelijkheden – vrouw / man.
b. Ordinaal (ordinal): de groepen hebben een rangordening, maar geen vaste afstand.
(Bijv: rangen in het leger, opleidingsniveau (vmbo, havo, vwo)). Mediaan.
2. Kwantitatieve variabelen (scale - interval/ratio): getallen (leeftijd, gewicht, inkomen).
a. Discreet: hele getallen. Bijv: aantal kinderen. 0, 1, 2…
b. Continu: variabele waarbij oneindig veel mogelijkheden zijn in waarde. Bijv. de
tijdsduur van dit college is 44,9999999 minuten.
Voorbeeld:
Hoeveelheid groente (in gram) dat je per dag eet kwantitatief - continu
Kledingmaat (S, M, L, XL) ordinaal
Aantal keer dat je naar de kapper gaat kwantitatief – discreet
Centrale tendentie (gemiddelde, mediaan, modus)
1. Gemiddelde
Formule gemiddelde:
2. Mediaan - het middelpunt van de observaties als je ze van laag naar hoog ordent.
Gebruik je bij: ordinale variabelen (rangen leger, opleidingsniveau)
Ordenen: 70, 80, 90, 95, 100, 110, 120, 130, 150 mediaan is 100, omdat dit het middelpunt is.
3. Modus - de waarde die het meeste voorkomt.
70, 80, 90, 95, 100, 110, 110, 120, 130, 150 modus is 110 omdat deze het meest voorkomt.
, 3
Verdeling van data (histogram, barchart)
de waarden die een variabele aanneemt hoe vaak welke waarde voorkomt.
Categorische data: Kwantitatieve data:
- Frequentietabel - Dot plot (punt diagram)
- Taartdiagram (pie chart) - Stem-and-leaf plot (stam diagram)
- Staafdiagram (bar chart) - Histogram
Frequentietabel
Shark attacks in various regions 1990-2006
Variabelen = regio
Analyse-eenheid = aantal shark attacks
Proportie = aantal observaties in categorie / totaal aantal observaties ligt altijd tussen 0 en 1.
Percentage = proportie x 100.
Staafdiagram (bar chart)
Er zitten witte ruimtes tussen de balken, waardoor je kan zien dat de staten los van elkaar zijn. Een
barchart gaat er vanuit dat de variabele nominaal is en houdt daarom geen rekening met de afstand.
Histogram
Balkjes zijn wel tegen elkaar aan geplakt. Histogrammen gaan uit van intervalvariabelen en daarom
speelt de afstand tussen de waarden mee in de grafiek.
, 4
Unimodale en bimodale verdeling (distribution)
Outlier (uitbijter)
Unimodaal = normale verdeling, modus =100
Bimodaal = 2 modi (de twee toppen, 0 en 9)
Scheve verdelingen: asymmetrisch
Skewed to the right, als de rechter ‘tail’ langer is dan de linker ‘tail’.
Modus is niet netjes in het midden van de verdeling.
Als we 1 iemand toevoegen met een enorm hoog inkomen, blijft de modus hetzelfde, de mediaan
blijft nagenoeg hetzelfde (verschuift een minuscuul beetje), het gemiddelde is meer beïnvloedbaar.