College 1 - 03-11-2021 - Belangrijke begrippen
Typen variabelen
- Categorisch: in categorieën (haarkleuren, etniciteit etc). Je kan wel cijfers
gebruiken, maar die hebben geen betekenis, je kan er dus niet mee rekenen.
- Kwantitatief: cijfermatig , het neemt een numerieke waarde aan dat de grootte
van de variabele toont
- Discrete variabelen: vaste waarden (aantal kinderen per gezin), vaak hele
getallen.
- Continue variabelen: continuum, een interval. Tussenliggende waarden
hebben ook betekenis (lengte). Alle mogelijke waarden hebben betekenis.
Statistic en parameter
- Statistic: hoort bij steekproef, samenvatting van de data, over steekproef.
- Parameter hoort bij populatie, samenvatting van de data in de populatie. Weet je
vaak niet. Met statistic de populatieparameter proberen te schatten/meten.
Grafische weergave
- Cirkeldiagram, vaak voor categorische variabele.
- Staafdiagram, voor categorische variabele (ruimte tussen de staafjes).
- Frequentietabel
- Histogram, voor kwantitatieve variabele (geen ruimte tussen de staafjes), de
staafjes zijn intervallen van gelijke grootte. Rechtergrens hoort niet bij de
waarden van de klasse/staaf.
- Unimodaal als er maar 1 piek is
- Bimodaal als er twee pieken zijn
- Dot plot, voor kwantitatieve variabele
- Stem-and-leaf plot, voor kwantitatieve variabele
Significantie
Wanneer het verschil tussen resultaten van twee behandelingen/interventies zo groot
is dat het bijna niet mogelijk is om zo’n verschil te zien door
willekeurige variatie.
Centrummaten
Een representatieve manier om je steekproefdata weer te geven.
- Modus: de meest voorkomende categorie. De passende
centrummaat voor de categorische variabele.
- Mediaan: eerst de data ordenen op volgorde, door tweeën
delen, de middelste is de mediaan (twee middelsten - gemiddelde van de twee
berekenen). Je kan ook kijken naar cumulatieve gemiddelde en kijken welke het
dichtste bij 50 zit.
, - Gemiddelde: houdt rekening met alle metingen. X met een streepje is
gemiddelde van X. I staat voor individuele observatie. N is aantal observaties. Van
beneden naar boven lezen, van 1 tot en met n. Delen door n.
- Gemiddelde van een frequentieverdeling. Je moet de frequentie van de
uitkomst vermenigvuldigen met de waarde van de uitkomst. (Frequentie x
categorie bij alle categorieën, optellen bij elkaar, delen door het totale
aantal).
Wanneer gemiddelde en wanneer mediaan?
- Symmetrische/klokvormige/
normaalverdeling: gemiddelde en mediaan
zijn gelijk.
- Scheef naar linkse verdeling (staart zit links):
gemiddelde zit meer naar links (bij de staart),
dus zal lager liggen dan de mediaan.
- Scheef naar rechtse verdeling (staart zit
rechts): gemiddelde zit meer naar rechts dan de mediaan.
Bij scheve verdeling is mediaan representatiever.
Potentiële outliner/uitschieter
Gat in histogram. Erg grote of kleine observatie, valt buiten de normale observaties.
Resistent
Observaties zijn resistent als extreme waarden weinig, of geen invloed hebben op de
waarde van alle observaties.
College 2 - 05-11-2021 - Spreidingsmaten
Spreidingsmaat
Nodig om iets zinnigs te kunnen zeggen over gegevens in de steekproef naast de
centrummaten.
Het bereik
Het verschil tussen de maximale en minimale score in je dataset. Wordt beïnvloed door
uitschieters.
- Bereik = maximum - minimum
Percentielen
50e percentiel is 50%. Valt binnen de 50% van de observaties. Hiervoor moet je kijken
naar cumulatieve percentage in je tabel.
Interkwartielafstand (IQR)
, - 25e percentiel: quartiel 1 (Q1)
- 75e percentiel: quartiel 3 (Q3)
- IQR (afstand tussen 3e en 1e quartiel) = Q3 - Q1
Dit zijn de 50% waarden rondom de mediaan, dus misschien de meest representatieve
waarden van de data.
- De mediaan is het 50e percentiel: quartiel 2 (Q2)
Mogelijke uitschieters berekenen
- Q1 - 1,5 x IQR (alles hieronder is een potentiële uitschieter)
- Q3 + 1,5 x IQR (alles hierboven is een potentiële uitschieter)
Boxplot
Gebaseerd op de kwartielen. Geeft een
goed beeld van mogelijke uitschieters.
- Streep in de box: mediaan (Q2)
- De onderkant van de box: Q1
- De bovenkant van de box: Q3
- De streep naar boven of onder
(whisker): grootste/kleinste
waarde die kleiner is dan de
mogelijke uitschieter.
- Alles wat daarbuiten ligt
(bolletjes/sterretjes): mogelijke
uitschieters.
Deviatie
De afstand tot het gemiddelde
- Waarde - gemiddelde
- Positieve waarde: ligt boven het gemiddelde
- Negatieve waarde: ligt onder het gemiddelde
- Een waarde van 0 betekent niet dat er geen spreiding is.
Variantie
Kwadratensom gedeeld door n - 1.
- N= het aantal observaties.
- Bereken de deviaties -> kwadrateer de varianties -
> sommeer deze gekwadrateerde deviaties -> deel de som door n - 1.
Standaarddeviatie (Sx)
Een soort gemiddelde afwijking van het gemiddelde.
De wortel van de variantie.
Empirische regel