Inhoud:
0. Introductie
0.2: Statistische concepten
1. Beschrijvende statistieken
a. 1.1: Data beschrijven
b. 1.2: Maten van centraliteit
c. 1.3: Maten van variantie
2. Samenhang tussen variabelen
a. 2.1: Samenhang tussen categorische variabelen
b. 2.2: Samenhang tussen continue variabelen
c. 2.3: De regressielijn
d. 2.4: Het toepassen van correlatie en regressie
3. Betrouwbaarheidsanalyse
a. 3.1: Introductie
b. 3.2: Cronbach's alfa
c. 3.3: Een schaal maken
4. Kansberekening
a. 4.1: De normaalverdeling
b. 4.2: Kansen voor klokvormige verdelingen
5. De steekproevenverdeling
a. 5.1: Steekproef en populatie
b. 5.2: De steekproevenverdeling
c. 5.3: Eigenschappen van de steekproevenverdeling
d. 5.4: Waarschuwing: gerandomiseerde steekproeven
6. Betrouwbaarheidsintervallen
a. 6.1: Inferenties
b. 6.2: Betrouwbaarheidsintervallen
c. 6.3: Betrouwbaarheidsniveaus
7. Het toetsen van hypothesen
a. 7.1: Hypothesen
b. 7.2: Hypothesetoetsing
c. 7.3: De procedure van hypothesetoetsing
d. 7.4: Het interpreteren van hypothesetoetsen en betrouwbaarheidsintervallen
8. Het vergelijken van twee gemiddelden
a. 8.1: T-toets voor onafhankelijke en afhankelijke steekproeven (Independent &
dependent samples)
b. 8.2: Independent samples t-tests in SPSS
c. 8.3: Waarschuwingen bij hypothesetoetsing
9. Het verband tussen twee categorische variabelen
a. 9.1: Conditionele en marginale kansen in een kruistabel (contingency table)
b. 9.2: Is het verband significant? De Chi-kwadraat toets (Chi-square test)
c. 9.3: Waar zit het verband? Gestandaardiseerde residuen (standardized
residuals)
d. 9.4: Wat is de sterkte vh verband? Proportieverschillen en relative risk
10. Enkelvoudige lineaire regressie
a. 10.1: Hypothesetoetsing met de b-coëfficiënt
b. 10.2: Residuen en verklarende kracht
c. 10.3: Enkelvoudige regressie met een "dummy variabele".
,11. Multipele regressie
a. 11.1: Causale modellen: confounders en mediatoren
b. 11.2: Het multipele regressiemodel
c. 11.3: Model fit (R-kwadraat) en F-toets
12. Nadere beschouwing van het effect van X op Y en van verklaarde variantie.
a. 12.1 De gestandaardiseerde slope (Beta)
b. 12.2 Interactie-effecten
c. 12.3 De conditionele standaarddeviatie
,Introductie
0.2: Statistische concepten
variables: kenmerken
cases: de individu of instantie zelf
cases kunnen heel veel dingen zijn, mensen, bedrijven, teams enz.
variables zijn de kenmerken van de cases en moeten verschillen
als een variabele niet anders of verschillend is is het een constant.
level of measurement:
Categorical variables hebben twee levels of measurement:
nominaal: variables zonder volgorde, zoals nationaliteit en gender
ordinaal: variables zijn verschillend en zijn ordelijk, gaan dus op volgorde, maar je weet niet
het verschil tussen de variabelen.
Kwantitatieve variabelen hebben twee levels:
Discrete, doelpunten, set of separate numbers and continuous, lengte, infinite
region of values
Interval: verschillende categorieën, ordelijk en weet je het verschil tussen de categorieën.
Ratio: verschillende categorieën, ordelijk en weet je het verschil tussen de categorieën en
heb je een meaningful zero point.
Een beter voorbeeld van een interval variabele (in plaats van leeftijd) is temperatuur. Een
tip om te onthouden of er sprake is van een betekenisvol nulpunt: als het gisteren 10 graden
Celsius was en vandaag 20 graden is, kun je dan zeggen dat het buiten "twee keer zo
warm" is? (10 * 2 = 20).
Nee, want als we dit zouden omrekenen naar graden Fahrenheit (deze schaal heeft een
ander nulpunt), dan is er slechts een temperatuurstijging van 50°F naar 68°F.
In tegenstelling tot Matthijs Rooduijn zullen veel andere docenten leeftijd gewoon een ratio
variabele noemen ipv interval. Als je bijvoorbeeld iemand van 2 jaar oud vergelijkt met
iemand van 1 jaar, zullen de meeste mensen zeggen dat deze persoon "twee keer zo oud
is".
Tenzij je de filosofische vraag opwerpt wat eigenlijk precies het nulpunt is van "leven". Je
zou ook -9 maanden als nulpunt kunnen kiezen. Maar dan geldt dus niet meer dat iemand
van 2 jaar (nieuwe score van leeftijd wordt dan: 2 jaar + 9 maanden) twee keer zo oud is als
iemand van 1 jaar (nieuwe score wordt dan: 1 jaar + 9 maanden)!
1: Beschrijvende statistieken
1.1: Data beschrijven
Tabellen:
- kolommen, variables, verticaal
- cellen, cases, horizontale
- data matrix is een overview van alle verzamelde data
je deelt niet je hete data matrix, maar vat dit samen in bijvoorbeeld een:
- frequency table, shows hot the values are distributed over the cases
, - je kan kwantitatieve variabelen omzetten (rocoded) in ordinal categories, maar niet
andersom
Grafieken:
met frequency table informative graph maken
twee manieren graph
Nominaal/ Ordinaal variabelen:
- pie chart
- Voordeel, makkelijk af te lezen
- nadeel, exacte cijfers moeilijk na te lezen uit een pie chart
- bar graph
- voordeel, kan veel categorieën duidelijk aangeven
Interval/ Ratio variabelen:
- dot plot voor quantitative data
- histogram, bars raken elkaar aan, creëert interval met gelijke waarde
- Bell shaped (symmetrisch)
- unimodal/ bimodal (dubbele symmetrie)
- skewed to the right hoogtepunt links (scheve verdeling)
- skewed to the left hoogtepunt rechts (scheve verdeling)
1.2 Maten van centraliteit
drie centraliteitsmaten: modus, mediaan en gemiddelde.
Modus: de waarde die het vaakst voorkomt.
Mediaan: de middelste waarde als je de dataset van kleinste naar grootste waarde
rangschikt.
Gemiddelde: de som van alle waarden, gedeeld door het totale aantal waarden.
1.3: Maten van variantie
Je gebruikt spreidingsmaten en centrummaten om je data samen te vatten met behulp
van descriptieve of beschrijvende statistieken. Met descriptieve of beschrijvende
statistiek orden je de data en vat je de kenmerken van je dataset samen.
spreidingsmaten (measures of variability):
- Bereik (range): het verschil tussen de hoogste en laagste waarde.
- Interkwartielafstand (interquartile range): het verschil tussen het eerste en derde
kwartiel.
- Standaarddeviatie (standard deviation): de gemiddelde afstand tot het
gemiddelde.
- Variantie (variance): het rekenkundig gemiddelde van de kwadratische afwijkingen
van het gemiddelde.
Het bereik (range) is het interval tussen de laagste en de hoogste waarde in de dataset. Het
is een veelgebruikte maat voor de spreiding (variability).Het bereik wordt berekend door de
laagste waarde van de hoogste waarde af te trekken. Als het bereik groot is, is er sprake
van een hoge variabiliteit, terwijl een laag bereik gepaard gaat met een lage variabiliteit.