Colleges
College 1
Beschrijvende Statistiek.
Univariate: Je hebt het over 1 variabele (bijv. gemiddelde leeftijd respondenten).
= Getal, figuur, grafiek.
Variabelen:
- Categorische (kenmerk/categorie)
Nominaal Categorie zonder rangorde
Ordinaal Categorie met rangorde (bijv. Likert Scales)
- Kwantitatieve (getal)
Discreet 1,2,3
Continue 49,999
SPSS ziet alles als cijfer.
Proportie = Absoluut / Totaal 0-1
Dataset
Regio = Nominaal
Doden = Discreet
Minuten = Continue
Histogram Distribution (hoe vaak komt elke waarde voor).
Unimodal (komt het meest voor)
Bimodal verschillend gedacht (doodstraf).
Unimodal = vaak scheef (skewed to the right)
Tot the left bijvoorbeeld bij sterftecijfer mensen.
Outlier Iets wijkt heel erg af.
- Gemiddelde = sommatie observatie / aantal observaties.
- Mediaan. Middenpunt. 1) Ordenen, dan 2) Middelste getal
- Modus. Waarde die het vaakst voorkomt.
- Spreiding. Afwijking van gemiddelde.
o Meer spreiding Meer onzekerheid.
o Standaarddeviatie Hoeveel er gemiddeld wordt afgeweken van het gemiddelde.
Voorbeeld van 7 mannen. Om Standaarddeviatie te berekenen doe je de afwijkingen in het kwadraat.
Hoe groter de SD Hoe groter de spreiding.
Empirical Rule
+- 2 SD = 95%
+- 1 SD = 68%
+- 3 SD = 99%
Variantie = Standaarddeviatie 2
,Z-score = (Observatie – gemiddelde) / SD (schoenmaatvoorbeeld).
Percentiel Hoeveel procent onder een bepaald punt valt (vaak bij toelatingstoetsen).
p.de percentiel.
IQR
Vaak gebruikt: 25e, 50e, 75e .
Q1, Q2(mediaan), Q3
IQR = Q3 – Q1
Outliers: 1,5 . IQR
Q1 – 60 = 30 en Q3 + 60 = 190
Voorbeeld cyberpestgedrag.
Quiz.
College 2
Skewed to the right Gemiddelde rechts van de mediaan.
Bivariate Twee variabelen.
Explanatory/independent Dependent/Response
X Y
Associatie: waarde van X hangt samen met de waarde van Y (bijv. Leren Tentamen)
Groentekweek.
Conditionele proportie (0.23) alleen kijkend naar bepaalde conditie.
Marginale proportie (0.73) kijken naar verschillende condities.
Scatterplot (puntjes)
GDP & Internetgebruik.
Hoe hoger X Hoe hoger Y.
Lineair verband als je ruw een rechte lijn kunt trekken.
Correlatie: beschrijft de sterkte van het lineaire verband. Symbool: r. Range: -1 – 1
Negatieve/Positieve correlatie.
Onafhankelijk van meeteenheden.
Correlatie drukt associatie uit in een getal.
-3 en + 3 geen significante correlatie.
Regressie = door middel van X Y voorspellen.
Y(hat) =a + bx
Voorspelde y intercept slope(helling)
Voorbeeld.
Aantal observaties liggen niet op de lijn. Verschil tussen geobserveerde y en voorspelde Y =
voorspellingsfout (RESIDU)
Method of least squares Zo klein mogelijk is beter.
, Als er een associatie bestaat tussen variabelen, dan betekent dat nog niet dat er ook causaliteit is.
Causaliteit: A leidt tot B.
Aan welke voorwaarden moet voldaan zijn?
- A en B hebben een associatie met elkaar.
- A gaat vooraf in tijd aan B.
- Als het theoretisch plausibel is, als alternatieve verklaringen zijn uitgesloten.
Probeer altijd rekening te houden met confounders (alternatieve variabele) Beïnvloedt de associatie
tussen X en Y.
In je onderzoek ga je al opzoek naar mogelijke confounders (vb. cyberpesten, misschien
leeftijd[mogelijk beïnvloeden ze de relatie])
Confounders wel gemeten in studie (je houdt er rekening mee)
Lurking variable: Potentiële confounder. Kan ook X en Y verstoren, maar is niet gemeten in de
studie.
Kansberekening.
P(probability) = hoe vaak komt de ‘juiste uitkomst’ voor van het totaal aantal uitkomsten?
Rekenregels
1. P(Niet A) = Complementaire kans. Aanduiding: P(Ac). P(Ac)= 1 – P(A)
2.
- P(A of B) = Overlapping. P (A) + P(B) – P(A en B)
- Zonder overlap (disjoint): P (A of B) = P(A) + P(B)
3. P (A en B)
A en B zijn onafhankelijk: P( A en B) = P (A) x P(B)
A en B zijn afhankelijk: P(A en B) = P(A) x P(B | A)
P ( A| B) is een conditionele kans.
HOe weet je of kansen afhankelijk of onafhankelijk zijn?
Checken van onafhankelijkheid:
1. Is P(A|B) = P(A)?
2. Is P(B|A) = P(B)?
3. Is P( A and B) = P(A) x P(B)?
College 3
Disjoint: Kans = P(A) + P(B)
Intercept is de waarde van Y als x=0 (Aantal studie uren invloed op tentamencijfer).
Slope geeft aan hoeveel die lijn stijgt of misschien wel daalt. Dus als x 1 stap om hoog gaat, hoeveel
gaat Y dan omhoog/omlaag.
Method of Least squares: zo klein mogelijke RSS.
Positief residu: Geobserveerde Y is hoger dan de Voorspelde Y.
Inferentiële statistiek: voorspellen.
De sterke van een verband wordt uitgedrukt met correlatie.
Associatie betekent verband.
Causaliteit: A leidt tot B.
IQR: Inter Quartile Range (Q1 – Q3)
Vraag 4: Skewness naar links.
College 1
Beschrijvende Statistiek.
Univariate: Je hebt het over 1 variabele (bijv. gemiddelde leeftijd respondenten).
= Getal, figuur, grafiek.
Variabelen:
- Categorische (kenmerk/categorie)
Nominaal Categorie zonder rangorde
Ordinaal Categorie met rangorde (bijv. Likert Scales)
- Kwantitatieve (getal)
Discreet 1,2,3
Continue 49,999
SPSS ziet alles als cijfer.
Proportie = Absoluut / Totaal 0-1
Dataset
Regio = Nominaal
Doden = Discreet
Minuten = Continue
Histogram Distribution (hoe vaak komt elke waarde voor).
Unimodal (komt het meest voor)
Bimodal verschillend gedacht (doodstraf).
Unimodal = vaak scheef (skewed to the right)
Tot the left bijvoorbeeld bij sterftecijfer mensen.
Outlier Iets wijkt heel erg af.
- Gemiddelde = sommatie observatie / aantal observaties.
- Mediaan. Middenpunt. 1) Ordenen, dan 2) Middelste getal
- Modus. Waarde die het vaakst voorkomt.
- Spreiding. Afwijking van gemiddelde.
o Meer spreiding Meer onzekerheid.
o Standaarddeviatie Hoeveel er gemiddeld wordt afgeweken van het gemiddelde.
Voorbeeld van 7 mannen. Om Standaarddeviatie te berekenen doe je de afwijkingen in het kwadraat.
Hoe groter de SD Hoe groter de spreiding.
Empirical Rule
+- 2 SD = 95%
+- 1 SD = 68%
+- 3 SD = 99%
Variantie = Standaarddeviatie 2
,Z-score = (Observatie – gemiddelde) / SD (schoenmaatvoorbeeld).
Percentiel Hoeveel procent onder een bepaald punt valt (vaak bij toelatingstoetsen).
p.de percentiel.
IQR
Vaak gebruikt: 25e, 50e, 75e .
Q1, Q2(mediaan), Q3
IQR = Q3 – Q1
Outliers: 1,5 . IQR
Q1 – 60 = 30 en Q3 + 60 = 190
Voorbeeld cyberpestgedrag.
Quiz.
College 2
Skewed to the right Gemiddelde rechts van de mediaan.
Bivariate Twee variabelen.
Explanatory/independent Dependent/Response
X Y
Associatie: waarde van X hangt samen met de waarde van Y (bijv. Leren Tentamen)
Groentekweek.
Conditionele proportie (0.23) alleen kijkend naar bepaalde conditie.
Marginale proportie (0.73) kijken naar verschillende condities.
Scatterplot (puntjes)
GDP & Internetgebruik.
Hoe hoger X Hoe hoger Y.
Lineair verband als je ruw een rechte lijn kunt trekken.
Correlatie: beschrijft de sterkte van het lineaire verband. Symbool: r. Range: -1 – 1
Negatieve/Positieve correlatie.
Onafhankelijk van meeteenheden.
Correlatie drukt associatie uit in een getal.
-3 en + 3 geen significante correlatie.
Regressie = door middel van X Y voorspellen.
Y(hat) =a + bx
Voorspelde y intercept slope(helling)
Voorbeeld.
Aantal observaties liggen niet op de lijn. Verschil tussen geobserveerde y en voorspelde Y =
voorspellingsfout (RESIDU)
Method of least squares Zo klein mogelijk is beter.
, Als er een associatie bestaat tussen variabelen, dan betekent dat nog niet dat er ook causaliteit is.
Causaliteit: A leidt tot B.
Aan welke voorwaarden moet voldaan zijn?
- A en B hebben een associatie met elkaar.
- A gaat vooraf in tijd aan B.
- Als het theoretisch plausibel is, als alternatieve verklaringen zijn uitgesloten.
Probeer altijd rekening te houden met confounders (alternatieve variabele) Beïnvloedt de associatie
tussen X en Y.
In je onderzoek ga je al opzoek naar mogelijke confounders (vb. cyberpesten, misschien
leeftijd[mogelijk beïnvloeden ze de relatie])
Confounders wel gemeten in studie (je houdt er rekening mee)
Lurking variable: Potentiële confounder. Kan ook X en Y verstoren, maar is niet gemeten in de
studie.
Kansberekening.
P(probability) = hoe vaak komt de ‘juiste uitkomst’ voor van het totaal aantal uitkomsten?
Rekenregels
1. P(Niet A) = Complementaire kans. Aanduiding: P(Ac). P(Ac)= 1 – P(A)
2.
- P(A of B) = Overlapping. P (A) + P(B) – P(A en B)
- Zonder overlap (disjoint): P (A of B) = P(A) + P(B)
3. P (A en B)
A en B zijn onafhankelijk: P( A en B) = P (A) x P(B)
A en B zijn afhankelijk: P(A en B) = P(A) x P(B | A)
P ( A| B) is een conditionele kans.
HOe weet je of kansen afhankelijk of onafhankelijk zijn?
Checken van onafhankelijkheid:
1. Is P(A|B) = P(A)?
2. Is P(B|A) = P(B)?
3. Is P( A and B) = P(A) x P(B)?
College 3
Disjoint: Kans = P(A) + P(B)
Intercept is de waarde van Y als x=0 (Aantal studie uren invloed op tentamencijfer).
Slope geeft aan hoeveel die lijn stijgt of misschien wel daalt. Dus als x 1 stap om hoog gaat, hoeveel
gaat Y dan omhoog/omlaag.
Method of Least squares: zo klein mogelijke RSS.
Positief residu: Geobserveerde Y is hoger dan de Voorspelde Y.
Inferentiële statistiek: voorspellen.
De sterke van een verband wordt uitgedrukt met correlatie.
Associatie betekent verband.
Causaliteit: A leidt tot B.
IQR: Inter Quartile Range (Q1 – Q3)
Vraag 4: Skewness naar links.