Statistiek
Toetsingsoverzicht - Stroomschema
Correlatie
Covariantie
2 continue variabelen die even belangrijk zijn.
Covariatie: een maat voor het lineaire verband →
𝑛
1
𝑠𝑥𝑦 = 𝑛−1
∑ (𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦)
𝑖=1
1. Als 𝑥 > 𝑥 en 𝑦 > 𝑦 → (𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) is positief (positieve
bijdrage aan de covariantie)
, 2. Als 𝑥 < 𝑥 en 𝑦 < 𝑦 → (𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) is positief (positieve bijdrage aan de
covariantie)
3. Als 𝑥 > 𝑥 en 𝑦 < 𝑦 → (𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) is negatief (negatieve bijdrage aan de
covariantie)
4. Als 𝑥 < 𝑥 en 𝑦 > 𝑦 → (𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) is negatief (negatieve bijdrage aan de
covariantie)
Positief verband: als het aantal punten met een positieve bijdrage groter is dan het aantal
punten met een negatieve bijdrage (stijgende puntenwolk)
Negatief verband: als het aantal punten met een positieve bijdrage kleiner is dan het aantal
punten met een negatieve bijdrage (dalende puntenwolk)
Geen lineair verband (covariantie = 0): als het aantal punten met een positieve bijdrage
gelijk is aan het aantal punten met een negatieve bijdrage
Correlatie
Maat voor het lineaire verband die schaal onafhankelijk is
𝑠𝑥𝑦
Correlatiecoëfficiënt: 𝑟 = 𝑠𝑥𝑠𝑦
(sx en sy zijn de standaard afwijkingen van x en y)
● In een populatie: ρ
● Ligt altijd tussen -1 en 1
○ -1 → volledig negatief lineair verband
○ 1 → volledig positief lineair verband
○ 0 → geen lineair verband
Hypotheses
● H0: ρ = 0
● H1: ρ ≠ 0
Toetsing: t-toets (Test10)
● Kijk naar de afstand tussen wat je vindt in je onderzoek (steekproefcorrelatie r) en de
nulhypothese (ρ = 0) → uitgedrukt in standard errors
𝑟−0
○ 𝑡= 𝑠𝑒(𝑟)
● Studentverdeling met een aantal vrijheidsgraden
● t-waarde uitrekenen → je moet de standard error van r weten
1
○ 𝑠𝑒(𝑟) =
𝑛−2
2
1−𝑟
● Dus: formule van t-toets
𝑛−2
○ 𝑡=𝑟 2
1−𝑟
● n-2 vrijheidsgraden
,Regressie Analyse
Er wordt uitgegaan van een lineaire relatie, maar de vraag is hoe de lijn eruit ziet.
Variabelen:
● Continue afhankelijke variabele (y-as)
● Continue onafhankelijke variabele (x-as)
○ Wordt gebruikt om de afhankelijke
variabele te beschrijven
Voorbeeld: kan de borstomvang (onafhankelijk) iets
zeggen over het gewicht (afhankelijk) van schapen?
Model: een beschrijving van de populatie die de data in
de steekproef gegenereerd heeft
● 𝑦 = α + β𝑥
○ y: afhankelijke variabele
○ x: onafhankelijke variabele
○ ⍺: intercept met de y-as
○ β: regressiecoëfficiënt/helling
● Lineaire model: 𝑦𝑖 = α + β𝑥𝑖 + ϵ𝑖
○ ϵ𝑖: residu → de afstand tussen 𝑦𝑖 en de
rechte lijn
○ 𝑦𝑖 is normaal verdeeld
○ Gemiddelde = α + β𝑥
○ Variantie = σ2
○ ϵ𝑖 hebben een normale verdeling met gemiddelde = 0 en variantie = σ2
, Kwadraatsommen
Kwadraat Formule Variantie (MS) Vrijheids- Extra Grafiek
som / graden informatie
afwijking
Residu 2
𝑆𝑆𝑟𝑒𝑠 n-2 Zo klein
[
𝑆𝑆𝑟𝑒𝑠 = ∑ 𝑦𝑖 − 𝑎 + 𝑏𝑥𝑖
𝑖
( )] 𝑟𝑒𝑠𝑖𝑑𝑢𝑣𝑎𝑟𝑖𝑎𝑛𝑡𝑖𝑒 = 𝑛−2 mogelijk
⍺ en β voor
kleinste SSres
→ a en b
𝑎 = 𝑦 − 𝑏𝑥
𝑏=
( )( )
Σ 𝑥𝑖−𝑥 𝑦𝑖−𝑦
2
Σ(𝑥 −𝑥)
𝑖
Totaal 2 𝑆𝑆𝑡𝑜𝑡𝑎𝑎𝑙 n-1 Geen rekening
(
𝑆𝑆𝑡𝑜𝑡𝑎𝑎𝑙 = ∑ 𝑦𝑖 − 𝑦
𝑖
) 𝑣𝑎𝑟𝑖𝑎𝑛𝑡𝑖𝑒 𝑣𝑎𝑛 𝑦 = 𝑛−1 houden met x
Regressie 𝑛 2 - 1 SStotaal - SSres
𝑆𝑆𝑟𝑒𝑔 = ∑
𝑖−1
((𝑎 + 𝑏𝑥 ) − 𝑦)
𝑖
Totale afwijking = regressie afwijking + residu afwijking
SStotaal = SSreg + SSres
n-1 = 1 + (n-2) vrijheidsgraden
T-toets
Hypotheses:
● H0: β = 0
● H1: β ≠ 0
Toetsingsgrootheid: afstand tussen de waarde uit het onderzoek (b) en de nulhypothese (β =
0) uitgedrukt in standard errors
𝑏−0
● 𝑡= 𝑠𝑒(𝑏)
Toetsingsoverzicht - Stroomschema
Correlatie
Covariantie
2 continue variabelen die even belangrijk zijn.
Covariatie: een maat voor het lineaire verband →
𝑛
1
𝑠𝑥𝑦 = 𝑛−1
∑ (𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦)
𝑖=1
1. Als 𝑥 > 𝑥 en 𝑦 > 𝑦 → (𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) is positief (positieve
bijdrage aan de covariantie)
, 2. Als 𝑥 < 𝑥 en 𝑦 < 𝑦 → (𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) is positief (positieve bijdrage aan de
covariantie)
3. Als 𝑥 > 𝑥 en 𝑦 < 𝑦 → (𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) is negatief (negatieve bijdrage aan de
covariantie)
4. Als 𝑥 < 𝑥 en 𝑦 > 𝑦 → (𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) is negatief (negatieve bijdrage aan de
covariantie)
Positief verband: als het aantal punten met een positieve bijdrage groter is dan het aantal
punten met een negatieve bijdrage (stijgende puntenwolk)
Negatief verband: als het aantal punten met een positieve bijdrage kleiner is dan het aantal
punten met een negatieve bijdrage (dalende puntenwolk)
Geen lineair verband (covariantie = 0): als het aantal punten met een positieve bijdrage
gelijk is aan het aantal punten met een negatieve bijdrage
Correlatie
Maat voor het lineaire verband die schaal onafhankelijk is
𝑠𝑥𝑦
Correlatiecoëfficiënt: 𝑟 = 𝑠𝑥𝑠𝑦
(sx en sy zijn de standaard afwijkingen van x en y)
● In een populatie: ρ
● Ligt altijd tussen -1 en 1
○ -1 → volledig negatief lineair verband
○ 1 → volledig positief lineair verband
○ 0 → geen lineair verband
Hypotheses
● H0: ρ = 0
● H1: ρ ≠ 0
Toetsing: t-toets (Test10)
● Kijk naar de afstand tussen wat je vindt in je onderzoek (steekproefcorrelatie r) en de
nulhypothese (ρ = 0) → uitgedrukt in standard errors
𝑟−0
○ 𝑡= 𝑠𝑒(𝑟)
● Studentverdeling met een aantal vrijheidsgraden
● t-waarde uitrekenen → je moet de standard error van r weten
1
○ 𝑠𝑒(𝑟) =
𝑛−2
2
1−𝑟
● Dus: formule van t-toets
𝑛−2
○ 𝑡=𝑟 2
1−𝑟
● n-2 vrijheidsgraden
,Regressie Analyse
Er wordt uitgegaan van een lineaire relatie, maar de vraag is hoe de lijn eruit ziet.
Variabelen:
● Continue afhankelijke variabele (y-as)
● Continue onafhankelijke variabele (x-as)
○ Wordt gebruikt om de afhankelijke
variabele te beschrijven
Voorbeeld: kan de borstomvang (onafhankelijk) iets
zeggen over het gewicht (afhankelijk) van schapen?
Model: een beschrijving van de populatie die de data in
de steekproef gegenereerd heeft
● 𝑦 = α + β𝑥
○ y: afhankelijke variabele
○ x: onafhankelijke variabele
○ ⍺: intercept met de y-as
○ β: regressiecoëfficiënt/helling
● Lineaire model: 𝑦𝑖 = α + β𝑥𝑖 + ϵ𝑖
○ ϵ𝑖: residu → de afstand tussen 𝑦𝑖 en de
rechte lijn
○ 𝑦𝑖 is normaal verdeeld
○ Gemiddelde = α + β𝑥
○ Variantie = σ2
○ ϵ𝑖 hebben een normale verdeling met gemiddelde = 0 en variantie = σ2
, Kwadraatsommen
Kwadraat Formule Variantie (MS) Vrijheids- Extra Grafiek
som / graden informatie
afwijking
Residu 2
𝑆𝑆𝑟𝑒𝑠 n-2 Zo klein
[
𝑆𝑆𝑟𝑒𝑠 = ∑ 𝑦𝑖 − 𝑎 + 𝑏𝑥𝑖
𝑖
( )] 𝑟𝑒𝑠𝑖𝑑𝑢𝑣𝑎𝑟𝑖𝑎𝑛𝑡𝑖𝑒 = 𝑛−2 mogelijk
⍺ en β voor
kleinste SSres
→ a en b
𝑎 = 𝑦 − 𝑏𝑥
𝑏=
( )( )
Σ 𝑥𝑖−𝑥 𝑦𝑖−𝑦
2
Σ(𝑥 −𝑥)
𝑖
Totaal 2 𝑆𝑆𝑡𝑜𝑡𝑎𝑎𝑙 n-1 Geen rekening
(
𝑆𝑆𝑡𝑜𝑡𝑎𝑎𝑙 = ∑ 𝑦𝑖 − 𝑦
𝑖
) 𝑣𝑎𝑟𝑖𝑎𝑛𝑡𝑖𝑒 𝑣𝑎𝑛 𝑦 = 𝑛−1 houden met x
Regressie 𝑛 2 - 1 SStotaal - SSres
𝑆𝑆𝑟𝑒𝑔 = ∑
𝑖−1
((𝑎 + 𝑏𝑥 ) − 𝑦)
𝑖
Totale afwijking = regressie afwijking + residu afwijking
SStotaal = SSreg + SSres
n-1 = 1 + (n-2) vrijheidsgraden
T-toets
Hypotheses:
● H0: β = 0
● H1: β ≠ 0
Toetsingsgrootheid: afstand tussen de waarde uit het onderzoek (b) en de nulhypothese (β =
0) uitgedrukt in standard errors
𝑏−0
● 𝑡= 𝑠𝑒(𝑏)