Verdiepende onderzoeksmethoden & statistiek hoorcolleges
Hoorcollege 1: Multipele regressie.
Multipele regressie: onderzoek met afhankelijke variabelen
waarbij er een grote verzameling van mogelijke invloeden
kunnen worden onderscheiden door in een keer een analyse te
doen.
Operationaliseren van de theoretische constructen is het
maken van variabelen.
Y = afhankelijke variabele minimaal interval meetniveau
X = onafhankelijke variabele(n)/predictoren
Doelen multipele regressieanalyse:
- Beschrijven lineaire relaties tussen variabelen
- Toetsen hypothesen over relaties (significantie)
- Kwantificeren van relaties (effectgrootte)
- Kwalificeren van relaties (klein, middel, groot)
- Beoordelen relevantie relaties (subjectief)
- Voorspellen van iemands waarde met regressiemodel (puntschatting en intervalschatting)
Geen causale relatie!
Meetniveau onafhankelijke variabele X:
* Minimaal interval meetniveau;
* Nominaal met 2 categorieën: dichotoom
* Nominaal met meer dan 2 categorieën: dummy variabelen
Vergelijking voor geobserveerde variabele Y:
Uitkomst (Y) = model (X) + voorspellingsfout (residu, error, E)
o Linear regressiemodel
Vergelijking voorspelde/geschatte waarde op Y = Ŷ
Geschatte uitkomst (Ŷ) = model (X)
Y = B0 + B1X1 + … + B6X6 + E
B0: intercept (constant)
B1: regressiecoëfficiënt (slope)
Vergelijking van lijn (regressievergelijking)
1. Intercept/constante (B0)
2. Regressiecoëfficiënt (B1)
Enkelvoudige regressie: Ŷ = B0 + B1X1
Best passende rechte lijn is de lijn waarbij
voorspellingsfout (error) zo klein mogelijk is.
Positieve residu: boven de lijn, onderschatting
door model
Negatieve residu: onder de lijn, overschatting door model
Kleinste kwadraten criterium heeft te maken met de grootte van de voorspellingsfout.
Goodness of fit: hoe goed past mijn model bij de geobserveerde
gegevens? Het verklaren van spreiding in scores Beste model is
het model met kleinste residuele kwadrantensom Bepalen Goodness
of fit (R2): vergelijking van lineair model (regressielijn) met basismodel
(basislijn) Voorspelling van Y zonder X Gemiddelde. Percentage verklaarde variantie.
Bereik R2: 0 < R2 < 1. 1 is perfect. 0 is als de ware lijn
precies gelijk loopt met de basislijn.
Som van gekwadrateerde deviaties is optelling
van alle voorspellingsfouten. Proportie door X
verklaarde variantie in Y.
Deviatie: de afstand ten opzichte van de basislijn.
, R = multipele correlatiecoëfficiënt. Dit is de
samenhang tussen geobserveerde Y en Ŷ.
R2 = determinatie coëfficiënt. Proportie in Y
verklaarde variantie door het model.
Toetsen R2 en B’s.
- Populatie Hypothesen
- Steekproef Steekproefresultaten
- Beschrijven Verklaring van Y door alle X’en (R2)
- Invloed afzonderlijke X’en op Y (B’s)
- Alternatieve hypothesen:
o R2 > 0: het regressiemodel verklaart variantie
in Y
o B > 0 of B < 0: er is effect van X op Y
- Nulhypothese: R2 = 0 of B = 0
- Toets voor R2: F-toets. Hiermee beoordeel je
statistische significantie.
- Toets voor B: T-toets.
Regressiecoëfficiënt B gebruik je voor opstellen regressievergelijking
voor Ŷ. Deze is schaalafhankelijk.
Gestandaardiseerde regressiecoëfficiënt Beta gebruik je voor het
vergelijken van de predictoren (X’en) of het beoordelen van de
invloed van predictoren. Deze is schaal onafhankelijk.
Hiërarchische regressieanalyse: we beginnen met een basis
aantal predictoren en we breiden het model uit met meerdere
predictoren, hiermee gaan we beoordelen of die uitbreiding van het
model statistisch zinvol is en praktisch relevant. R 2 (verklaarde
variantie) is hier de maat voor.
Hypothese: R2 = 0. Toetsing: F-toets voor R2. Driehoek Delta =
verandering.
Hoorcollege 1: Multipele regressie.
Multipele regressie: onderzoek met afhankelijke variabelen
waarbij er een grote verzameling van mogelijke invloeden
kunnen worden onderscheiden door in een keer een analyse te
doen.
Operationaliseren van de theoretische constructen is het
maken van variabelen.
Y = afhankelijke variabele minimaal interval meetniveau
X = onafhankelijke variabele(n)/predictoren
Doelen multipele regressieanalyse:
- Beschrijven lineaire relaties tussen variabelen
- Toetsen hypothesen over relaties (significantie)
- Kwantificeren van relaties (effectgrootte)
- Kwalificeren van relaties (klein, middel, groot)
- Beoordelen relevantie relaties (subjectief)
- Voorspellen van iemands waarde met regressiemodel (puntschatting en intervalschatting)
Geen causale relatie!
Meetniveau onafhankelijke variabele X:
* Minimaal interval meetniveau;
* Nominaal met 2 categorieën: dichotoom
* Nominaal met meer dan 2 categorieën: dummy variabelen
Vergelijking voor geobserveerde variabele Y:
Uitkomst (Y) = model (X) + voorspellingsfout (residu, error, E)
o Linear regressiemodel
Vergelijking voorspelde/geschatte waarde op Y = Ŷ
Geschatte uitkomst (Ŷ) = model (X)
Y = B0 + B1X1 + … + B6X6 + E
B0: intercept (constant)
B1: regressiecoëfficiënt (slope)
Vergelijking van lijn (regressievergelijking)
1. Intercept/constante (B0)
2. Regressiecoëfficiënt (B1)
Enkelvoudige regressie: Ŷ = B0 + B1X1
Best passende rechte lijn is de lijn waarbij
voorspellingsfout (error) zo klein mogelijk is.
Positieve residu: boven de lijn, onderschatting
door model
Negatieve residu: onder de lijn, overschatting door model
Kleinste kwadraten criterium heeft te maken met de grootte van de voorspellingsfout.
Goodness of fit: hoe goed past mijn model bij de geobserveerde
gegevens? Het verklaren van spreiding in scores Beste model is
het model met kleinste residuele kwadrantensom Bepalen Goodness
of fit (R2): vergelijking van lineair model (regressielijn) met basismodel
(basislijn) Voorspelling van Y zonder X Gemiddelde. Percentage verklaarde variantie.
Bereik R2: 0 < R2 < 1. 1 is perfect. 0 is als de ware lijn
precies gelijk loopt met de basislijn.
Som van gekwadrateerde deviaties is optelling
van alle voorspellingsfouten. Proportie door X
verklaarde variantie in Y.
Deviatie: de afstand ten opzichte van de basislijn.
, R = multipele correlatiecoëfficiënt. Dit is de
samenhang tussen geobserveerde Y en Ŷ.
R2 = determinatie coëfficiënt. Proportie in Y
verklaarde variantie door het model.
Toetsen R2 en B’s.
- Populatie Hypothesen
- Steekproef Steekproefresultaten
- Beschrijven Verklaring van Y door alle X’en (R2)
- Invloed afzonderlijke X’en op Y (B’s)
- Alternatieve hypothesen:
o R2 > 0: het regressiemodel verklaart variantie
in Y
o B > 0 of B < 0: er is effect van X op Y
- Nulhypothese: R2 = 0 of B = 0
- Toets voor R2: F-toets. Hiermee beoordeel je
statistische significantie.
- Toets voor B: T-toets.
Regressiecoëfficiënt B gebruik je voor opstellen regressievergelijking
voor Ŷ. Deze is schaalafhankelijk.
Gestandaardiseerde regressiecoëfficiënt Beta gebruik je voor het
vergelijken van de predictoren (X’en) of het beoordelen van de
invloed van predictoren. Deze is schaal onafhankelijk.
Hiërarchische regressieanalyse: we beginnen met een basis
aantal predictoren en we breiden het model uit met meerdere
predictoren, hiermee gaan we beoordelen of die uitbreiding van het
model statistisch zinvol is en praktisch relevant. R 2 (verklaarde
variantie) is hier de maat voor.
Hypothese: R2 = 0. Toetsing: F-toets voor R2. Driehoek Delta =
verandering.