STATISTIEK 2
W1: hoorcollege
Variabelen bij statistiek 2
Interval-ratio afhankelijke variabele lineaire regressie
Dichotoom (0/1, dus twee keuzes) afhankelijke variabele logistische regressie
De onafhankelijke variabele kan zowel nominaal, ordinaal en interval-ratio zijn. Dus categorisch en
numeriek.
Pijlers er van de cursus
- Regressie modellen: zowel lineair als logistisch.
- Multivariaat, er worden in de cursus meerdere onafhankelijke variabelen bekeken.
- Begrijpen welk effect onafhankelijke variabelen hebben op de afhankelijke variabele.
- Hoe goed het model bij de daadwerkelijke waarde past.
- Interacties: wordt het effect van de onafhankelijke variabele op de afhankelijke variabele
beinvloed door een derde variabele.
- Is onze data wel geschikt om deze statistische methode te gebruiken.
- PRIORITEIT ZIJN DE COEFFICIENTEN: EFFECT VAN ONAFHANKELIJK OP AFHANKELIJKE
VARIABELEN.
DE BIVARIATE LINEAIRE REGERESSIE
Pearson’s correlatie: samenhang tussen twee bivariate correlatie.
Vuistregel: +1 perfect positief verband, -1 perfect negatief verband, 0 geen verband. 0,1 = zwak, 0,3 =
matig, 0,5 = sterk.
Correlaties kunnen worden weergegeven in een scatter plot. Op de X-as staat de onafhankelijke
variabele en de Y-as de afhankelijke variabele. Uit de scatter plot is het verband weer te geven. Dit is
te zien aan het richtingscoëfficiënt. Is het richtingscoëfficiënt positief, zelfs +1, dan heb je een positief
verband.
Vaak een scatter wolk, de puntjes staan niet in een rechte lijn.
Correlaties hangt samen met hoe goed de punten op een lijn kunnen worden gebracht in een scatter
plot.
Bivariate regressie:
2 continue variabelen. Een onafhankelijke (X) en een afhankelijke (Y).
Kijkt niet naar de sterkte van het verband. Maar naar de verandering van Y als gevolg van een
verandering van X. hierdoor proberen we te kunnen voorspellen wat er gebeurt als X verandert met
Y.
Regressielijn met perfecte samenhang: X =6 en Y =6, dan is er perfecte correlatie/samenhang. Er is
gebruik gemaakt van dezelfde schaal. Dit is de +1, maar hier zijn we niet in geïnteresseerd. We zijn
,geïnteresseerd in het richtingscoëfficiënt/helling van de lineaire functie. Als X omhoog gaat, hoeveel
gaat Y omhoog.
De regressielijn geeft geen causaliteit aan. Dit moet jezelf bedenken. Je moet zelf bedenken welke
variabele eerst komt en dus een gevolg veroorzaakt.
Geen regressielijn: als er een scatter wolk is, moet er mbv SPSS een regressielijn worden getekend.
Bij het tekenen van een regressielijn moet er worden opgelet op de schaal van de assen. SPSS: fit line
at total voor de regressie lijn. Als SPSS dit heeft gedaan, hebben we een model. Dit model geeft weer
wat het effect is van X op Y. Deze functie interesseert ons, vooral het effect van X op Y. de helling van
de lijn interesseert ons het meest bij lineaire regressie.
Regressielijn gebruiken: SPSS heeft een lineaire regressielijn opgetekend. Aan de lijn is de
samenhang positief of negatief te bepalen. De regressielijn is het statisch model. Stel je wil weten
hoeveel de waarde van Y is voor een bepaalde X, moet je gewoon lijnen trekken. Dus vanaf X naar de
lijn en van de lijn naar Y, en kun je de waarde gewoon aflezen.
Formule regressielijn = y = a + bx a= constante : waar de lijn de Y-as snijdt, b =
richtingscoefficient : hoeveel Y omhoog gaat als X 1 toeneemt.
Notatie regressie formule = yi = b0 + b1xi
Het model is een vereenvoudiging van de werkelijkheid. De lijn is namelijk een model. Er is sprake
van een error. De observaties zoals ze zijn in de werkelijkheid wijken namelijk af van de lijn. De
observaties liggen niet op de lijn. We kijken nu naar het verschil tussen de geobserveerde waarde en
de waarde die de lijn aangeeft. Alleen als er perfecte samenhang is, correlatie = 1, voorspelt de
regressielijn niet de perfecte Y-waarde. De regressielijn geeft een voorspelde waarde en daarnaast is
er de echte waarde:
yi-hat = b0 + b1xi hat geeft aan dat het een geschatte waarde betreft.
yi = b0 + b1xi + ei epsilon staat voor error
Hoe regressielijn bepalen: Ordinary Least Squares (kleinste kwadraten-methode). SPSS berekent de
waarde van de constante en de helling. Het verschil tussen de geobserveerde waardes en die van de
lijn moet zo klein mogelijk zijn. RS, de afstand tussen de lijn en observaties, wordt gekwadrateerd.
Kwadratensom. Dit doet SPSS, en hoef je niet handmatig te doen.
Squared residuals = SSR = gekwadrateerde som van de verschillen.
Lineaire functie, verandering constante: constante is in de formule a of b0, het snijpunt met de Y-as.
Als de constante verandert komt de lijn hoger of lager op de grafiek te liggen, maar het
richtingscoefficient/de helling verandert niet.
Lineaire functie, verandering richtingscoefficient: als de helling 1 is, dan is er een sterk positief
verband. Is de helling minder dan 1, bijvoorbeeld 0,5 (een plattere lijn), dan is er minder een effect
tussen X en Y. of de correlatie: er is een minder sterke samenhang tussen X en Y. een platte lijn,
betekent dat de helling gelijk is aan 0, er is dan geen verband. Een negatief effect is een lijn die naar
beneden helt, dus een negatieve helling.
, Van steekproef tot populatie, significantietoetsen: de observaties van de dataset komen uit een
steekproef. Het model is dus gemaakt op basis van een steekproef. Op het gemaakte model moet
weer een betrouwbaarheidsinterval en significantietoets worden berekend. We bestuderen dus een
steekproef, maar willen weten hoe het werkt in de gehele populatie.
Steekproef en regressielijnen: van verschillende steekproeven doen, kun je steeds regressielijnen
maken. Dit kan worden gebruikt voor een betrouwbaarheidsinterval. Hierbij hoort ook weer een
standaardfout. De standaardfout van een regressie coëfficiënt is de standaardafwijking van de
steekproefverdeling van die coëfficiënt.
T-TOETS
t-toets: WIJKT b1 significant af van 0. De vraag die we vaak stellen is of onze regressiecoefficient
significant afwijkt van 0. De nulhypothese wordt dus weer gesteld. Er wordt weer de t-statistiek
gebruikt.
bobserved −b
t= expected
SEb
Standaardfout krijg je in de output.
Om te zeggen of de t significant is wordt naar de p-waarde gekeken in de output. Als dit met de hand
zou worden berekend kijk je weer naar de t-tabel en de kritische waarden, maar dat is niet van
toepassing hier.
Vrijheidsgraden = N – p – 1 p = aantal onafhankelijke waarden, N = aantal observaties.
p-waarde: onder de nulhypothese wat is de kans om deze t-waarde te vinden of extremer? De p-
waarde geeft een percentage aan.
De t-waarde en p-waarde kunnen ook berekend worden voor de constante.