,Hoofdstuk 7 vergelijking van twee groepen
7.3 kwantitatieve data: vergelijken van twee gemiddeldes
We vergelijken twee populatie gemiddeldes bij het maken van gevolgtrekkingen over hun verschillen.
Voor grote of kleine willekeurige steekproeven die normale populatieverdelingen vormen, heeft de
steekproevenverdeling van (ȳ2 - ȳ1) een normale vorm. Je moet wel letten op uitbijters die het
gemiddelde kunnen beïnvloeden.
Het betrouwbaarheidsinterval is voor het bovengenoemde (ȳ2 -ȳ1) ± t(se) waarbij SE=
De t-score wordt gekozen waarmee het gewenste betrouwbaarheidsinterval wordt
bereikt, bijvoorbeeld bij 95% een t-score van 1.96.
Wanneer je dan het betrouwbaarheidsinterval berekend heb kun je dat als volgt interpreteren:
bijvoorbeeld je hebt een 95% bhi met de waardes (2.4 – 4.8) dan verwacht je dat 95% van de tijd de
waarden die je vindt tussen de waardes van 2.4 en 4.8 liggen.
Ook kun je een significante test gebruiken om populatie gemiddeldes te vergelijken. Dit kan met de
volgende formule:
T= (schatting parameter – waarde nulhypothese van de parameter) / standaard error van de
schatting.
waarbij SE =
7.4 vergelijken van gemiddeldes met afhankelijke steekproef
Matched pairs: participanten in de steekproef worden gematcht aan de hand van een variabele,
bijvoorbeeld IQ. Hiervan komt dan één persoon in de steekproef en de andere in de controlegroep.
Voor gepaarde metingen is het verschil tussen de gemiddeldes van de twee groepen is gelijk aan het
gemiddelde van de verschillende scores.
T-statistic voor gepaarde metingen: met
Gepaarde metingen maken gebruik van de gebruikelijke aannames voor t-procedures:
- Waarnemingen worden willekeurig verkregen uit een populatieverdeling die normaal is.
- Betrouwbaarheidsintervallen en tweezijdige testen zijn geldig, ook als de
normaliteitsaanname geschonden wordt (behalve als de steekproef heel klein of heel scheef
is of uitbuiters bevat).
Het gebruiken van afhankelijke steekproeven kan voordelen hebben:
- Variabelen worden onder controle gehouden, bijvoorbeeld als je onderzoek doet waarbij in
beide groepen mensen met dezelfde leeftijd zitten dan kan het verschil tussen die twee
groepen niet ontstaan door leeftijd.
- De standaarderror tussen de twee gemiddeldes van beide groepen is kleiner.
Bij een onafhankelijke steekproef heb je de variabelen minder onder controle waardoor de
standaarderror ook groter zal zijn.
,Hoofdstuk 9 lineaire regressie en correlatie
9.1 lineaire relaties
Variabele x = onafhankelijke variabele
Variabele y = afhankelijke variabele
In onderzoek analyseer je hoe waardes van y invloed hebben op verandering van variabele x.
De onafhankelijke variabele beïnvloedt de afhankelijke variabele.
Categorische variabelen kun je x en y met elkaar vergelijken in een tabel.
Kwantitatieve variabelen worden beschreven met een formule waarin beschreven wordt hoe y zich
verhoudt tot x.
Lineaire functie: y=ax+b model voor relatie tussen twee kwantitatieve variabelen.
- b= intercept: het snijpunt met de y-as (waarde van y als x 0 is).
- a= helling: geeft steilheid van de lijn aan.
a en b worden ook wel regressie coëfficiënten genoemd.
Positieve relatie: y neemt af als x toeneemt.
Constante relatie: variabele y is constant en verandert niet als x verandert.
Negatieve relatie: y neemt toe als x afneemt.
Positief constant negatief
9.2 voorspellen met de kleinste kwadratensom
Allereerst maak je een spreidingsdiagram van je gevonden data. Hierin kun je zien of lineaire
regressie gebruikt kan worden (is er een rechte lijn te trekken?).
Als je in het diagram een outlier hebt (punt dat ver afwijkt van de andere punten), dan wordt dat een
regressie outlier genoemd. Vaak kan dat veel invloed hebben op de lijn die je erdoor trekt. De outlier
laat je dan ook vaak achterwege.
Residuen: het verschil tussen een geobserveerde waarde en verwachte waarde op basis van de
formule voor lineaire regressie. Hoe kleiner het residu, hoe beter de schatting is.
- Positieve residu: de geobserveerde waarde van y is groter dan de geschatte.
- Negatieve residu: de geobserveerde waarde van y is kleiner dan de geschatte.
de lijn ligt op de plek waar alle afstanden (punten) tot de lijn het
kleinste zijn. Alleen de lijn y=ax+b maakt dit mogelijk.
De lijn ontstaat met de kleinste kwadratensom. Eerst reken je alle
residuen uit, dan kwadrateer je ze en telt ze bij elkaar op.
, 9.3 lineair regressiemodel
De formule y=a+bx geeft een deterministisch model weer: bij elke x-waarde hoort eenzelfde y-
waarde. Dat is in de praktijk niet zo. Stel je voor x is het aantal jaren onderwijs en y het inkomen. Niet
iedereen met 12 jaar onderwijs (x) heeft een inkomen van 30.000 euro.
Daarom wordt de formule veranderd naar E(y)=a+b(x) conditionele distributie waarmee het
gemiddelde van y voorspelt wordt.
Het lineaire regressiemodel heeft een parameter, namelijk σ. Deze beschrijft de standaard afwijking
van elke conditionele distributie. Het meet de variabiliteit van de y-waarden voor alle personen met
die bepaalde x-waarde. We noemen σ de conditionele standaarddeviatie. Omdat je de echte
standaardafwijking niet weet, gebruik je die uit de steekproef: mean square error.
9.4 de correlatie
Met alleen de helling kan je niet de sterkte vertellen tussen de twee variabelen. Wel is de helling te
gebruiken om aan te geven of er een lineaire relatie is tussen de variabelen.
Hoe sterk een verband tussen x en y is kun je aantonen met de Pearson correlatie (r). Kenmerken
zijn:
- Maat voor sterkte lineaire relaties. Dus in hoeverre de twee variabelen elkaar beïnvloeden.
- Je kunt het alleen gebruiken wanneer een lineair verband zinvol is.
- De waarde valt altijd tussen 1 en -1.
- ‘r’ is positief/negatief gelijk aan ‘b’. Als ‘b’ positief is (en er een positief verband is) is ‘r’ ook
positief en als ‘b’ negatief is (en er een negatief verband is) is ‘r’ ook negatief.
- Hoe groter de correlatie, hoe dichterbij alle punten op de lijn liggen hoe sterker het
lineaire verband.
Kwadraat van de correlatie: gemeenschappelijke variantie tussen variabelen. Het geeft aan hoe goed
y voorspeld kan worden door x. Je meet met het kwadraat van de correlatie de sterkte van het
lineaire verband. De waarden vallen tussen 0 en 1. Hoe dichter de waarde bij 1, hoe sterker het
verband tussen x en y is.
- Hoge R2:
o Veel kleine residuen (alle punten liggen dichtbij de lijn)
o Hoge correlatie
o Veel verklaarde variantie (correlatie tussen x en y).
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller vkroeze. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $7.27. You're not tied to anything after your purchase.