Volledige uitwerking van de colleges met:
- Samenvatting van de leerstof uit de klapper en het boek
- Aantekeningen van de colleges
- Uitwerking van alle practica met tabellen, afbeeldingen en berekeningen
H1, h4, h5, h7, h8, h9 en h17
June 4, 2017
June 16, 2017
42
2016/2017
Summary
Subjects
colleges
statistiek
bewegingswetenschappen
statistiek 2
practica
field
samenvatting
uitwerking
rug
Connected book
Book Title:
Author(s):
Edition:
ISBN:
Edition:
More summaries for
Intermediate Statistics 2 Study Guide
4.4 Multivariate Data Analysis - Literature Summary
Summary Applied Data Analyses
All for this textbook (28)
Written for
Rijksuniversiteit Groningen (RuG)
Bewegingswetenschappen
Statistiek 2
All documents for this subject (7)
4
reviews
By: marryvisser • 6 year ago
By: beli-de-jong • 7 year ago
By: michel-smit • 7 year ago
By: kamielleenen • 7 year ago
Seller
Follow
tarazaida
Reviews received
Content preview
Statistiek 2
College 1, wo 19-04 Inleiding, onderzoek en T-testen
1.5.4. Correlational research methods
Twee manieren om je hypothese te testen:
1. Correlatie/cross-sectioneel onderzoek: je observeert wat er gebeurt in de omgeving zonder dat
je daar invloed op uitefent.
2. Experimenteel onderzoek: je manipuleert een variabele om te kijken wat voor effect dat heeft
op de andere variabele.
1.5.5. Experimental research methods
Twee methodes om data te verzamelen:
1. Between-groups, between-subjects of independant design. De onafhankelijke variabele
manipuleren onder verschillende groepen. De ene groep krijgt bijvoorbeeld alleen maar
positieve feedback, de andere alleen negatieve en een controle groep hoort niks.
2. Within-subject, of repeated-measures design. De onafhankelijke variabele manipuleren binnen
dezelfde groep. In dit geval krijgt een groep eerst een periode positieve feedback waarna er
een meting wordt gedaan. Daarna krijgt de groep alleen maar negatieve feedback waarna een
meting wordt gedaan, etc.
Twee typen van variatie:
1. Onsystematische variatie: de variatie die optreedt tussen verschillende data die te danken is
aan onbekende factoren. Wanneer je iemand meerdere malen een test laat uitvoeren, zullen
de resultaten bijna nooit exact gelijk zijn aan elkaar.
2. Systematische variantie: de variatie die optreedt wanneer er sprake is van een specifieke
experimentele manipulatie. Bijvoorbeeld wanneer apen een banaan krijgen bij elke goede trial,
zijn de betere resultaten die dan optreden waarschijnlijk hier aan te danken.
4.8.1. Simple scatterplot
Dit type scatterplot kijkt alleen naar 2 variabelen, niet meer. Denk aan een psycholoog die
geïnteresseerd is in de effecten van examenstress op examen resultaten. Hij ontwikkelt dan een
questionnaire om de stress te meten, en het cijfer van het examen geldt dan als examen resultaat.
Hoe ziet de plot eruit:
- Op de y-as staat de afhankelijke variabele(examen resultaten)
- Op de x-as staat de onafhankelijke variabele(examenstress)
Wanneer je een scatterplot maakt is het handig om een lijn te plotten die de relatie tussen de twee
variabelen samenvat: de regressielijn.
Catterplot: een variatie op de scatterplot, is handig wanneer je onvoorspelbare data wilt uitzetten.
4.8.2. Grouped scatterplot
Dit type scatterplot kijkt naar 2 continue variabelen die je onderverdeelt door een derde
categorische variabele. Dit zou handig zijn wanneer de psycholoog wil kijken of er een verschil
tussen jongens en meisjes is bij de invloed van examenstress op de resultaten. Ook hier kun je
weer een regressielijn bij plotten, deze keer een aparte voor vrouwen en een aparte voor mannen.
7.1 Correlations
Twee variabelen kunnen op drie manieren gerelateerd zijn aan elkaar:
1. Positief gerelateerd: hoe vaker je oefent met je gitaar, hoe beter je wordt
2. Niet gerelateerd: hoe vaak je ook oefent met je gitaar, je wordt maar niet beter
3. Negatief gerelateerd: hoe vaker je oefent met je gitaar, hoe slechter je wordt
Doormiddel van covariantie en de correlatie coefficient kun je de relatie tussen twee variabelen
uitdrukken.
1
,7.2.1. A detour into the murky world of covariance
De meest eenvoudige manier om te kijken of twee variabelen geassocieerd zijn met elkaar is door
vast te stellen of zijn covarieren of niet.
Variantie: De variantie, σ2, van een serie uitkomsten is het gemiddelde van de kwadraten van de
deviaties, d, van die uitkomsten. De deviaties worden ook wel beschreven als (xi-ẍ):
De variantie is ook het kwadraat van de standaardafwijking, σ. Wordt het gewicht van mensen
bijvoorbeeld in kilogrammen gemeten dan is de variantie in kg2, maar de standaardafwijking is in
kg.
Als er een relatie is tussen twee variabelen, betekent dat dat wanneer een variabele afwijkt van
zijn gemiddelde, de andere variabele in diezelfde mate zou moeten afwijken van zijn gemiddelde.
Cross-product deviaties: wanneer je de deviatie van de ene variabele vermenigvuldigt met de
correspondere deviatie van de andere variabele.
Wanneer je een gemiddelde waarde van de gecombineerde deviaties van de twee variabelen wilt
berekenen, deel je deze vermenigvuldiging door het aantal observaties - 1:
7.2.2. Standardization and correlation effect
Door standaardisatie zijn waarden van verschillende variabelen beter met elkaar te vergelijken.
Hiervoor gebruik je de standaard-deviatie. Dit is een maat waarin elke variabele kan worden
omgezet.
Twee soorten correlatie:
- Bivariate correlation: je berekent de correlatie tussen twee variabelen
- Partial correlation: je berekent de correlatie tussen twee variabelen terwijl een extra variabele
van invloed is.
7.2.3. The significance of the correlation coefficient
Wanneer er een Pearson’s correlatie coëfficient(r) is berekend, wordt er door SPSS vaak een z-
score gegeven. Deze zoek je dan op in de juiste tabel(A table of the standard normal distribution,
blz 887 in Field druk 4), om erachter te komen welke p-waarde erbij hoort. Let er wel op dat hier de
eenzijdige waardes staan, wanneer je een tweezijdige hypothese hebt moet je de p-waarde met 2
vermenigvuldigen. Stel je hebt een z-score van 1.87, daar hoort een waarde van .0307 bij.
Wanneer je deze met 2 vermenigvuldigt krijg je een waarde van .0614, deze is groter dan .05
waardoor je kan stellen dat er geen significante correlatie is tussen twee variabelen.
7.2.4. Confidence intervals for r
Betrouwbaarheidsintervallen vertellen ons iets over hoe waarschijnlijk het is dat een waarde uit de
steekproef voorkomt in de populatie. Met de bekende z-score zie je in de tabel een ‘lower
boundary’ en een ‘upper boundary’ voor de data. Dit geeft de kans weer dat een variabele onder
de lower boundary of boven de upper boundery kan zitten.
7.2.5. Causality
Het is belangrijk dat je in je achterhoofd houdt dat een correlatie coëfficient geen indicatie geeft
voor een causaal verband. Wanneer je een significante relatie ziet tussen het aantal reclames over
toffees die mensen zien en het aantal verpakkingen toffees die gekocht worden, wil dat niet gelijk
zeggen dat meer reclames leiden tot meer verkoop van verpakkingen. Er zijn twee problemen:
- Het derde variabele probleem: causaliteit tussen twee variabelen kan niet aangenomen worden
omdat er misschien een extra variabele van invloed is
2
,- Richting van causaliteit: een correlatie coëfficient zegt niets over welke variabele welke andere
variabele verandert. Het is voor de hand liggend dat je aanneemt dat meer reclames leiden tot
meer verkoop van toffees, maar er is geen statistisch bewijs dat meer verkoop van toffees niet
leidt tot het kijken van meer reclames.
7.3. Correlatie analyse in SPSS
Samengevat:
- Covariantie is een mate van relatie tussen twee variabelen
- Een gestandaardiseerde covariantie geeft de Pearson’s correlatie coëfficiënt r
- Deze correlatie coëfficiënt moet tussen de -1 en +1 liggen, waarbij +1 een perfecte positieve
relatie weergeeft en -1 een perfecte negatieve relatie
- Een coëfficiënt van .1 geeft een klein effect weer, van .3 een gemiddeld effect en .5 een groot
effect. Houdt echter altijd rekening met de aard van je onderzoek en neem de waardes niet altijd
klakkeloos over
7.4.2. Pearson’s correlatie coëfficiënt
De pearson’s correlatie coëfficiënt is de meest gebruikte maat voor lineaire samenhang tussen
continue variabelen.
7.4.2.2. Using R2
R2 staat voor de verklaarde variantie en geeft de gedeelde mate van variabiliteit in twee
verschillende variabelen weer. Wanneer twee variabelen dus een correlatie hebben van 0.4410,
dan is de R2 gelijk aan .194. Dat betekent dat 19.4% van de variabiliteit in de ene variabele
gedeeld wordt met de andere variabele. 80.6% Van de variabiliteit wordt dus door andere factoren
bepaald. “De variatie van de ene variabele kan uitgelegd worden aan de hand van de andere
variabele.”
7.4.3. Spearman’s correlatie coëfficiënt
Spearman's rang-correlatiecoëfficiënt is een maat voor de sterkte en de richting van de correlatie
tussen twee variabelen. De variabelen kunnen continu zijn, maar, anders dan bij Pearson's
correlatiecoëfficiënt, kunnen zij ook ordinaal zijn.
7.4.4. Kendall’s tau(non-parametric)
𝛕 is een andere non-parametrische correlatie en wordt gebruikt wanneer je een kleine data set
hebt met een groot aantal gedeelde ranken. Vaak is de Kendall’s tau wat nauwkeuriger dan de
Spearman’s correlatie coëfficiënt.
9.2 Looking at differences
Wanneer je twee gemiddeldes met elkaar wilt vergelijken kan je een between-group onderzoek of
een repeated-measures onderzoek uitvoeren. Het gemiddelde van de groep is de beste
voorspellende waarde voor een deelnemer in de groep.
9.3 The t-test
Er zijn twee verschillende soorten t-testen:
1. Independent-samples t-test: wordt gebruikt wanneer er twee experimentele condities zijn en
verschillende deelnemers aan slechts 1 conditie meedeed. Toetsen van verschil in
gemiddelden tussen twee groepen, deze zijn niet afhankelijk van elkaar.
2. Paired-samples t-test: wordt gebruikt wanneer er twee experimentele condities zijn en de
deelnemers deden met beide condities mee. Vergelijkingen binnen (proef)personen, herhaalde
metingen.
9.3.1. Rationale for the t-test
Basis voor de t-test:
- Twee verschillende soorten data worden gebruikt en de gemiddeldes van elke groep worden
berekend.
3
,- Wanneer de data van dezelfde populatie afkomt, verwacht je dat de gemiddeldes ongeveer
gelijk aan elkaar zijn. Voor de null-hypothese verwacht je dat de experimentele manipulatie geen
effect heeft op de deelnemers, dus je verwacht dezelfde gemiddeldes in dat geval.
- Je vergelijkt het verschil in gemiddeldes dat waargenomen is met het verschil in gemiddeldes
dat je verwachtte.
- Wanneer de standaardfout klein is verwacht je dat de meeste data gelijke gemiddeldes heeft.
- Wanneer de standaardfout groot is, is de kans op grote verschillen in gemiddeldes groter.
- Wanneer het verschil in gemiddeldes groter is dan verwacht, kan je twee dingen aannemen:
- Er is geen effect en de gemiddeldes varieren veel omdat er atypische samples getrokken
zijn uit de populatie
- De twee gemiddeldes komen uit verschillende populaties maar zijn wel representatief voor
hun populatie. In dit geval kan de null-hypothese vaak verworpen worden
- Hoe groter het geobserveerde verschil in gemiddeldes, hoe zekerder je bent van bovenstaande
tweede aanname. De null-hypothese wordt verworpen en er is een significant verschil tussen
twee populaties door de experimentele manipulatie.
9.3.2. Onafhankelijke t-toets
Toetsen van verschil in gemiddelden tussen twee groepen, deze zijn niet afhankelijk van elkaar.
- Kengetallen: gemiddelde, standaarddeviatie, evt. min, max
- H0: μ1 = μ2, H1: μ1 ≠ μ2 of evt. eenzijdig.
- Bij eenzijdig altijd richting controleren!
- Vooronderstellingen:
- Steekproef aselect
- 2 onafhankelijke steekproeven
- Minstens interval meetniveau
- Normaal verdeeld(skewness en kurtosis checken!)
- σ is onbekend
1. Toetsgrootheid(t) berekenen(formule kiezen: gelijke n of gelijke s)
Wanneer beiden niet gelijk zijn:
2. df = n1 + n2 - 2
3. Kritieke waarde(Tk) bepalen uit tabel
4. Toetsgrootheid in kritiek gebied: t > Tk? Of overschrijdingskans p berekenen: p ≦ .05?
De t-waarde is ook wel gelijk aan het gemiddelde verschil gedeeld door standaard fout.
9.5.5. Effect size
Ondanks dat er niet altijd een significant verschil gevonden wordt, hoeft dat niet gelijk te betekenen
dat het effect niet belangrijk is in de praktijk. Voor het berekenen van de effect size wordt de
volgende formule gebruikt:
Effectgroottes in de buurt van de nul zijn klein, effectgroottes groter dan 0,8 of kleiner dan -0,8
worden veelal als groot gezien.
4
,9.6. Paired-samples t-test
Vergelijkingen binnen (proef)personen, herhaalde metingen
bijv. wijsafwijking van neglect patiënten op de voormeting en de nameting.
- Kengetallen: gemiddelde, standaarddeviatie, evt. min, max
- H0: μvoor = μna, H1: μvoor ≠ μna of evt. eenzijdig.
- Bij eenzijdig altijd richting controleren!
- Vooronderstellingen:
- Steekproef aselect
- 1 steekproef met gepaarde afhankelijke waarnemingen
- Minstens interval meetniveau
- Normaal verdeeld(skewness en kurtosis checken!)
1. Toetsgrootheid(t) berekenen(formule met means per meetmoment en sd van verschilscores)
2. df = n - 1
3. Kritieke waarde(Tk) bepalen uit tabel
4. Toetsgrootheid in kritiek gebied: t > Tk? Of overschrijdingskans p berekenen: p ≦ .05?
Aantekeningen
Statistisch verband is niet altijd hetzelfde als een daadwerkelijk verband.
Data/meting is niet alleszeggend over de interpretatie.
Bij wetenschappelijk onderzoek wordt er een verband gelegd tussen verschillende variabelen. Een
verband tussen data kan in een bepaalde mate betekenisvol zijn. Dit kan je testen met statistische
toetsen. Je bepaalt hoeveel van de spreiding in data systematisch is, en hoeveel niet-
systematisch.
Verloop van onderzoek
Methode
- Design: wat voor onderzoek ga je uitvoeren. Dit heeft te maken met je onderzoeksvraag. Dit is
de eerste stap in het omzetten naar een statistisch probleem.
- Onderzoekspopulatie: wat voor groepen en welke grootte groepen ga je onderzoeken
- Procedure
- Meetinstrumenten: zijn deze betrouwbaar of niet?
- Data-analyse: hoe ga je de data analyseren? Denk aan toetsende statistiek.
Resultaten
Er komen statistische uitkomstmaten uit de analyses. Ook beschrijvende statistiek komt hieruit
voort, denk ook aan spreiding. De beschrijvende statistiek zegt niets over de significantie, wel de
toetsende statistieken. De beschrijvende statistiek komt eerst, daarna pas de toetsende statistiek.
Conclusie
Deze kan je alleen op basis van statistische data opstellen, in de discussie sectie zet je deze om in
een conclusie in woorden.
5
,Stappen van statische analyse
1. Onderzoekshypothese in woorden. Wat verwachten we eigenlijk?
2. Argumentatie omtrent verwachtingen.
3. Hypothesen in statistisch model. Denk aan de H0 en H1 hypothese
4. Resultaten met beschrijvende statistiek
5. Keuze statistische toets met argumentatie.
6. Waarde toetsgrootheid. De ratio tussen systematische en niet systematische spreiding. Alle
toetsgrootheden(t-waarde, etc) zijn daar uitingen van.
7. P-waarde. Als deze kleiner is dan alfa(0.05) kan je spreken van een significant en dus
betekenisvol effect in de data.
8. Statistische conclusie.
9. Conclusie in woorden. Interpreteren van statistische conclusie.
Onderzoekshypothese in woorden
Verschil vraagstelling en hypothese:
- Vraag: is er een verschil tussen jongens en meisjes in … ?
- Hypothese: ik verwacht dat jongens hoger scoren op … . Is een verwachting
De hypothese onderbouw je.
Hypothese in statistisch model
Hypothesen hebben betrekking op de populatie(niet steekproef) dus je gebruikt μ en ρ ipv X en r.
Deze moeten bij de hypothese passen.
De H0 probeer je altijd te verwerpen. Daarvoor moet je eerst gaan kijken of de richting van de data
wel in de goede richting zit. Soms kan je al zien aan de data welke gemiddeldes groter zijn
waardoor je geen proef hoeft uit te voeren.
Beschrijvende statistiek: Heeft betrekking op de steekproef, dus je gebruikt nu wel X en r. Gebruik
een geschikte toets voor wat je wil meten.
Keuze van de toets
Waar is deze van afhankelijk?
- Wat wil je weten? Verschillen of associaties?
- Vergelijken van categorieën(voor-na, man-vrouw) of associaties(binnen de groep, systolisch-
diastolisch)? Soms kun je ook beide onderzoeken
- Gepaarde of ongepaarde waarnemingen. Een groep mannen en een groep vrouwen zijn geen
gepaarde waarnemingen, dit is verschillend. Een voor en nameting bij verschillende mensen is
wel gepaard.
- Wat is de afhankelijke en onafhankelijke variabele? Wat is de variabele die de causale
verbanden moet laten zien in de andere variabele?
- Meetniveau van je variabelen.
- Verdeling van de waarden van je variabelen
- Steekproefomvang. Met 2 mensen meten heeft niet echt zin
Waarde toetsgrootheid en p-waarde
Ga je je H0 verwerpen of niet? Eerst kijken naar de beschrijvende statistiek; is de richting goed?
Kijken naar:
- alfa
- p-waarde: overschrijdingskans
- kritieke waarde
- toetsgrootheid
6
, Onafhankelijke t-toets
Hypothese: gemiddelde vetpercentage van de jongens ligt lager dan het vetpercentages van de
meisjes. Er wordt getoetst met een alfa van 0.05. De alfa is hierbij vaak vooraf bepaald. De
onafhankelijke t-toets kijkt of de gemiddelde van de variabelen van twee onafhankelijke
steekproeven zodanig verschillen dat ze redelijkerwijs niet uit twee populaties afkomstig zijn die
hetzelfde gemiddelde hebben.
Denk aan de skewness en kurtosis:
- Skewness: maat voor de scheefheid. Als deze groter is dan 1 of kleiner dan -1 is het geen goed
teken.
- Kurtosis: maat voor de platheid. Als deze hoger is dan 0, is het een steilere opgang en punt.
Wanneer deze kleiner is dan 0 zie je meer een stomp.
College 2, ma 24-04 Partiële correlatie en enkelvoudige regressie
7.5.1. Correlatie en partiële correlatie
Partiële correlatie: een correlatie tussen twee variabelen waarin de effecten van andere variabelen
constant zijn. Wanneer er een gedeelde variantie is tussen variabele 1, 2 en 3, kun je de gedeelde
variantie tussen 1 en 3 weglaten om de variantie tussen 1 en 2 te achterhalen. Je gebruikt dan de
partiele correlatie om de grootte van deze gedeelde variantie te bepalen. De variabele die je dan
weglaat zet je in spss onder de “Controlling for” optie.
Aantekeningen en uitwerking practicum 1
Onafhankelijke t-toets opdracht
Bij een onafhankelijke t-toets krijg je altijd een uitvoer waarbij de groepen gelijke varianties
hebben, en waar ze ongelijke varianties hebben. Om erachter te komen naar welke uitvoer je moet
kijken, gebruik je de Levene’s test for equality of variances. Hieronder zie je de uitvoer van de
onafhankelijke t-toets:
De Levene’s test stelt twee hypotheses:
H0 :σ12 = σ22
H 1 : σ1 2 ≠ σ 2 2
Je ziet dat de p-waarde voor de levene’s test gelijk is aan .029, dit is kleiner dan een alpha van
5%. Dat betekent dat je de H0 hypothese kan verwerpen omdat er een significant verschil is
tussen de standaarddeviaties van de mannen en de vrouwen, omcirkeld in het bovenste plaatje.
Omdat er een verschil is in varianties, moet je voor de t- en p-waarde kijken naar de gegevens
achter ‘Equal variances not assumed’.
t-waarde: 1.564
p-waarde(sig. 2 tailed): .119
7
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller tarazaida. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $4.82. You're not tied to anything after your purchase.