Hoi, hierbij een samenvatting van alles van statistiek: alle colleges met aantekeningen, de werkgroepen met aantekeningen van de leraar én een zelfgemaakte bestand waarin alle stappen staan binnen SPSS die relevant zijn voor dit vak. Ik vond het erg handig om te leren, heb zelf namelijk een 10 geh...
Samenvatting statistiek B
Uitwerking college 1 Statistiek B ‘Correlatie en Lineaire Regressie’...................................................1
Uitwerking college 2 Statistiek B ‘Variantie analyse en Logistische regressie’..................................13
Uitwerking college 3 Statistiek B ‘Factoranalyse en principale componenten analyse’....................20
Uitwerking college 4 Statistiek B ‘Interpretatie causaliteit en conceptuele’.....................................31
Werkgroep 1 (17-01)........................................................................................................................41
Werkgroep 2 (24 januari)..................................................................................................................45
Werkgroep 3 (31 januari)..................................................................................................................52
Werkgroep 4 (07-02)........................................................................................................................58
Het gebruik van SPSS........................................................................................................................80
Uitwerking college 1 Statistiek B ‘Correlatie en Lineaire Regressie’
Leerdoelen
Een correlatiecoëfficiënt interpreteren
Een lineaire regressievergelijking opstellen en interpreteren
Voorwaardelijke en onvoorwaardelijke voorspellingen doen
Wat en waarom?
Om de samenhang te achterhalen tussen 2 variabele, vooral interval en ratio variabele. We kijken
hierbij naar 3 elementen:
Via spreidingsdiagram (of: scatterplot)
- Grafische weergave samenhang
Correlatiecoëfficiënt en -analyse
- Maat voor sterkte van de samenhang
Regressie analyse
- Methode om de samenhang tussen twee (of meer) variabelen te beschrijven / bepalen
met behulp van een functionele relatie
De Chi-kwadraat toets van statistiek A komt hierbij ook aan bod!
Uit college 2 Statistiek A: Chi-kwadraat toets om te kijken of er wel of geen samenhang is tussen 2
nominale of ordinale variabelen: toets op onafhankelijkheid tussen twee categorische variabelen.
Voorwaarde: aantal observaties moet groter of gelijk zijn aan 40!
Deze toets zijn er om bijvoorbeeld de volgende vraag te beantwoorden:
Wat is het verband tussen de temperatuur en het aantal uren per dag dat iemand het strand
bezoekt?
Voorbeeld van het college:
‘’Wat is het verband tussen aantal facebook vrienden, reistijd naar de universiteit, sporten, het
hebben van een smartphone?’’
Twee continue variabelen en daar ligt de nadruk op
Mogelijkheden om dit te achterhalen:
1. Grafisch weergave samenhang: spreidingsdiagram (of scaterplot)
2. Sterkte van de samenhang: correlatiecoëfficient
, 3. Regressievergelijking: lijn die de gegevens in het spreidingsdiagram zo goed mogelijk
beschrijft.
Spreidingsdiagram
Als je kijkt naar de onderzoeksvraag met aantal facebook vrienden, welke lijn past het beste? Kan je
de samenhang hier goed op zien?
De variabele die we willen verklaren (afhankelijke variabele) zijn het aantal facebookvrienden en die
staat op de y-as. Ieder punt is één persoon. Het lijkt hier een negatief verband te zijn.
Correlatiecoëfficiënt – Algemeen
Maat voor lineaire samenhang tussen twee variabele (zie het boek, bladzijde 93!)
! Formule hoef je niet in te vullen of echt te gebruiken (met streep erboven staat voor het
gemiddelde)
Kenmerken
- Onderzoekt geen oorzakelijk (= causaal) verband
- Variabelen tenminste op intervalniveau gemeten
- Dimensieloze index
- Tussen -1 en +1
- Ordinaal
Ongevoelig voor lineaire transformaties/dimensieloze index: r voor lengte in cm en gewicht
in kg is even groot als wanneer we lengte in meters zouden uitdrukken en gewicht in ponden.
Let op: we kijken naar de samenhang, maar dus niet naar oorzakelijk verband en dit kan je dus ook
niet zomaar zeggen.
Correlatiecoëfficiënt – Interpretatie
De correlatiecoëfficiënt geeft aan in hoeverre de relatie tussen beiden variabelen lijkt op een reachte
lijn.
,De 3 extreme opties:
r = 1 of -1: resp. perfect positieve of negatieve lineaire samenhang
r = 0: géén lineaire samenhang
0 < r < 1 of -1 < r < 0: resp. positief/negatief lineaire samenhang
r=1 – hoge waarden op de ene variabele gaan samen met hoge waarden op de ander en visa
versa en r=-1 – Hoge waarden op ene variabele, lage op andere en visa versa.
Dus hoe meer richting 1, hoe meerde punten op één lijn zitten.
Als X verandert met één standaardafwijking, hoeveel verandert Y dan in aantal
standaardafwijking?
, Regressie analyse – Algemeen
Methode om de samenhang tussen 2 (of meer) variabelen te beschrijven met behulp van een
functionele relatie (= de regressievergelijking)
Als onderzoeker veronderstel je een causaal verband op basis van theorie of veronderstellingen en
bepaal je dus zelf de richting (dat doet de data niet). Let dus op! Denk na over het verband.
Normen te stellen: groei baby consultatiebureau – wijkt het kind af van de groeicurve
(=regressielijn)?
Techniek levert de ‘best passende’ lijn die de puntenwolk (zie spreidingsdiagram) zo goed mogelijk
beschrijft om (o.a.):
1. Voorspellingen te doen
2. Theorie te vormen / te toetsen
3. Normen te stellen
4. Data te reduceren
Soorten regressies
• Enkelvoudige lineaire regressie
• Meervoudige lineaire regressie
• Logistische regressie (college 2)
• Ordinale regressie (wordt niet behandeld)
• Multinomiale regressie (wordt niet behandeld)
Keuze (regressie-model) hangt af van meetniveau afhankelijke variabele!
Vandaag kijken we vooral naar continue variabele en in college 2 naar binaire variabele
Enkelvoudige Lineaire regressie
Notatie (enkelvoudig): y = β0 + β1 * x + e waarbij
y (op y-as): afhankelijke variabele (of: outcome)
Meetniveau: altijd interval of ratio
x (op x-as): onafhankelijke variabele (of: exposure)
Meetniveau: interval of ratio, indien anders: herdefiniëren als 0 - 1 variabele
β0 & β1: regressiecoefficienten (of: parameters) waarbij
- β0: snijpunt met y-as (of: intercept).
- β1: richtingscoefficient (of: slope), dus als mijn x toeneemt, hoeveel neemt de y dan toe?
e: residu (error / voorspellingsfout) (hoeveel wijkt de waarde van die persoon af de helling? Als je
een perfecte schatting maakt, heb je geen residu)
- Verdeling is N(0,σ)
Met deze vergelijking kan je voorspellingen doen!
Wat is de ‘best passende’ lijn? (zie grafiek hierboven)
Ideaal: y = β0 + β1 * x
Beschikbaar: meetpunten (xi, yi) waarbij i = 1, 2, …, n
Dus: voorspelde waarde yi’ bij gegeven xi: yi’ = β0 + β1 * xi
- En: regressievergelijking: y’ = β0 + β1 * x
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper LauraOpheij. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €9,99. Je zit daarna nergens aan vast.