Hoi, hierbij een samenvatting van alles van statistiek: alle colleges met aantekeningen, de werkgroepen met aantekeningen van de leraar én een zelfgemaakte bestand waarin alle stappen staan binnen SPSS die relevant zijn voor dit vak. Ik vond het erg handig om te leren, heb zelf namelijk een 10 geh...
Samenvatting statistiek B
Uitwerking college 1 Statistiek B ‘Correlatie en Lineaire Regressie’...................................................1
Uitwerking college 2 Statistiek B ‘Variantie analyse en Logistische regressie’..................................13
Uitwerking college 3 Statistiek B ‘Factoranalyse en principale componenten analyse’....................20
Uitwerking college 4 Statistiek B ‘Interpretatie causaliteit en conceptuele’.....................................31
Werkgroep 1 (17-01)........................................................................................................................41
Werkgroep 2 (24 januari)..................................................................................................................45
Werkgroep 3 (31 januari)..................................................................................................................52
Werkgroep 4 (07-02)........................................................................................................................58
Het gebruik van SPSS........................................................................................................................80
Uitwerking college 1 Statistiek B ‘Correlatie en Lineaire Regressie’
Leerdoelen
Een correlatiecoëfficiënt interpreteren
Een lineaire regressievergelijking opstellen en interpreteren
Voorwaardelijke en onvoorwaardelijke voorspellingen doen
Wat en waarom?
Om de samenhang te achterhalen tussen 2 variabele, vooral interval en ratio variabele. We kijken
hierbij naar 3 elementen:
Via spreidingsdiagram (of: scatterplot)
- Grafische weergave samenhang
Correlatiecoëfficiënt en -analyse
- Maat voor sterkte van de samenhang
Regressie analyse
- Methode om de samenhang tussen twee (of meer) variabelen te beschrijven / bepalen
met behulp van een functionele relatie
De Chi-kwadraat toets van statistiek A komt hierbij ook aan bod!
Uit college 2 Statistiek A: Chi-kwadraat toets om te kijken of er wel of geen samenhang is tussen 2
nominale of ordinale variabelen: toets op onafhankelijkheid tussen twee categorische variabelen.
Voorwaarde: aantal observaties moet groter of gelijk zijn aan 40!
Deze toets zijn er om bijvoorbeeld de volgende vraag te beantwoorden:
Wat is het verband tussen de temperatuur en het aantal uren per dag dat iemand het strand
bezoekt?
Voorbeeld van het college:
‘’Wat is het verband tussen aantal facebook vrienden, reistijd naar de universiteit, sporten, het
hebben van een smartphone?’’
Twee continue variabelen en daar ligt de nadruk op
Mogelijkheden om dit te achterhalen:
1. Grafisch weergave samenhang: spreidingsdiagram (of scaterplot)
2. Sterkte van de samenhang: correlatiecoëfficient
, 3. Regressievergelijking: lijn die de gegevens in het spreidingsdiagram zo goed mogelijk
beschrijft.
Spreidingsdiagram
Als je kijkt naar de onderzoeksvraag met aantal facebook vrienden, welke lijn past het beste? Kan je
de samenhang hier goed op zien?
De variabele die we willen verklaren (afhankelijke variabele) zijn het aantal facebookvrienden en die
staat op de y-as. Ieder punt is één persoon. Het lijkt hier een negatief verband te zijn.
Correlatiecoëfficiënt – Algemeen
Maat voor lineaire samenhang tussen twee variabele (zie het boek, bladzijde 93!)
! Formule hoef je niet in te vullen of echt te gebruiken (met streep erboven staat voor het
gemiddelde)
Kenmerken
- Onderzoekt geen oorzakelijk (= causaal) verband
- Variabelen tenminste op intervalniveau gemeten
- Dimensieloze index
- Tussen -1 en +1
- Ordinaal
Ongevoelig voor lineaire transformaties/dimensieloze index: r voor lengte in cm en gewicht
in kg is even groot als wanneer we lengte in meters zouden uitdrukken en gewicht in ponden.
Let op: we kijken naar de samenhang, maar dus niet naar oorzakelijk verband en dit kan je dus ook
niet zomaar zeggen.
Correlatiecoëfficiënt – Interpretatie
De correlatiecoëfficiënt geeft aan in hoeverre de relatie tussen beiden variabelen lijkt op een reachte
lijn.
,De 3 extreme opties:
r = 1 of -1: resp. perfect positieve of negatieve lineaire samenhang
r = 0: géén lineaire samenhang
0 < r < 1 of -1 < r < 0: resp. positief/negatief lineaire samenhang
r=1 – hoge waarden op de ene variabele gaan samen met hoge waarden op de ander en visa
versa en r=-1 – Hoge waarden op ene variabele, lage op andere en visa versa.
Dus hoe meer richting 1, hoe meerde punten op één lijn zitten.
Als X verandert met één standaardafwijking, hoeveel verandert Y dan in aantal
standaardafwijking?
, Regressie analyse – Algemeen
Methode om de samenhang tussen 2 (of meer) variabelen te beschrijven met behulp van een
functionele relatie (= de regressievergelijking)
Als onderzoeker veronderstel je een causaal verband op basis van theorie of veronderstellingen en
bepaal je dus zelf de richting (dat doet de data niet). Let dus op! Denk na over het verband.
Normen te stellen: groei baby consultatiebureau – wijkt het kind af van de groeicurve
(=regressielijn)?
Techniek levert de ‘best passende’ lijn die de puntenwolk (zie spreidingsdiagram) zo goed mogelijk
beschrijft om (o.a.):
1. Voorspellingen te doen
2. Theorie te vormen / te toetsen
3. Normen te stellen
4. Data te reduceren
Soorten regressies
• Enkelvoudige lineaire regressie
• Meervoudige lineaire regressie
• Logistische regressie (college 2)
• Ordinale regressie (wordt niet behandeld)
• Multinomiale regressie (wordt niet behandeld)
Keuze (regressie-model) hangt af van meetniveau afhankelijke variabele!
Vandaag kijken we vooral naar continue variabele en in college 2 naar binaire variabele
Enkelvoudige Lineaire regressie
Notatie (enkelvoudig): y = β0 + β1 * x + e waarbij
y (op y-as): afhankelijke variabele (of: outcome)
Meetniveau: altijd interval of ratio
x (op x-as): onafhankelijke variabele (of: exposure)
Meetniveau: interval of ratio, indien anders: herdefiniëren als 0 - 1 variabele
β0 & β1: regressiecoefficienten (of: parameters) waarbij
- β0: snijpunt met y-as (of: intercept).
- β1: richtingscoefficient (of: slope), dus als mijn x toeneemt, hoeveel neemt de y dan toe?
e: residu (error / voorspellingsfout) (hoeveel wijkt de waarde van die persoon af de helling? Als je
een perfecte schatting maakt, heb je geen residu)
- Verdeling is N(0,σ)
Met deze vergelijking kan je voorspellingen doen!
Wat is de ‘best passende’ lijn? (zie grafiek hierboven)
Ideaal: y = β0 + β1 * x
Beschikbaar: meetpunten (xi, yi) waarbij i = 1, 2, …, n
Dus: voorspelde waarde yi’ bij gegeven xi: yi’ = β0 + β1 * xi
- En: regressievergelijking: y’ = β0 + β1 * x
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller LauraOpheij. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $10.83. You're not tied to anything after your purchase.