Dit is een uitgebreide samenvatting van alle hoorcolleges van Statistiek 2 uit jaar 2 Pedagogische Wetenschappen/Psychologie aan de Vrije Universiteit Amsterdam. Er is veel extra uitleg en voorbeelden zodat alles duidelijk is.
Hoorcollege 1.1 Cursusoverzicht en herhaling statistiek 1 (hst 1-4)
07-02-2022
1. Waarom hebben we statistiek nodig?
= je hoeft niet iedereen uit je doelpopulatie, de groep waar je wat over wil weten, te meten om toch een
generaliseerbare uitspraak te kunnen doe over de gehele groep; dit doe je doormiddel van een representatieve
steekproef
2. Cursusoverzicht
Doelstellingen cursus:
• Uitbreiden kennis statistiek 1
• Verbanden tussen 3 of meer variabelen
• Regressie -en variantieanalyse
• Uitvoeren statistische analyses in SPSS
• Leren rapporteren uitkomsten
Leerstof tentamen (40%)
- Boek Agresti, A (2018). Statistical methods for the social sciences
- Grasple oefeningen + oefenvragen Canvas
- Lijst met effectmaten: zie canvas
- Collegeslides
3. Herhaling statistiek 1
Meetniveau ’s van variabelen
Variabele: een eigenschap die kan variëren tussen personen in een steekproef of populatie (bv lengte, IQ).
Elke variabele heeft een eigen meetniveau die bepaalt welke statistische methoden/toetsen gebruikt kunnen
worden
Nominaal: categorische variabele, met ongeordende categorieën (geboorteland)
Ordinaal: categorische variabele, met geordende categorieën (kledingmaten)
Interval: continuele variabele, met relatief nulpunt; een waarde van 0 op de variabele betekent niet de
volledige afwezigheid van de eigenschap die je meet (temperatuur in Celsius)
Ratio: continue variabele, met absoluut nulpunt; een waarde van 0 op de variabele betekent de volledige
afwezigheid van de eigenschap die je meet (reactietijd gemeten in ms, lengte)
Nominaal Op zijn hoogst indeling in ongeordende categorieën.
Classificatie als wel/niet behoren tot dezelfde
categorie. Codering kan met cijfers, letters of
symbolen
Ordinaal Op zijn hoogst indeling in geordende categorieën.
Classificatie als groter dan, gelijk en kleiner dan.
Rang ordenen kan op 2 manieren: hoog naar laag &
laag naar hoog
Nominaal + ordinaal samen categorisch
Interval Maakt naast ordening ook verschillen interpretabel
door gelijke meeteenheden
Ratio Heeft naast ordening en gelijke meeteenheden een
absoluut nulpunt
Interval + ratio samen metrisch of kwantitatief
‘fuzzy’ variabelen: onderscheid tussen bij welk meetniveau een variabele hoort is lastig (bv somscore van
Likert-schalen) (soms het geval bij ordinale variabelen)
1
, Anne Fleur Duvekot - 2648775
Omgaan met meetniveau ’s in de praktijk
- Meeste methoden voor interval en ratio → parametrische methoden; de variabelen die je probeert te
voorspellen (y-variabele) (afhankelijke variabele) is op interval of ratio niveau = continue afhankelijke
variabelen
- Non-parametrische methoden minder bekend en gebruikt (bv Wilcoxon of Friedman) = categorische
afhankelijke variabelen
- In praktijk toch vaak parametrische methoden gebruikt voor ordinale en discrete data met veel
mogelijke waardes (bv Likert-schalen)
Beschrijvende statistiek
- Het samenvatten van de data middels tabellen en figuren
- Samenvatten per variabele (verdeling), samenvatten voor meerdere variabelen (samenhang)
- Verschillende beschrijvende statistieken voor categorische (nominaal + ordinaal) vs kwantitatieve
(interval + ratio) data
- Zorg ervoor dat je data altijd eerst exploreert voordat je werkelijk gaat analyseren; je moet zeker
weten dat je de juiste toets gebruikt
Beschrijvende statistiek voor categorische data: frequenties en staafdiagrammen
Frequentie= hoevaak elk antwoord is gegeven
Proportie= frequentie/ het totaal aantal mensen
Percentage= proportie x 100
Beschrijvende statistiek voor kwantitatieve data: frequenties en histogrammen
➢ Bij interval en ratio variabelen kun je nog steeds werken met frequenties, dus hoe vaak komt elke
score voor. Maar bij kwantitatieve variabelen zullen er snel veel mogelijke waardes zijn en dan krijg je
een hele lange tabel als je van alle waardes moet aangeven hoe vaak ze voorkomen. Daarom wordt er
gebruik gemaakt van een bepaalde range van frequenties.
➢ Voor de grafische weergave wordt gebruikt gemaakt van
een histogram met op de x-as alle mogelijke waardes die de
variabele kan aannemen en op de y-as hoe vaak elk van die
waardes voorkomt. Het verschil met het staafdiagram is dat de
balkjes bij een histogram aan elkaar zitten; dit geeft aan dat het
een continue variabele is en dus elke waarde kan aannemen
➢ Ook kan je kwantitatieve data beschrijven met een stem-and-leafplot; dit is vergelijkbaar met een
histogram
Beschrijven van verdelingsvormen
1. Normaalverdeling/ klokvormige variabele
2. U-vormige/ dalvormige
3. Scheef naar rechts; meeste mensen scoren laag
4. Scheef naar links; meeste mensen scoren hoog
Beschrijving van datacentrum
Gemiddelde: alle scores bij elkaar opgeteld/ het totaal aantal scores
Mediaan: de middelste score (50% van de scores liggen boven dit getal & 50% ligt eronder)
Modus: de meest voorkomende score
→ Bij een volledig symmetrische verdeling (normaalverdeling) dan zijn alle 3 deze maten gelijk aan elkaar
Beschrijving van data variabiliteit
Range: verschil tussen minimum en maximum
Deviatie: yi – y = score op y-variabele van persoon i – gemiddelde van variabele y
2
, Anne Fleur Duvekot - 2648775
➢ Geeft dus weer in hoeverre iemands score verschilt van de gemiddelde score van de steekproef
Kwadratensommen:
- Door te kwadrateren worden zowel negatieve als positieve getallen positief; en dat willen we zodat
we een algemene maat hebben voor in hoeverre de scores van mensen verschillen van het
gemiddelde
Variantie:
- De kwadratensom/ n-1 → dat corrigeert voor de grootte van je steekproef (gestandaardiseerde maat)
Standaarddeviatie:
= maat voor variabiliteit; hoe ver elke score gemiddeld is verwijderd van het
gemiddelde
- De wortel van de variantie → deze heeft het kwadraat van eerder op
De empirische regel
Aannames normaalverdeling:
De afwijking van het gemiddelde wordt uitgedrukt in standaarddeviaties:
• 68.2% van testscores X ligt max 1 SDe boven of onder de
ware score T
• 95.4% van testscores X ligt max 2 SDe boven of onder de
ware score T
• 99.7% van testscores X ligt max 3 SDe boven of onder de
ware score T
De meetfout is normaal verdeeld (soms – soms + vaak rondom
gemiddelde)
- µ= 0
Scores binnen 1 SDe van het gemiddelde, oftewel de binnenste 68.2% noemen we gemiddeld.
Bij variabelen met weinig variabiliteit liggen de scores heel dicht bij het gemiddelde.
Variabelen met veel variabiliteit, zijn wijd verspreid; veel scores liggen ver van het
gemiddelde.
Deze variabele heeft dus een grotere standaarddeviatie.
Klassificeren (measures of position)
- Kwartielen: data verdelen in 4 gelijke delen
- Interkwartiel afstand (IQR): verschil tussen 1e en 3e kwartiel
- Mediaan: 2e kwartiel, 50%
- Outlier: als score 1.5 x IQR boven of onder 3e of 1e kwartiel ligt
(hierbij moet je je afvragen of deze score misschien uit de data
moet worden verwijderd)
Kansverdelingen
Kans: de kans dat een observatie een bepaalde waarde aanneemt
Random variabele: zo noemen we elke variabele waarover we een kansberekening doen
- Elke mogelijke waarde van een variabele heeft een bepaalde kans
Kansverdeling: alle mogelijke waardes van variabele en hun kansen
Discrete (categorische) kansverdelingen:
➢ Elke mogelijke waarde heeft een kans
➢ Histogram, met op de y-as de kansen en op de x-as de verschillende uitkomsten
3
, Anne Fleur Duvekot - 2648775
Continue (kwantitatieve) kansverdelingen:
➢ Oneindig aantal mogelijke waardes, kans voor gekozen intervallen van waardes
➢ Figuur met kans= oppervlakte onder curve
➢ Je kan niet de kans op 1 specifieke score berekenen, wel de kans op een bepaald interval
3 soorten kansverdelingen in de statistiek:
1. Verdelingen van variabelen in de populatie: de ware verdeling van de variabele in de populatie waar
we een uitspraak over doen
2. Verdelingen van variabelen in de steekproef: de verdeling van de variabele in een klein deel van de
populatie
→ Deze 2 kansverdelingen geven informatie over hoe de variabele er in de echte wereld uitziet
3. Verdelingen van steekproefgrootheden: dit zijn dingen die ons informatie geven over de steekproef
(bv gemiddelde)
→ Dit is een theoretische verdeling, bestaat niet in het echt, alleen gebruikt voor statistiek
In alle 3 de gevallen speelt de normaalverdeling een belangrijke rol
Populatieverdeling van IQ-scores
Klokvormige verdeling (normaalverdeling) → empirische regel +
z-scores
Formule z-score:
➢ Om kans voor y te bepalen, gebruik z= (y- µ) / σ daarna kans in z-tabel opzoeken
➢ Om y-waarde te vinden voor gegeven kans, gebruik y= µ + z x σ
➢ Als ruwe data normaal verdeeld, conversie naar z geeft standaard normaalverdeling
➢ Als ruwe data niet normaal verdeeld, dan z-score ook niet
Rekenvoorbeeld. Hoeveel % van de volwassenen haalt een score hoger dan 120 op een IQ-test? (µ= 100; σ= 15)
1. z= (y- µ) / σ → z= (120 – 100)/15= 1.33 (dit betekent dat de score van 120, 1.33 standaarddeviaties
boven het gemiddelde ligt)
2. Opzoeken in z-tabel: kans= .0918
3. Dus: ongeveer 9% van de volwassen bevolking heeft een IQ hoger dan 120
Verdelingen van steekproef grootheden
• Populatieverdeling: populatiegemiddelde µ is (vaak onbekende) parameter
• Steekproefverdeling: steekproefgemiddelde y is steekproefgrootheid (sample statistic) → dit is een
benadering voor het populatiegemiddelde waarin we zijn geïnteresseerd
• Steekproevenverdeling: verdeling van steekproefgrootheid over steekproeven heen → heel veel
gemiddeldes schatten van verschillende steekproeven; hierdoor is de uitkomst betrouwbaarder en
lijkt meer op de populatieverdeling
Steekproef en vertrouwen
- Doel statistiek: op basis van een steekproef uitspraak over populatie
- Uitspraak meestal over gemiddelde of proportie
- Weinig vertrouwen want door kleine steekproef kan schatting nogal afwijkend zijn
- Naarmate je meer observaties ziet heb je steeds meer vertrouwen
4
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper annefleur_duvekot. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €6,98. Je zit daarna nergens aan vast.