Statistiek 2
Les 1: Intro
• Data, gegevens en cijfers en wat we wel kunnen doen
• Vervolg op statistiek 1
• Vb. Onderzoek van Tom Brooks:
o Beste verklaring voor deze opmerkelijke patronen: natuurlijke eigenschappen
spelen hier een rol in (de stenen, die in een stervormige figuur gebouwd zijn
in Engeland; Tom Brooks)
o Carrefourwinkels in kaart brengen (hier in België)
o Nog eens dezelfde vraag: meerderheid denkt dat het iets anders is (specifiek
kiezen voor bepaalde winkels bijvoorbeeld, zo kan je zeker een figuur
uitkomen)
o Eigenlijk zocht hij gewoon naar bepaalde patronen aangezien hij een grote
dataset had
o Matt Parker: onderzoek van Tom Brooks anders gedaan met winkels
• Vb. Platenverkoop zit terug in de lift
o Zo zie je dat er in 2007 een dipje had en daarna terug omhoog gekomen
o Vinyl is terug!
o Maar beeld toont dit enorm aan, als je de hele grafiek dan ziet dan is dit niet
echt het geval
o 2de grafiek is veel uitgebreider qua tijd en zo zie je dat dit niet zo spectaculair
is dezer dagen
• Vb. Data rond predictie COVID-19 (voorspellingen maken hoe de data gaat
evolueren)
o Kijken hoelang dit gaat duren
o Piek kunnen voorspellen
• Waarom statistiek in psychologie?
o Verwerking onderzoeksdata (die je zelf gaat genereren. Verzamelen)
o Betere interpretatie van psychologische literatuur
o Kritische interpretatie onderzoeksrapportering in media
• Praktisch:
o 11 modules doorlopen (theorie en oefeningen)
o Bij die oefeningen: deadlines
o Voor de paasvakantie: hfst 1, 2 en 3
o SPSS terug downloaden (via Academic Software)
o Basis van statistiek 1 voor SPSS terug opfrissen
o Examen (open boek examen; enkel beide boeken meebrengen):
▪ MPC: 10 punten (deel 1 op papier)
▪ Toepassing SPSS: 10 punten (deel 2 op computer)
• 3 of 4 oefeningen (9/10)
• Deadlines insturen = 1 punt gratis
Hoofdstuk 1: Wat is inductieve statistiek en wat is het nut ervan?
1
,• Vb. Kan muziek een invloed hebben op depressieve gevoelens van mensen? (verschil
tssn genres)
• Hoe hoger de score, hoe positievere gevoelens
• Er is een verschil (maar kijken of het verschil ook groot genoeg is)
• Kernprobleem van inductieve statistiek: kijken hoe we iets beslissen of het een
betekenisvol verschil is of niet
• Statistiek biedt regels som te beslissen: door hypothesetoetsing en significatie
• Situeert zich in de empirische cyclus bij inductieve analyse
• Hypothesetoetsing:
o Statistische significantie nagaan door kansberekening (typische vraag die we stellen:
Is het geobserveerde verschil groot genoeg om significant te zijn?)
• Kansberekening:
o Hoe moeten we die kans berekenen?
▪ Op basis van kansverdelingen (Vb. Standaardnormale verdeling)
▪ Met behulp van verschillende toetsen
o Wat is dan een “grote” en een “kleine” kans?
▪ 5% of 0, 05 = meest courant
• Bij inductieve statistiek nooit 100% zeker van de conclusie (omdat we met een steekproef
werken en niet de hele populatie)
• Hoe meer studies over iets gedaan wordt, hoe meer wetenschappelijke evidentie natuurlijk
• Onzekerheid is geen probleem, als we maar de mate van onzekerheid kennen
o Vb. “we concluderen met 95% zekerheid dat popfunk zorgt voor een betere
gemoedstoestand dan melancholische rock”
• Toetsen = uiteenlopend
2
, o Toetsingssituaties zijn heel uiteenlopend:
▪ Verschil in depressie bij verschillende muziek?
▪ Verschil in depressie voor en na beluisteren van muziek?
▪ Verschil in depressie bij verschillende muziek en 2 methoden
gedragstherapie?
▪ 500 deelnemers of slechts 20?
• Misbruik van statistiek:
o Onduidelijke steekproef (Vb. 95% van Belgen is tevreden over Activia)
o Gebrek aan context (Vb. Duracell batterijen gaan tot 5 maal langer mee)
o Interne validiteit (Vb. Laat de onderzoeksopzet toe om causale conclusies te
trekken?)
▪ Ongeoorloofde causale conclusie trekken
▪ Interne validiteit= mate waarin we met een onderzoeksontwerp causale
conclusies kunnen trekken over effect van OV op AV
▪ 3 voorwaarden om te spreken over een causaal verband:
• Geen andere verklaringen voor gevonden verband
o Vb. Kunnen kids beter lezen als ze door hun ouders vaak
worden voorgelezen?
▪ Test bij 20 kids die vaak worden voorgelezen en 20
kids die nooit worden voorgelezen
▪ Eerste groep scoort 7, tweede groep 6
▪ Er is een significant verschil, maar is er ook interne
validiteit? (er moeten systematische verschillen zijn)
• Oorzaak moet in tijd voorafgaan aan het gevolg
• Effect van OV op AV in voorspelde richting
▪ Om alternatieve verklaringen uit te sluiten: experimenteel onderzoek
uitvoeren = methodologie: noodzakelijk om de juiste conclusies te trekken,
statistiek alleen is onvoldoende
• Randomiseren
• Voormeting
• Nameting
• Controleren van storende variabelen
o We mogen de getallen niet misbruiken, want mensen willen altijd getallen hebben
om die extra bevestiging te hebben (altijd kijken hoe dat getal tot stand gekomen is;
wie ondervraagd? Wat bevraagd? Wat is de steekproef?)
o We mogen ook niet te causaal nadenken, niet alles heeft een verwantschap met
elkaar
o Ongeoorloofde generalisatie – externe validiteit (= mate waarin resultaten van het
onderzoek kunnen gegeneraliseerd worden over:
▪ Situaties (lijkt de onderzoekssituatie genoeg op de “dagelijkse” situatie?)
▪ Methoden (wordt hetzelfde resultaat gevonden met een andere methode?)
▪ Tijd (zelfde resultaten in een andere periode?)
▪ Populaties (zelfde resultaten in andere populatie?)
• Samenvatting:
o Toetsende statistiek volgt op beschrijvende statistiek in de empirische cyclus
o Bedoeling is om op basis van verzamelde data een onderbouwde beslissing te
nemen over verband/ verschillen
3
, o Dat we over deze beslissing nooit 100% zeker zijn is niet erg, zolang we maar de
mate van onzekerheid kennen (hiervoor kansberekening nodig)
o Statistiek is geen wetenschap op zich, statistische conclusies zijn pas waardevol als
ook aan de randvoorwaarden voldaan is en statistiek niet misbruikt wordt. (=
hulpmiddel)
• Opdracht van slides:
o OV: geslacht (nominaal) en opvoedingsstijl (nominaal)
o AV: welbevinden (ordinaal; niet interval= pas als we ze samentellen)
o Steekproeftrekking: aselecte steekproef: clustersteekproef (eerst selectie uitpikken
en dan weer eens), werkt sneller en is wel representatief
o Samenhang tussen variabelen opvoedingsstijl en welbevinden berekenen door chi-
kwadraat (dmv. Een kruistabelanalyse)
• Oefeningen maken (deadline 31 maart) = GEDAAN
• Herhaling van statistiek 1 in die slides
• Oefening 1.04:
o Hercoderen
▪ Transform – recode into different variabeles
▪ Dan best klikken op de variabelen en deze naam omzetten naar ‘variabeles
names’ = makkelijker
▪ Gehercodeerde variabele een nieuwe naam geven (vb. rmotiv3) + op
‘change’ drukken
▪ Dan ‘old en new values’ drukken
▪ Bij value ingeven: vb. 5 ingeven en dan bij New: 1 (tegenovergestelde)
▪ Oke en afsluiten
o Schaalscore berekenen = per respondent het gemiddelde van alle items binnen
elke schaal. (voor zowel schaal motivatie als schaal tijdsbeheer)
▪ Transform – computer variable
▪ Mean en dan alle variabelen invullen (de negatieve eruit halen en
vervangen door de gehercodeerde)
o Grafische voorstelling maken (zijn beide schalen, dus voor beide best een
histogram gebruiken)
o Berekenen (Analyse – descriptive statistics – frequencies
▪ Motivatie
• Gem: 3,81
• Std: 0,5576
• Min: 1,75
• Max: 5
▪ Tijdsbeheer
• Gem: 3,31
• Std: 0,6237
• Min: 1,13
• Max: 5
▪ Berekenen van percentage deelnemers dat lager scoort dan 3.25 op de schaal
motivatie = zwak = 22,8 %
4
Les 1: Intro
• Data, gegevens en cijfers en wat we wel kunnen doen
• Vervolg op statistiek 1
• Vb. Onderzoek van Tom Brooks:
o Beste verklaring voor deze opmerkelijke patronen: natuurlijke eigenschappen
spelen hier een rol in (de stenen, die in een stervormige figuur gebouwd zijn
in Engeland; Tom Brooks)
o Carrefourwinkels in kaart brengen (hier in België)
o Nog eens dezelfde vraag: meerderheid denkt dat het iets anders is (specifiek
kiezen voor bepaalde winkels bijvoorbeeld, zo kan je zeker een figuur
uitkomen)
o Eigenlijk zocht hij gewoon naar bepaalde patronen aangezien hij een grote
dataset had
o Matt Parker: onderzoek van Tom Brooks anders gedaan met winkels
• Vb. Platenverkoop zit terug in de lift
o Zo zie je dat er in 2007 een dipje had en daarna terug omhoog gekomen
o Vinyl is terug!
o Maar beeld toont dit enorm aan, als je de hele grafiek dan ziet dan is dit niet
echt het geval
o 2de grafiek is veel uitgebreider qua tijd en zo zie je dat dit niet zo spectaculair
is dezer dagen
• Vb. Data rond predictie COVID-19 (voorspellingen maken hoe de data gaat
evolueren)
o Kijken hoelang dit gaat duren
o Piek kunnen voorspellen
• Waarom statistiek in psychologie?
o Verwerking onderzoeksdata (die je zelf gaat genereren. Verzamelen)
o Betere interpretatie van psychologische literatuur
o Kritische interpretatie onderzoeksrapportering in media
• Praktisch:
o 11 modules doorlopen (theorie en oefeningen)
o Bij die oefeningen: deadlines
o Voor de paasvakantie: hfst 1, 2 en 3
o SPSS terug downloaden (via Academic Software)
o Basis van statistiek 1 voor SPSS terug opfrissen
o Examen (open boek examen; enkel beide boeken meebrengen):
▪ MPC: 10 punten (deel 1 op papier)
▪ Toepassing SPSS: 10 punten (deel 2 op computer)
• 3 of 4 oefeningen (9/10)
• Deadlines insturen = 1 punt gratis
Hoofdstuk 1: Wat is inductieve statistiek en wat is het nut ervan?
1
,• Vb. Kan muziek een invloed hebben op depressieve gevoelens van mensen? (verschil
tssn genres)
• Hoe hoger de score, hoe positievere gevoelens
• Er is een verschil (maar kijken of het verschil ook groot genoeg is)
• Kernprobleem van inductieve statistiek: kijken hoe we iets beslissen of het een
betekenisvol verschil is of niet
• Statistiek biedt regels som te beslissen: door hypothesetoetsing en significatie
• Situeert zich in de empirische cyclus bij inductieve analyse
• Hypothesetoetsing:
o Statistische significantie nagaan door kansberekening (typische vraag die we stellen:
Is het geobserveerde verschil groot genoeg om significant te zijn?)
• Kansberekening:
o Hoe moeten we die kans berekenen?
▪ Op basis van kansverdelingen (Vb. Standaardnormale verdeling)
▪ Met behulp van verschillende toetsen
o Wat is dan een “grote” en een “kleine” kans?
▪ 5% of 0, 05 = meest courant
• Bij inductieve statistiek nooit 100% zeker van de conclusie (omdat we met een steekproef
werken en niet de hele populatie)
• Hoe meer studies over iets gedaan wordt, hoe meer wetenschappelijke evidentie natuurlijk
• Onzekerheid is geen probleem, als we maar de mate van onzekerheid kennen
o Vb. “we concluderen met 95% zekerheid dat popfunk zorgt voor een betere
gemoedstoestand dan melancholische rock”
• Toetsen = uiteenlopend
2
, o Toetsingssituaties zijn heel uiteenlopend:
▪ Verschil in depressie bij verschillende muziek?
▪ Verschil in depressie voor en na beluisteren van muziek?
▪ Verschil in depressie bij verschillende muziek en 2 methoden
gedragstherapie?
▪ 500 deelnemers of slechts 20?
• Misbruik van statistiek:
o Onduidelijke steekproef (Vb. 95% van Belgen is tevreden over Activia)
o Gebrek aan context (Vb. Duracell batterijen gaan tot 5 maal langer mee)
o Interne validiteit (Vb. Laat de onderzoeksopzet toe om causale conclusies te
trekken?)
▪ Ongeoorloofde causale conclusie trekken
▪ Interne validiteit= mate waarin we met een onderzoeksontwerp causale
conclusies kunnen trekken over effect van OV op AV
▪ 3 voorwaarden om te spreken over een causaal verband:
• Geen andere verklaringen voor gevonden verband
o Vb. Kunnen kids beter lezen als ze door hun ouders vaak
worden voorgelezen?
▪ Test bij 20 kids die vaak worden voorgelezen en 20
kids die nooit worden voorgelezen
▪ Eerste groep scoort 7, tweede groep 6
▪ Er is een significant verschil, maar is er ook interne
validiteit? (er moeten systematische verschillen zijn)
• Oorzaak moet in tijd voorafgaan aan het gevolg
• Effect van OV op AV in voorspelde richting
▪ Om alternatieve verklaringen uit te sluiten: experimenteel onderzoek
uitvoeren = methodologie: noodzakelijk om de juiste conclusies te trekken,
statistiek alleen is onvoldoende
• Randomiseren
• Voormeting
• Nameting
• Controleren van storende variabelen
o We mogen de getallen niet misbruiken, want mensen willen altijd getallen hebben
om die extra bevestiging te hebben (altijd kijken hoe dat getal tot stand gekomen is;
wie ondervraagd? Wat bevraagd? Wat is de steekproef?)
o We mogen ook niet te causaal nadenken, niet alles heeft een verwantschap met
elkaar
o Ongeoorloofde generalisatie – externe validiteit (= mate waarin resultaten van het
onderzoek kunnen gegeneraliseerd worden over:
▪ Situaties (lijkt de onderzoekssituatie genoeg op de “dagelijkse” situatie?)
▪ Methoden (wordt hetzelfde resultaat gevonden met een andere methode?)
▪ Tijd (zelfde resultaten in een andere periode?)
▪ Populaties (zelfde resultaten in andere populatie?)
• Samenvatting:
o Toetsende statistiek volgt op beschrijvende statistiek in de empirische cyclus
o Bedoeling is om op basis van verzamelde data een onderbouwde beslissing te
nemen over verband/ verschillen
3
, o Dat we over deze beslissing nooit 100% zeker zijn is niet erg, zolang we maar de
mate van onzekerheid kennen (hiervoor kansberekening nodig)
o Statistiek is geen wetenschap op zich, statistische conclusies zijn pas waardevol als
ook aan de randvoorwaarden voldaan is en statistiek niet misbruikt wordt. (=
hulpmiddel)
• Opdracht van slides:
o OV: geslacht (nominaal) en opvoedingsstijl (nominaal)
o AV: welbevinden (ordinaal; niet interval= pas als we ze samentellen)
o Steekproeftrekking: aselecte steekproef: clustersteekproef (eerst selectie uitpikken
en dan weer eens), werkt sneller en is wel representatief
o Samenhang tussen variabelen opvoedingsstijl en welbevinden berekenen door chi-
kwadraat (dmv. Een kruistabelanalyse)
• Oefeningen maken (deadline 31 maart) = GEDAAN
• Herhaling van statistiek 1 in die slides
• Oefening 1.04:
o Hercoderen
▪ Transform – recode into different variabeles
▪ Dan best klikken op de variabelen en deze naam omzetten naar ‘variabeles
names’ = makkelijker
▪ Gehercodeerde variabele een nieuwe naam geven (vb. rmotiv3) + op
‘change’ drukken
▪ Dan ‘old en new values’ drukken
▪ Bij value ingeven: vb. 5 ingeven en dan bij New: 1 (tegenovergestelde)
▪ Oke en afsluiten
o Schaalscore berekenen = per respondent het gemiddelde van alle items binnen
elke schaal. (voor zowel schaal motivatie als schaal tijdsbeheer)
▪ Transform – computer variable
▪ Mean en dan alle variabelen invullen (de negatieve eruit halen en
vervangen door de gehercodeerde)
o Grafische voorstelling maken (zijn beide schalen, dus voor beide best een
histogram gebruiken)
o Berekenen (Analyse – descriptive statistics – frequencies
▪ Motivatie
• Gem: 3,81
• Std: 0,5576
• Min: 1,75
• Max: 5
▪ Tijdsbeheer
• Gem: 3,31
• Std: 0,6237
• Min: 1,13
• Max: 5
▪ Berekenen van percentage deelnemers dat lager scoort dan 3.25 op de schaal
motivatie = zwak = 22,8 %
4