1
Hc 1 - 2 November
-> minuut 40 website voor extra opdrachten linkje
Variabelen
- Units of analysis; Datgene waarover je informatie verzamelt (wie of wat wordt in een
rij gepresenteerd)
● Individuen, bedrijven, landen, scholen etc
● Meestal individuen
- Variabelen; gemeten kenmerken van een unit of analysis
● De vragen in je vragenlijst worden variabelen
● Geslacht, leeftijd, BNP, de likert-scales in je enquête
- Values: de scores van een unit of analysis op een variabele
● man/ vrouw, leeftijd, schoenmaat
(On)afhankelijke variabelen
- Onafhankelijke variabele; het gene dat bepaald; de vermoedelijke oorzaak, noemen
we X
-> heeft invloed op iets anders ->
- Afhankelijke variabele: het vermoedelijke gevolg, noemen we Y
-> Wordt beïnvloed door de onafhankelijke
● Per analyse vaak 1 afhankelijke, maar meerdere onafhankelijke mogelijk
● Theorie en je hoofdvraag zijn bepalend;
- Hoe beinvloed lidmaatschap van studentenverenigingen sociaal kapitaal (Y)?
- Wat is het effect van sociaal kapitaal (X) op socio-economische status (Y)?
(sociaal kapitaal bij de vragen onafhankelijk & afhankelijk dus)
(geslacht en leeftijd worden niet door iets anders beïnvloedt dus onafhankelijk)
tentamenvraag vorig jaar;
Het ging zojuist over data met individuen als de unit of analysis. verzin een onderzoeksvraag
waarbij landen de unit of analysis zijn.
-> wat is het effect van het werkloosheidspercentage op het BMP van het land (varieert dus
op landsniveau)
Meetniveau’s
● categoriaal; Mensen vallen in een groep / variabelen met verschillende categorieën
- Binair: 2 categorieën (ja/nee, man/vrouw)
- Nominaal: meer dan 2 categorieën (welke politieke partij gestemd? 17
groepen dan, je kan er niet tussenin zitten)
- Ordinaal: inherente ordening (bepaalde volgorde in groepen, mbo,hbo, wo of
leeftijdsgroepen waaruit je kan kiezen)
Belangrijk: je kan hier nergens tussen iets inzitten
● Continu: Kan in theorie iedere waarde aannemen (schaal) (leeftijd)
- Interval: Verschillen op schaal zijn betekenisvol
- Ratio: ratios zijn betekenisvol (vanwege een 0 punt)
, 2
Meetniveaus in SPSS
● in SPSS alleen nominaal, ordinaal, en scale
Categoriaal:
Binair -> SPSS: Nominaal
Nominaal -> SPSS: Nominaal
Ordinaal -> SPSS: Ordinaal
Continu:
Interval ->SPSS: Scale
Ratio -> SPSS: Scale
Waarom zijn meetniveaus zo belangrijk?
● Meetniveau bepaalt welke statistische toets mogelijk is; gaat over de formulering
- Voor afhankelijke variabele is ‘scale’ het
beste
- Vaak meerdere likert-scales
samengevoegd
● Meetniveau niet vaststaand; antwoordopties van
een laag bepalen het meetniveau van een
variabele
vraag 1: binair - vraag 2: nominaal - Vraag 3: ordinaal/
scale
Tentamenvraag;
Wat is het meetniveau van onderstaande vraag/ variabele?
Hoeveel uur per dag spendeert u naar schatting achter uw computer of laptop?
- 0-3 uur - 6-9 uur
- 3-6 uur - meer dan 9 uur
Antwoord: ordinaal (omdat je een groep kiest; of in die, die, die & er zit een logische
ordening in; zo met 7 antwoorden opgesteld zou het ook een scale kunnen zijn)
Gemiddelde en standaarddeviatie
2 kenmerken om data mee te beschrijven;
(je hebt een variabele, mensen erover geïnterviewd en iedereen andere values; stel je die
kolom voor; dan kan je daar verschillende dingen mee doen; )
Centrummaten: Het centrum vd data
, 3
● Mediaan -> middelste score
● Modus -> meest voorkomende waarde
● Gemiddelde (y met streepje erboven is het teken ervoor)
Spreidingsmaten: spreiding van alle getallen
● Range -> wat is de laagste/ hoogste scoren
● Standaarddeviatie; gemiddelde afwijking van
het gemiddelde
Sum of squares = de kwadratensom; zijn alle
kwadranten bij elkaar opgeteld probleem;
afhankelijk van het aantal scores
(respondenten) dus; sum of squares groter
wanneer je dataset groter is -> je deelt de kwadratensom door het aantal observaties
-1
De sum of Squares, Variance en standard deviation geven allemaal ongeveer hetzelfde
weer:
- De spreiding van de data
- Maat voor error/ afwijking in de data
- Hoe representatief het gemiddelde is voor de data
Een kleinere standaarddeviatie betekent dat je data dus representatiever is (want afwijking tot
het gemiddelde is per punt kleiner tot het gemiddelde)
Hypothesen toetsen
Van vaag idee naar een kwantitatief toetsbare hypothese;
● precies: specifieke formulering per toets
● Toetsbaar met data: verwachte relatie tussen 2 variabelen (1 hypothese; waar of niet
waar, zit niets tussenin)
● Potentieel falsifieerbaar; goed of fout
Hypothese komt dus in een tweetal;
H0: er is geen effect (ontkenning van je idee, de situatie waarin je verwachting niet zou zijn)
H1: er is wel effect (dat wat je verwacht op basis van je idee)
-> hoe groot is de kans dat je H1 waar is
2 typen hypothesen (op verschillende manier toetsen);
1) Verschil tussen twee of meer groepen
- Mannen en vrouwen verschillen wb hun mening over abortus
- Gamma studenten zijn extraverter dan alfa en bèta studenten (verschil 3 groepen)
2) Samenhang tussen twee variabelen
- Roken hangt samen met meer gezondheidsklachten
- Er is een positieve relatie tussen leeftijd en conservatisme
Eenzijdig toetsen; je hebt een vermoeden over de richting van het verband
Tweezijdig toetsen; je hebt geen vermoeden over de richting van het verband
Dit doe je op basis van literatuur
Hypothese; het idee over de populatie dat je gaat toetsen dmv een steekproef om zo iets
over de hele populatie te zeggen
, 4
● In de steekproef vind je altijd een (klein) effect. Het gaat erom de kans te bepalen
dat je een effect in de steekproef vindt, terwijl dat effect er in de populatie niet is
● Hoe groot is de kans in de steekproef deze waarden te vinden, terwijl eigenlijk
de H0 waar is in de populatie?
- Als die kans groot is, verwerp je de H1; effect is niet significant
- Als die kans klein is, nemen we H1 aan; effect significant
p waarde = de kans dat je concludeert dat de H1 waar is (dus er zit daadwerkelijk verschil
tussen groepen)
- als de P waarde heel hoog is zoals 1; dan is de kans dat je conclusie verkeerd is erg
hoog
tentamenvraag:
Als de standaarddeviatie van een effect groter wordt, maar verder alle gegevens gelijk
blijven, wat gebeurt er dan met de kans op het vinden van een significant effect?
-> je P wordt hoger, dus je kans op kloppen wordt kleiner
HC2 - 5 Nov
Het idee achter statistiek
Significantie
- Bij statistiek bepalen we de kans om in de sample een bepaald effect te vinden,
terwijl in werkelijkheid, in de populatie, helemaal geen effect bestaat. (als er geen
effect is zou je verwachten dat mannen & vrouwen hetzelfde scoren, maar hoe groot is die
kans?)
● kans = heel klein (wel significant, ik geloof in het effect) kleiner dan 0,05
● Kans = groot (niet significant, durf niet aan om te zeggen dat er verschil is) groter dan
0,05
● De kans is afhankelijk van de standaarddeviatie (spreiding in je groep, kans op
significant kleiner) -> sample size (hoe groter, hoe sneller significant effect) & de grootte
van het effect
● Hoe bepaal je de kans (= de p waarde)? -> SPSS
Bell curve / Normaal verdeling
-> Omzetten naar een standaard normaal verdeling en z-scores
(want we weten niet heel veel van een normaalverdeling, niet precies genoeg )
Bij normaal verdeling kan je niet de kans zien, bij des standaard
normaal verdelinng kan je precies de kans berekenen bij een bepaalde
z score