Hoorcolleges Onderzoeksmethoden 3
Wanneer: 19 december 2019, 13:00-15:00
Locatie: Koningin Wilhelminaplein 13, tentamenzalen World Fashion Centre
Hoorcollege 1 (29 oktober 2019)
Dit vak gaat met name over kwantitatieve analyse: vragenlijsten en patronen in die data. Dit
noemen we statistiek.
Basics van data-analyse
Een unit of analysis is datgene waar je onderzoek naar doet: individuen, bedrijven of landen.
Meestal zijn dit individuen. De eigenschappen van deze individuen noem je variabelen. De
scores op die eigenschappen, noemen we values. Deze wil je altijd numeriek hebben, want
dat is makkelijker analyseren. Om te onthouden welke waarde met welk label
correspondeert, kan je deze values labels toekennen.
Variabelen
Je hebt onafhankelijke (doorgaans weergegeven als X) en afhankelijke (doorgaans
weergegeven als Y) variabelen. De onafhankelijke variabele heeft een vermeende invloed
op de afhankelijke variabele. Je begint in je analyse meestal met één ding wat je wil
verklaren (een afhankelijke variabele dus), welke je probeert te verklaren door één of
meerdere predictors (onafhankelijke variabelen).
Meetniveaus
Men onderscheidt verschillende meetniveaus, doorgaans maakt men onderscheid tussen
twee groepen: categoriaal en continu.
Categoriale meetniveaus gaan over verschillende groepen. Men maakt onderscheid tussen:
● Binair: hebben twee categorieën, man of vrouw bijvoorbeeld. Er is geen ordening.
● Nominaal: heeft meer dan twee categorieën, maar nog steeds geen ordening, denk
aan lievelingskleur.
● Ordinaal: er zit een volgorde tussen de categorieën, maar er kan niet mee gerekend
worden. Denk aan opleidingsniveau.
Continue meetniveaus zijn schalen waarop je iedere mogelijke score kan hebben. Men
maakt onderscheid tussen:
● Interval: er kan erg veel gescoord worden, en er kan mee gerekend worden.
● Ratio: vergelijkbaar met een interval-variabele, maar het nulpunt staat voor de
afwezigheid van een waarde.
Het verschil tussen interval en ratio zit hem in het nulpunt. Bij een ratio-variabele staat een
waarde 0 gelijk aan de afwezigheid van een waarde, denk aan percentages. Bij een interval-
variabele kan er wel 0 gescoord worden, maar staat dit niet voor de afwezigheid van een
effect. Een score 0 op temperatuur betekent dat het 0 graden is, niet dat er geen
temperatuur is.
Likertschalen
Het is natuurlijk discutabel wat een likertschaal is, officieel natuurlijk een ordinale variabele,
,maar het is wel erg handig om ermee te rekenen. Daarom gebruikt men een likert schaal
vanaf zeven waarden in de meeste gevallen als interval variabele.
Centrummaten
Men onderscheidt een aantal centrummaten:
● Mediaan (Mdn): dit is de middelste waarde. Indien er twee middelste waarden zijn,
neemt men hier het gemiddelde van. De mediaan is niet heel gevoelig voor
uitschieters.
● Modus: de waarde die het meest voorkomt, soms is een histogram ook multimodaal.
De modus is niet zozeer heel gevoelig voor uitschieters.
● Gemiddelde (M), de formule wordt gegeven door:
n
y=¿ ∑ y i ,
i=1
❑
waarbij y staat voor “gemiddelde”, Σ y ivoor de som van alle waarden en n voor het
aantal waarden dat je hebt.
Spreidingsmaten
Men onderscheidt een aantal spreindingsmaten:
● Range: het verschil tussen de laagste en hoogste score
● Standaarddeviatie: de gemiddelde afwijking van het gemiddelde. Hiervoor heb je een
aantal andere waarden nodig:
○ Deviantie: Voor iedere waarde de afwijking van het gemiddelde
○ Het kwadraat van de deviantie: omdat alle devianties bij elkaar opgeteld nul
zullen zijn, wil je ze kwadrateren (de mintekens vallen dan weg).
○ Sum of Squares: alle gekwadrateerde devianties opgeteld bij elkaar.
○ Variantie: omdat de sum
of squares groter wordt
als je steekproef groter
wordt, wil je deze
eigenlijk delen door de
degrees of freedom (n -
1)
○ Standaarddeviatie: omdat
we in het begin
gekwadrateerd hebben,
willen we nu daar de
wortel van want dat is
leuk.
Met de standaarddeviatie kan je dus aangeven hoe representatief je gemiddelde
voor je data is. Hoe kleiner je standaarddeviatie, hoe kleiner je error doorgaans is.
Hypothesetoetsen
Je hebt een idee over hoe iets in elkaar zit, om dit te toetsen zet je hypothesen op. Voor elke
toets heb je een andere hypothese. Deze hypothese gaat over de verwachte waarden op
variabelen. Doorgaans formuleren we een nulhypothese en een alternatieve hypothese.
Doorgaans zijn deze:
● H 0= er is geen effect
, ● H 1= er is wel een effect
Men onderscheidt meestal twee typen hypothesen:
● Verschil-hypotheses: Verschilt X van Y?
● Samenhang-hypotheses: Hangt X met Y samen?
Eén en tweezijdige toetsen
Bij eenzijdige toetsen heb je een vermoeden over de richting van een verband (X scoort
hoger dan Y), bij tweezijde toetsen heb je dat niet (X scoort anders dan Y).
Significantie
We bepalen altijd een significantieniveau (doorgaans 5% ofwel 0.05), dit is de kans die we
maximaal willen geven dat we toevallig bepaalde waarden vinden. In dit geval willen we dus
dat de kans kleiner is dan 5% dat de daadwerkelijke populatiewaarden afwijken van die in de
steekproef.
Hoorcollege 2 (31 oktober 2019)
Frequentieverdelingen
Een frequentieverdeling is een verdeling waarin je bij iedere score (of ieder range) aangeeft
hoe vaak deze voorkomt. Doorgaans zit (bij een normaalverdeling) bij het centrum het
hoogtepunt, maar deze kan ook meer naar links of naar rechts zitten, dit noemen we de
skewness. Positieve skewness (of scheefheid) duidt aan dat de top meer naar links zit,
negatieve scheefheid dat de top meer naar rechts zit. Een duidelijk voorbeeld van positieve
scheefheid is bijvoorbeeld inkomen. Kurtosis gaat over hoe stijl een verdeling is.