Hoorcollege 1
Aantal variabelen
Univariaat - 1 variabele
Bivariaat - 2 variabelen (hoe verhouden deze naar elkaar, relatie analyseren)
Multivariaat - 3 of meer variabele (voorspellen, hoe dragen variabelen hier aan bij)
Beschrijvende en Inferentiële Statistiek
Populatie dmv sampling → sample
sample → populatie dmv inferentiële statistiek (iets zeggen over populatie vanuit steekproef)
Een parameter is een numerieke samenvatting van de populatie
Beschrijvende statistiek → vat verzamelde informatie samen (bijv. gemiddelde)
Randomisatie - Om inferenties te kunnen maken over de populatie willen we een representatieve steekproef.
- Hiervoor gebruiken we randomisatie: het willekeurig kiezen van onderzoekseenheden (bij een survey
mensen) uit een grotere groep om mee te doen aan je onderzoek. Dit zorgt ervoor dat alle eenheden in de groep
een gelijke kans hebben om geselecteerd te worden
- Mits de steekproef (n) groot genoeg is, is dit een effectieve manier om tot een representatieve te komen zonder
bias
Steekproeffout = de fout die we maken bij het voorspellen van de populatie parameter op basis van de steekproef
(gebeurt eigenlijk altijd, kans kleiner maken door grotere steekproef)
Wat kan er mis gaan bij het nemen van een steekproef?
Is steekproef representatief voor gehele populatie (facebook gebruikers zijn niet representatief)
Belangrijk rekening houden met wie jij met je survey bereikt (media platformen zijn sturend voor doelgroep)
1. Selectie bias - bij steekproeftrekking bepaalde groepen over- of ondervertegenwoordigd
> vrijwilligersbias: deelnemers melden zichzelf aan
> online survey op bepaalde platforms
grote n (grote steekproef) helpt hier niet!
2. Response bias (bij survey onderzoek) - systematische fout die optreedt wanneer de antwoorden van
deelnemers worden beïnvloed door bepaalde factoren, waardoor de antwoorden niet de werkelijke opvattingen,
attitudes, of gedrag van de deelnemers weerspiegelen. Hoe stel je een vraag, welk antwoord krijg je dan.
> Sociale wenselijkheid bias
> Instemmingsbias (meepraten met onderzoeker)
> Interviewerbias: interviewer (en wat hij/zij representeert) kan een bepaalde reactie ontlokken, resultaten
beïnvloeden
3. Nonresponse bias - systematische fout die optreedt wanneer bepaalde individuen die voor een onderzoek zijn
geselecteerd, niet deelnemen of niet reageren. Als de niet-respondenten systematisch verschillen van de
respondenten, kan dit leiden tot een vertekening van de onderzoeksresultaten
> Studentenevaluaties: wie reageren er niet
Variabelen, waarden en eenheid van analyse
> Eenheden van analyse - datgene waarover je informatie verzamelt en waar je uitspraken over wil doen
> Variabelen - gemeten kenmerken van een analyse eenheid
- vragen in vragenlijst worden bijv variabelen
- gender, leeftijd
> Waarden - de specifieke score van een analyse eenheid op een variabele
tabellen: rijen zijn respondenten, in kolommen staan variabelen
Meetniveaus: variabelen
, 1. Nominaal - categorieën zonder volgorde. Je kunt alleen onderscheid maken maar niet ordenen (bijv. religie).
Codering arbitrair maar nodig in SPSS, maar dus geen inherente ordening, 2 is niet ‘meer’ dan 3
2. Ordinaal - categorieën met een volgorde maar zonder vaste afstanden tussen de categorieën. Verschil tussen 1
en 2 is dus niet hetzelfde als 2 en 3 (bijv. opleidingsniveau)
3. Interval - Numerieke waarden met gelijke afstanden tussen de punten, maar zonder een absoluut nulpunt.
betekenisvolle ordening, afstanden zijn gelijk (bijv. temperatuur)
4. Ratio - Numerieke waarde met gelijke afstanden met een absoluut nulpunt.
> dezelfde eigenschappen als interval (afstanden zijn gelijk, natuurlijke ordening). Absoluut betekenisvol
nulpunt, Variabele is ‘afwezig’ bij nulpunt (bijv. gewicht).
1 en 2 kwantitatieve schaal - nominal, ordinal
3 en 4 categoriale schaal - scale
Meetniveaus: Discreet en Continu
Discreet: kan alleen specifieke, afzonderlijke waarden aannemen. Deze waarden zijn vaak (maar niet altijd) gehele
getallen. Er is geen mogelijkheid om tussenliggende waarde te hebben tussen opeenvolgende waarden.
Continu: Kan elke waarde aannemen binnen een bepaald bereik. Dit betekent dat er oneindig veel mogelijke waarden
zijn tussen elke twee verschillende waarden.
Nominaal en Ordinaal zijn discreet
Interval en Ratio kunnen zowel discreet als continu zijn
Validiteit en betrouwbaarheid (staat niet in het boek, wel belangrijk)
Veel concepten in de sociale wetenschap zijn niet zo eenvoudig te meten! - Armoede, sociaal kapitaal, democratie,
discriminatie. Lastig meetbaar te maken
Betrouwbaarheid verwijst naar de consistentie of herhaalbaarheid van een meting. Een meting is betrouwbaar als je bij
herhaling dezelfde resultaten krijgt onder dezelfde omstandigheden. Het gaat erom dat de meting stabiel en
voorspelbaar is.
Validiteit in de sociale wetenschappen verwijst naar de mate waarin een test meet wat het daadwerkelijk zou moeten
meten.
Je wil dat je meting zowel valide als betrouwbaar is, maar dit kan fout gaan.
Wel betrouwbaar maar niet valide als niet alle variabelen meenemen bijvoorbeeld. dus meet niet daadwerkelijk wat je
pretendeert te meten. Problematische vertaling van theoretisch construct naar operationalisatie. Operationalisering dekt
slechts beperkt aantal relevante aspecten van het concept. (response bias is ook een validiteitsprobleem, specifiek in een
survey)
Wel valide maar niet betrouwbaar door specifieke interpretatie van onderzoeker, resultaten zullen erg verschillen tussen
onderzoekers (of bijvoorbeeld onduidelijke vragen)
-----------------------------------------------------------------------------------------------------------------------
,Hoorcollege 2
Univariate analyse: data presenteren en verdelingen - het meetniveau is bepalend voor welke grafieken we kunnen
gebruiken
- Data presenteren: Categoriaal (nominaal/ordinaal)
Frequentietabel: lijst van alle mogelijke waarden (hier categorieen) + hoe vaak ze voorkomen
- Data presenteren: Kwantitatief (Interval/Ratio)
Frequentietabel: lijst van alle mogelijke waarden (hier numerieke waarden) + hoe vaak ze voorkomen. Voor een
interval/ratio variabele kunnen we ook een frequentieverdeling maken (vooral bij continue variabelen is het nodig om
zelf intervallen te maken)
Geen cirkeldiagram wel histogram, deze laat de frequentieverdeling zien van de ratio variabele
(histogram kan misleidend zijn bij ordinale (of nominale) variabelen aangezien er niet een constant interval zit tussen
variabelen, lijkt op een kwantitatieve schaal terwijl daar geen sprake van is)
Verschil histogram en staafdiagram is het al dan niet aanwezig zijn van ruimte tussen de staven, deze indiceren of er
sprake is van een schaal met intervallen (geen ruimte tussen staven) of categorieën (wel ruimte tussen staven)
Populatieverdeling en Steekproefverdeling
voor beide kan een histogram maken
Als het aantal respondenten in de steekproef toeneemt (de n), zullen de histogrammen van de steekproef en de populatie
meer op elkaar gaan lijken.
Verschillende soorten verdelingen:
U-vormig
Klokvormige verdeling
Rechtsscheve verdeling (piek links, bouwt af)
Linksscheve verdeling (piek rechts, bouwt op)
Univariate analyse: centrum- en spreidingsmaten
meetniveau erg belangrijk bij analyse van variabelen, bepalend voor welke centrummaat we kunnen gebruiken
Centrummaten:
Gemiddelde (alleen interval/ratio variabelen, deze zijn kwantitatief) - gemiddelde is gevoelig voor outliers
Mediaan (ordinaal & interval/ratio) - de middelste waarde van je dataset
- alles vases sorteren op waarde
- de waarde van de ‘middelste’ cade is de mediaan (vereiste: zelfde aantal cases boven en onder de mediaan)
De mediaan is minder gevoelig voor outliers, waarom dan niet altijd mediaan? wanneer weinig speling in data geeft
mediaan weinig informatie over hoe je variabele eruitziet
Modus, de waarde die het meeste voorkomt is je meting. deze kan je overal gebruiken, bij alle soorten variabelen (ook
bij nominaal)
bij symmetrische verdelingen (klok verdelingen) zijn modus, mediaan en gemiddelde gelijk. bij a-symmetrische
verdelingen is hier geen sprake van (het gemiddelde schuift vaak op naar staart, mediaan blijft redelijk in het midden.
een outlier trekt de verdeling ‘scheef’)
Spreidingsmaten - meetniveau bepalend voor welke spreidingsmaat we kunnen gebruiken
Centrummaten zijn niet voldoende om de verdeling van een variabele te beschrijven. We hebben een tweede type
meting nodig:
Bereik range (interval/ratio) - Afstand tussen hoogste en laagste score, erg gevoelig voor outliers
Interkwartielbereik interquartile range (interval/ratio)
, deelt data op in 4 kwarten, berekent afstand tussen 1e en 3e kwartiel (Q3 - Q1, Q2 is de mediaan en Range - bereik- is
afstand tussen laagste en hoogste waarde). hierdoor minder gevoelig voor outliers (kijkt dus maar naar 50% van de data,
onderste 25% en bovenste 25% worden niet meegenomen in berekening)
Standaardafwijking alleen interval/ratio
De standaardafwijking is een meting die aangeeft hoeveel de cases in de dataset, gemiddeld genomen, afwijken van het
gemiddelde. Hoe groter de standaardafwijking, hoe groter de spreiding van de data
Rond het resultaat af op 2 cijfers achter de komma, tenzij je goede redenen hebt om meer decimalen te gebruiken
Het interpreteren van de standaardafwijking - het is een meting van hoeveel, gemiddeld gesproken, cases afwijken van
het gemiddelde (dus niet letterlijk het gemiddelde van de gemiddelde afwijking maar het gemiddelde van de
afwijkingen). Als we standaardafwijkingen vergelijken, kunnen we vergelijkende statements maken; meer/minder
spreiding rond het gemiddelde.
Waarom is de standaardafwijking zo belangrijk in de statistiek? je kan iets over de normale verdeling zeggen;
- veel natuurlijke en sociale fenomenen zijn bij benadering normaal verdeeld (lengte bijv.)
- Bij normale verdeling gebruiken we de standaardafwijking om te bepalen welk percentage van de waarden
binnen een bepaald interval rondom de gemiddelde waarde ligt (interval wordt dan bepaalde aan x keer de
standaardafwijking, welk percentage ligt x-standaardafwijkingen afstand van het gemiddelde)
-----------------------------------------------------------------------------------------------------------------------
Hoorcollege 3
De Normale Verdeling
Veel natuurlijke en sociale fenomenen zijn bij benadering normaal verdeeld
Worden beïnvloed door tal van verschillende onderliggende processen en factoren en neigen naar een soort ‘natuurlijk
evenwicht’, clusteren rond een gemiddelde. hoe verder van de piek hoe minder observaties (hoe lager de frequentie van
de desbetreffende meting).
Dit betekent
- unimodaal - 1 modus/ piek
- symmetrisch (gemiddelde=mediaan=modus) - net zoveel cases boven als onder het gemiddelde
- asymptotisch (ten opzichte van x-as) - de curve raakt nooit de x-as (mathematische assumptie)
Voor normaal verdeelde variabelen, weten we hoeveel observaties er tussen, boven of onder een bepaalde waarde
liggen (midden, -1 en 1 standaarddeviatie van gemiddelde, bevat 68% van steekproef/populatie).
De Normale Verdeling als Kansverdeling
We kunnen de normale verdeling ook zien als een kansverdeling (probability distribution) waarbij de totale kans onder
het oppervlak van de curve 100% is, oftewel p=1
De Normale Verdeling: Z-transformatie
We moeten onze variabele standaardiseren (uitdrukken in standaardafwijkingen tot het gemiddelde), hiermee creëren
we een gemeenschappelijke eenheid (de standaardafwijking). Dit standaardiseren noem je een Z-transformatie: voor
iedere waarde bereken je een z-score: het aantal standaardafwijkingen dat de waarde van een observatie is verwijderd
van het gemiddelde.
Een z-score van 1 betekent dat een observatie 1 standaardafwijking boven het gemiddelde ligt
(als de waarde kleiner is dan het gemiddelde dan wordt de z-score een negatief getal)
Met z-transformaties kunnen we normaalverdelingen vergelijken (aangezien gemeenschappelijke eenheid
met z-scores kunnen we de kans (mbv een z-tabel) op bepaalde waarden berekenen
Kans dat een bepaalde waarde voorkomt in populatie berekenen: