maandag 18 december 2023
SAMENVATTING STATISTIEK
Hoofdstuk 1: theorie en formules
- Data zijn overal - data catie - de dagelijkse trends omgezet in data
- Kwantitatief x kwalitatief onderzoek
- Datageletterdheid belangrijk
- Social data science - data-analyse binnen de sociale wetenschappen
- Data-analyse is de kunst en de wetenschap van het verzamelen, meten, organiseren,
presenteren, analyseren en interpreteren van data met als doel inzicht verwerven op
basis van deze data.
- Hoe moeten/kunnen deze data verzameld worden? - methodologie van het
sociaalwetenschappelijk onderzoek
- Doel van statistiek - inzicht te verwerven, wetenschappelijke beoefening te hanteren,
- Kunst - afhankelijk van de beofenaar
- Probleemstelling:
- Onderzoeksvraag: wat willen we weten? Welk inzicht willen we verwerven?
- Probleemstelling: wat is het vraagstuk dat een antwoord of inzicht nodig heeft? Wat is
de context waarbinnen het probleem zich situeert?
- Populatie is een verzameling van alle onderzoekseenheden die gekenmerkt worden door
een afbakening in tijd en ruimte
- Steekproef (‘sample’) - een deelverzameling van onderzoekseenheden uit de populatie
- Willekeurige steekproef - ook wel een enkelvoudige of aselecte steekproef genoemd -
elke onderzoekseenheid heeft een even grote kans om geselecteerd te worden
- Een steekproef is representatief op een kenmerk als het kenmerk in gelijke mate
voorkomt in de steekproef als in de populatie
- Data catie - 3 V’s in Big Data - Volume, Veranderlijkheid en Verscheidenheid
- Voorbeeld: Google Trends
- Kenmerken te gaan meten
- Kenmerken zoals lengte van een artikel, nationaliteit van de immigranten… - variabelen
genoemd
- De uitkomstenverzameling voor de variabele ‘geslacht’ kan als volgt genoteerd worden:
ϕ={man, vrouw, andere}
- Geobserveerde waarnemingen zijn de uitkomsten die daadwerkelijk geobserveerd zijn
in de steekproef of populatie
- De aard en de omvang van de uitkomsten in de uitkomstenverzameling hebben een
grote invloed bij het bepalen van de meest geschikte statistische analysetechniek
- Kwalitatief en kwantitatief meetniveau
- Binnen het kwalitatieve meetniveau kunnen twee soorten gegevens worden
onderscheiden: nominale en ordinale gegevens
1
fi fi
, maandag 18 december 2023
- Ook binnen het kwantitatieve meetniveau onderscheiden we twee types: interval en ratio
gegevens
- Kwalitatieve meetniveaus:
- Nominaal meetniveau: ϕ={Belg,Nederlander,Brit,Andere}, ϕ={BE,NL,UK,A} , of
ϕ={1,2,3,8} met 1 = Belg, 2 = Nederlander, 3 = Brit, 8 = Andere.
- Ordinaal meetniveau: ϕ= {Helemaal niet aanvaardbaar, niet aanvaardbaar, aanvaardbaar,
helemaal aanvaardbaar} - dit hier een typische Likert-schaal
- Kwantitatieve meetniveaus:
- Interval gegevens hebben een kwanti ceerbare meeteenheid, maar het nulpunt is arbitrair
waardoor de verhoudingen tussen waarden betekenisloos zijn - voorbeeld: IQ-punten -
geen IQ 0
- Ook ratio gegevens hebben een kwanti ceerbare meeteenheid én het nulpunt is bepaald
(= absoluut nulpunt) waardoor verhoudingen tussen waarden wel zinvol zijn. - voorbeeld:
aantal kinderen
- Bij discrete gegevens is de uitkomstenverzameling eindig, bijvoorbeeld de variabele
‘aantal correcte antwoorden op een totaal van 10’ met ϕ={0,1,2,…,9,10}. Met andere
woorden, bij discrete gegevens is het niet mogelijk om tussen twee opeenvolgende
uitkomsten een derde uitkomst te bedenken.
- In geval van continue gegevens is de uitkomstenverzameling oneindig (niet telbaar) groot,
zoals bij de variabele ‘gewicht’ of ‘tijd’, namelijk ϕ=ℝ. Bij dit soort uitkomsten is er wel
steeds een derde uitkomst te bedenken tussen twee willekeurige opeenvolgende
uitkomsten.
- Erg gebruikelijk in sociaalwetenschappelijk onderzoek dat kwantitatieve variabelen
worden gegroepeerd tot nominale of ordinale meetschalen. Een typisch voorbeeld is de
variabele ‘leeftijd’, dat initieel een ratio meetschaal heeft (leeftijd in jaren, waarbij de
waarde ‘0’ staat voor afwezigheid van aantal jaren), maar vaak gegroepeerd wordt in
leeftijdscategorieën en zo een ordinale meetschaal kent: bijvoorbeeld ϕ={[0,20],[21,40],
[41,60],[61,80],[>80]}
- Hierarchie van de meetniveaus:
Laag Nominale variabelen (classi catie)
Ordinale variabelen (+ ordening)
Interval variabelen (+ meeteenheid)
Hoog Ratio variabelen (+ betekenisvol nulpunt)
2
fi fi fi
, maandag 18 december 2023
- Beschrijvende statistieken:
Kwantitatief (ratio en
Nominaal Ordinaal interval)
Frequen Absolute en Absolute en relatieve Absolute en relatieve
tie- relatieve frequentie frequentie
verdelin frequentie Cumulatieve Cumulatieve
g frequenties frequenties
Centru Modus Modus Mediaan & Modus Mediaan &
mmaat kwantielen kwantielen
Gemiddelde
Spreidin / Interkwartielafstand Interkwartielafstand
gsmaat Variantie &
standaardafwijking
Vormma / Boxplot Boxplot Skewness
at
- Verzamelde data zijn vaak niet rechtstreeks klaar voor analyse. Ze moeten eerst
‘opgekuist’ worden (‘data cleaning’)
- Data cleaning houdt ook in dat ‘fouten’ in de dataset worden verwijderd (bv. een
tekstelement op de plaats waar een numerieke waarde hoort; een persoon met een
leeftijd van 999 jaar) en een plan wordt opgesteld om met missende waarden om te
gaan
- Beschrijvende of descriptieve statistiek wordt gebruikt om kenmerken te ordenen, te
verkennen en samen te vatten aan de hand van frequenties, centrummaten (bv.
gemiddelde en mediaan) en spreidingskenmerken (bv. variantie en interkwartielafstand).
Een steekproefstatistiek is een maat die wordt berekend op basis van de
steekproefgegevens (bv. steekproefgemiddelde, steekproefvariantie) en verschilt
daarmee van een populatieparameter dat berekend wordt op basis van de volledige
populatie (bv. populatiegemiddelde, populatievariantie). Deze types van beschrijvende
statistiek zijn cruciaal verschillend: steekproefstatistieken gaan altijd gepaard met een
bron van onzekerheid.
- Het doel van inductieve statistiek is om op basis van de gegevens bij een steekproef
met een beperkte omvang n, uitspraken te doen over de volledige populatie
- De wet van de grote aantallen stelt dat hoe meer steekproefgegevens, en dus hoe
groter n, hoe groter de nauwkeurigheid en hoe beter de steekproefstatistieken de exacte
populatiewaarde zullen benaderen.
- Met symmetrische samenhang bedoelen we dat twee variabelen samen variëren (bv.
homofobie en seksisme), terwijl bij asymmetrische samenhang wordt verondersteld dat
de verklarende variabele (de onafhankelijke variabele X) een e ect of invloed heeft op de
te verklaren variabele
3
ff