STATISTIEK VD SOCIALE WETENSCHAPPEN
HOORCOLLEGE 1 – 25/09/2023 – H1: VAN PROBLEEMSTELLING NAAR DATA-ANALYSE
1.1 DOEL VAN STATISTIEK
Datafica&e van de samenleving = dagdagelijkse ac<es/interac<es omgezet naar data die
opgevolgd, geanalyseerd en geop<maliseerd kunnen worden
bv. luchtkwaliteit, groeicurve kind (vergelijken met gemiddelde), wegcamera’s (pixels
omze>en naar data), aantal stappen, hartslag, da?ngapps
à Data = macht
1.1.2 DATA-ANALYSE:
Data-analyse = de kunst en de wetenschap van het verzamelen, organiseren, presenteren,
analyseren en interpreteren van data met als doel inzicht verwerven op basis van deze data.
1. Inzicht: onderzoeksvraag (wat analyseren?)
2. Wetenschap: objec<ef, onaTankelijk van uitvoerder
3. Kunst: interpreta<e van de uitvoerder, (ook resultaten manipuleren)
Bronnen van data:
- Survey (vragen over opinie van mensen)
- Experimenten
- Sociale media data (aantal likes, tweets,…)
- Administra<eve data (door overheid)
- Geodata (GPS, loca<e)
Nieuwste bron = digital trace data (digitale voetsporen)
1.2 VAN PROBLEEMSTELLING NAAR DATA-ANALYSE
1. Probleemstelling
2. Data-analyse (= data verzamelen, Bij wie? Hoe? Welke vragen?)
3. Data cleaning (gegevens opkuisen, fouten eruit halen)
4. Transformeren en opera<onaliseren (informa<e omze^en naar bruikbare variabelen)
presenteren, visualiseren, staJsJsche analyse uitvoeren
5. Interpreteren (resultaten context geven)
6. Rapporteren (samenva^en)
1.2.1 PROBLEEMSTELLING
bv. Hoe beïnvloeden ouders poli1eke voorkeur van kinderen? à kinderen survey laten invullen
Waarom kiezen voor bepaalde par1j? à exitpoll (meteen na stemming vragen stellen)
Verschil tussen geek en nerd à via twi>er kijken welke woorden in tweets worden gebruikt
Evolu1e aantal klanten bij voedselbank? à administra?eve data
Gender ongelijkheid à sociale mediadata, vaker posts over zonen dan dochters, waarom?
Gebruik van bepaalde zoektermen over 1jd à google trends, zoekopdrachten opgeslagen, evolu?e van
bepaalde woorden, waar zijn mensen mee bezig?
, 1.2.2 DATA VERZAMELEN
Data = informa<e / kenmerken gemeten bij onderzoekseenheden
Onderzoekseenheden = objecten waarop het onderzoek betrekking hee_ en waarbij
kenmerken gemeten worden
Popula&e = verzameling van onderzoekseenheden (= iedereen)
à popula<e a`akenen in <jd en ruimte bv. alle jongeren van het vierde middelbaar in
Vlaanderen in 2013
Steekproef = deelverzameling van elementen uit de popula<e
à elk element uit popula<e hee_ kans om in de steekproef te zi^en
à steekproef is representa<ef op een bepaald kenmerk als ze in gelijke mate voorkomt
zowel in steekproef als popula<e
VAN STEEKPROEF NAAR POPULATIE
1. Onderzoeksvraag
2. Steekproef trekken
3. Beschrijvende sta&s&ek (gemiddelde, frequen<e…) = verkennen van steekproef
- Univariate sta&s&ek = beschrijven van 1 kenmerk
- Bivariate sta&s&ek = beschrijven en verklaren van verband tussen twee kenmerken
4. Van steekproef sta<s<ek naar popula<eparameter = induc&eve sta&s&ek
Wet van de grote aantallen = hoe meer steekproefgegevens (hoe groter n), hoe
nauwkeuriger de benadering van de popula<ewaarde
HOORCOLLEGE 2 – 28/09/2023
1.2.3 METEN VAN GEGEVENS
VERZAMELEN VAN GEGEVENS
European Social Survey = vragenlijst bij willekeurige burgers uit Europese landen
à probleemstelling: poli?eke/sociale opinies
à data verzamelen: cross-na?onale steekproef (1500 burgers > 15 jaar)
à gegevens meten: kenmerken meten bij onderzoekseenheden zoals gedrag, religie, sociaal
demografische gegevens
variabele = kenmerk dat gemeten wordt bij observa<eset
bv. internetgebruik, aPomst van deelnemer
meetprocedure = manier waarop variabele gemeten wordt
!! Geen inhoudelijk antwoord (geen antwoord, weet niet…) = NA
maar ook belangrijk om rekening te houden met reden van de missende waarden
CLASSIFICATE VAN GEGEVENS:
Uitkomstenverzameling (ϕ) = verzameling van alle theore<sch mogelijke uitkomsten van een
Variabele
Geobserveerde waarnemingen = daadwerkelijke uitkomsten in de steekproef
, Kwalita&eve meetschaal = drukt zich uit in categorieën
Kwan&ta&eve meetschaal = drukt zich uit in cijfers/numeriek
bv. poli?eke ideologie links-rechts
kwan?ta?ef = schaal van 0-10
kwalita?ef = categorieën extreemlinks-extreemrechts
bv. score wiskunde
kwan?ta?ef = percentages
kwalita?ef = hoger/lager dan klasgemiddelde
ClassificaJe van uitkomstenverzamelingen op basis van:
AARD van ϕ OMVANG van ϕ
(onderliggend meetniveau)
Kwalita&ef meetniveau Kwan&ta&ef meetniveau Discrete Con&nue
= geen vaste, kwan1ficeerbare = vaste, kwan1ficeerbare gegevens gegevens
meeteenheid meeteenheid = geen derde = oneindige
uitkomst tussen uitkomsten-
twee verzameling
meetschalen zijn eindig, exhaus1ef wiskundige bewerkingen opeenvolgende
en exclusief: mogelijk uitkomsten;
(observa1e past in 1 categorie + alle eindig OF
categorieën zijn gegeven in codes met getallen met aOelbaar
meetschaal) numerieke betekenis oneindig
Nominale Ordinale Interval Ra&o
gegevens gegevens gegevens gegevens
= categorieën = ordening/ = nulpunt = nulpunt is
niet te interpreta1e van arbitrair dus bepaald dus bv. aantal
interpreteren meer/minder/ verhoudingen verhoudingen kinderen/ bv. ?jd,
als hoger/lager tss waarden zijn zinvol correcte gewicht,
meer/minder/ mogelijk; geen betekenisloos; antwoorden temperatuur
groter/kleiner; vaste meeteenheid; vermenigvuldig
verschil in verschil in waarde en en delen
waarde ¹ ¹ verschil in niet mogelijk
verschil in kwan1teit; geen
kwan1teit; wiskundige
geen bewerkingen
wiskundige mogelijk TENZIJ
bewerkingen gebruik van
mogelijk ordening
meetschaal
(mediaan)
code kan codes met cijfers bv. aantal
eender wat die kinderen in
zijn ordeningscriterium een gezin,
uitdrukken inkomen,
bv. geslacht, aantal
na?onaliteit, bv. eens/oneens, bv. IQ, facebook-
stemgedrag nooit/al?jd, Likert- temperatuur vrienden
schaal
, !! kwalita<eve variabelen zijn al<jd discreet
!! kwan<ta<eve gegevens soms gegroepeerd tot ordinale/nominale variabelen
!! ordinale variabelen ook als quasi-interval variabelen beschouwd (als meetschaal ordinaal is
maar voldoende punten hee_ om toch kwan<ta<ef te zijn)
breed is)
HIERARCHIE VAN MEETNIVEAUS (hoe hoger, hoe meer bewerkingen mogelijk):
Laag: Nominale variabelen (classifica<e op basis van gelijkheid/ongelijkheid)
Ordinale variabelen ( + ordening)
Interval variabelen ( + meeteenheid)
Hoog: Ra<o variabelen ( + betekenisvol nulpunt)
1.2.4 DATA CLEANING, TRANSFOREREN EN OPERATIONALISEREN:
Datamatrix:
- Rijen representeren elke onderzoekseenheid
- Kolommen zijn variabelen/gemeten kenmerken bij onderzoekseenheden
- Cel xij = waarde bij onderzoekseenheid i voor kenmerk j
Transformeren = nieuwe variabelen construeren op basis van bestaande gemeten kenmerken
bv. van raJo naar irdinalle schaal / wiskundige bewerkingen
Opera&onaliseren = meetbaar maken van abstracte concepten
Datareduc&e = veelheid aan indicatoren reduceren tot een achterliggend (latent) concept
bv. nostalgie meten door concept te operaJonaliseren, verschillende indicatoren meten
= latente variabelen: niet rechtstreeks waarneembaar maar wel latent aanwezig
Hoe datareduc&e?
à maken van gemiddelde somschaal van manifeste indicatoren
= scores op indicatoren sommeren en delen door aantal indicatoren gee_ gemiddelde
somschaal- score
à van ordinale meetschaal naar kwan<ta<eve meetschaal
!! alle scores moeten zelfde betekenis hebben DUS op dezelfde manier ordenen
1.2.5 PRESENTEREN, VISUALISEREN EN STATISTISCHE ANALYSE
à Van steekproefsta<s<ek naar benadering van de popula<eparameter via induc<eve
sta<s<ek (=veralgemening)
!! valkuilen: verschillende interpreta<es, indirecte causaliteit
1.2.6 INTERPRETEREN EN RAPPORTEREN
à Context geven en vertalen naar doelpubliek
1.2.7 PROGRAMMEREN
RStudio