Samenvatting Statistiek van de sociale wetenschappen (KUL 1e jaar)
38 keer bekeken 0 keer verkocht
Vak
Statistiek van de sociale wetenschappen (S0A17E)
Instelling
Katholieke Universiteit Leuven (KU Leuven)
Deze samenvatting bevat zowat alle cursusdelen behandeld in het vak Statistiek van de sociale wetenschappen. Ik heb met deze samenvatting een score van 15/2o behaald in eerste zit.
SAMENVATTING STATISTIEK
Hoofdstuk 1: theorie en formules
- Data zijn overal - data catie - de dagelijkse trends omgezet in data
- Kwantitatief x kwalitatief onderzoek
- Datageletterdheid belangrijk
- Social data science - data-analyse binnen de sociale wetenschappen
- Data-analyse is de kunst en de wetenschap van het verzamelen, meten, organiseren,
presenteren, analyseren en interpreteren van data met als doel inzicht verwerven op
basis van deze data.
- Hoe moeten/kunnen deze data verzameld worden? - methodologie van het
sociaalwetenschappelijk onderzoek
- Doel van statistiek - inzicht te verwerven, wetenschappelijke beoefening te hanteren,
- Kunst - afhankelijk van de beofenaar
- Probleemstelling:
- Onderzoeksvraag: wat willen we weten? Welk inzicht willen we verwerven?
- Probleemstelling: wat is het vraagstuk dat een antwoord of inzicht nodig heeft? Wat is
de context waarbinnen het probleem zich situeert?
- Populatie is een verzameling van alle onderzoekseenheden die gekenmerkt worden door
een afbakening in tijd en ruimte
- Steekproef (‘sample’) - een deelverzameling van onderzoekseenheden uit de populatie
- Willekeurige steekproef - ook wel een enkelvoudige of aselecte steekproef genoemd -
elke onderzoekseenheid heeft een even grote kans om geselecteerd te worden
- Een steekproef is representatief op een kenmerk als het kenmerk in gelijke mate
voorkomt in de steekproef als in de populatie
- Data catie - 3 V’s in Big Data - Volume, Veranderlijkheid en Verscheidenheid
- Voorbeeld: Google Trends
- Kenmerken te gaan meten
- Kenmerken zoals lengte van een artikel, nationaliteit van de immigranten… - variabelen
genoemd
- De uitkomstenverzameling voor de variabele ‘geslacht’ kan als volgt genoteerd worden:
ϕ={man, vrouw, andere}
- Geobserveerde waarnemingen zijn de uitkomsten die daadwerkelijk geobserveerd zijn
in de steekproef of populatie
- De aard en de omvang van de uitkomsten in de uitkomstenverzameling hebben een
grote invloed bij het bepalen van de meest geschikte statistische analysetechniek
- Kwalitatief en kwantitatief meetniveau
- Binnen het kwalitatieve meetniveau kunnen twee soorten gegevens worden
onderscheiden: nominale en ordinale gegevens
1
fi fi
, maandag 18 december 2023
- Ook binnen het kwantitatieve meetniveau onderscheiden we twee types: interval en ratio
gegevens
- Kwalitatieve meetniveaus:
- Nominaal meetniveau: ϕ={Belg,Nederlander,Brit,Andere}, ϕ={BE,NL,UK,A} , of
ϕ={1,2,3,8} met 1 = Belg, 2 = Nederlander, 3 = Brit, 8 = Andere.
- Ordinaal meetniveau: ϕ= {Helemaal niet aanvaardbaar, niet aanvaardbaar, aanvaardbaar,
helemaal aanvaardbaar} - dit hier een typische Likert-schaal
- Kwantitatieve meetniveaus:
- Interval gegevens hebben een kwanti ceerbare meeteenheid, maar het nulpunt is arbitrair
waardoor de verhoudingen tussen waarden betekenisloos zijn - voorbeeld: IQ-punten -
geen IQ 0
- Ook ratio gegevens hebben een kwanti ceerbare meeteenheid én het nulpunt is bepaald
(= absoluut nulpunt) waardoor verhoudingen tussen waarden wel zinvol zijn. - voorbeeld:
aantal kinderen
- Bij discrete gegevens is de uitkomstenverzameling eindig, bijvoorbeeld de variabele
‘aantal correcte antwoorden op een totaal van 10’ met ϕ={0,1,2,…,9,10}. Met andere
woorden, bij discrete gegevens is het niet mogelijk om tussen twee opeenvolgende
uitkomsten een derde uitkomst te bedenken.
- In geval van continue gegevens is de uitkomstenverzameling oneindig (niet telbaar) groot,
zoals bij de variabele ‘gewicht’ of ‘tijd’, namelijk ϕ=ℝ. Bij dit soort uitkomsten is er wel
steeds een derde uitkomst te bedenken tussen twee willekeurige opeenvolgende
uitkomsten.
- Erg gebruikelijk in sociaalwetenschappelijk onderzoek dat kwantitatieve variabelen
worden gegroepeerd tot nominale of ordinale meetschalen. Een typisch voorbeeld is de
variabele ‘leeftijd’, dat initieel een ratio meetschaal heeft (leeftijd in jaren, waarbij de
waarde ‘0’ staat voor afwezigheid van aantal jaren), maar vaak gegroepeerd wordt in
leeftijdscategorieën en zo een ordinale meetschaal kent: bijvoorbeeld ϕ={[0,20],[21,40],
[41,60],[61,80],[>80]}
- Hierarchie van de meetniveaus:
Laag Nominale variabelen (classi catie)
Ordinale variabelen (+ ordening)
Interval variabelen (+ meeteenheid)
Hoog Ratio variabelen (+ betekenisvol nulpunt)
2
fi fi fi
, maandag 18 december 2023
- Beschrijvende statistieken:
Kwantitatief (ratio en
Nominaal Ordinaal interval)
Frequen Absolute en Absolute en relatieve Absolute en relatieve
tie- relatieve frequentie frequentie
verdelin frequentie Cumulatieve Cumulatieve
g frequenties frequenties
Centru Modus Modus Mediaan & Modus Mediaan &
mmaat kwantielen kwantielen
Gemiddelde
Spreidin / Interkwartielafstand Interkwartielafstand
gsmaat Variantie &
standaardafwijking
Vormma / Boxplot Boxplot Skewness
at
- Verzamelde data zijn vaak niet rechtstreeks klaar voor analyse. Ze moeten eerst
‘opgekuist’ worden (‘data cleaning’)
- Data cleaning houdt ook in dat ‘fouten’ in de dataset worden verwijderd (bv. een
tekstelement op de plaats waar een numerieke waarde hoort; een persoon met een
leeftijd van 999 jaar) en een plan wordt opgesteld om met missende waarden om te
gaan
- Beschrijvende of descriptieve statistiek wordt gebruikt om kenmerken te ordenen, te
verkennen en samen te vatten aan de hand van frequenties, centrummaten (bv.
gemiddelde en mediaan) en spreidingskenmerken (bv. variantie en interkwartielafstand).
Een steekproefstatistiek is een maat die wordt berekend op basis van de
steekproefgegevens (bv. steekproefgemiddelde, steekproefvariantie) en verschilt
daarmee van een populatieparameter dat berekend wordt op basis van de volledige
populatie (bv. populatiegemiddelde, populatievariantie). Deze types van beschrijvende
statistiek zijn cruciaal verschillend: steekproefstatistieken gaan altijd gepaard met een
bron van onzekerheid.
- Het doel van inductieve statistiek is om op basis van de gegevens bij een steekproef
met een beperkte omvang n, uitspraken te doen over de volledige populatie
- De wet van de grote aantallen stelt dat hoe meer steekproefgegevens, en dus hoe
groter n, hoe groter de nauwkeurigheid en hoe beter de steekproefstatistieken de exacte
populatiewaarde zullen benaderen.
- Met symmetrische samenhang bedoelen we dat twee variabelen samen variëren (bv.
homofobie en seksisme), terwijl bij asymmetrische samenhang wordt verondersteld dat
de verklarende variabele (de onafhankelijke variabele X) een e ect of invloed heeft op de
te verklaren variabele
3
ff
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper jchymcsler. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €6,29. Je zit daarna nergens aan vast.