HOOFDSTUK 1: VAN PROBLEEMSTELLING NAAR DATA-ANALYSE
1.1 DOEL VAN DE STATISTIEK
1.1.1 STATISTIEK IS OVERAL
Dataficatie = de trend waarbij dagdagelijkese acties en interacties worden omgezet in data die kunnen worden
opgevolgd, geanalyseerd en geoptimaliseerd
Binnen de sociale wetenschappen domineert kwantitatief onderzoek = data wordt omgezet in nummers zodat
deze kunnen worden ganalyseerd dmv statistische methoden
Social data science = combinatie tussen domein specifieke kennis, computerkennis en data-wetenschappen
taak van sociale wetenschapper: bruggen bowuen tussen deze disciplines toepassing binnen de
samenleving
1.1.2 HET DOEL VAN DATA- ANALYSE
Data-analyse = de kunst en de wetenschap van het evrzamelen, meten, organiseren, presenteren, analyseren
en interpreteren van data met als doel inzicht verwerven op basis van deze data
- Inzicht: onderzoeksvragen beantwoorden op basis van data
- Wetenschap: objectief, onafhankelijk van de beoefenaar
- Kunst: creatief, interpretatief, afhankelijk van de beoefenaar
o Beslissingen van de onderzoeker
o Meten van bep kenmerken en vraagformulering ervan
o Analyseren en interpreteren van de data
- Data: veel verschillende soorten data uit verschillende soorten bronnen hebben verschillende
vormen: numeriek, tekst, afbeeldingen, audio
1.2 VAN PROBLEEMSTELLING NAAR DATA-ANALYSE
1.2.1 PROBLEEMSTELLING
Bij wie of wat verzamelen we welke gegevens? afhankelijk van de onderzoeksvraag onderzoeksvraag
start altijd vanuit een probleemstelling
,1.2.2 DATA VERZAMELEN
Data wordt verzameld bij onderzoekseenheden = eenheden of objecten waarop het onderzoek betrekking
heeft en waarbij kenmerken gemeten worden kunnen personen zijn, maar zijn niet altijd mensen
Een populatie = een verzameling van alle onderzoekseenheden die gekenmerkt worden door een afbakening in
tijd en ruimte
volstaat om een goede steekproef uit populatie te selecteren
Een steekproef = een deelverzameling van onderzoekseenheden uit de populatie
- Een willekeurige steekproef = elke onderzoekseenheid heeft een even grote kans om geselecteerd te
worden
- Een steekproef is representatief op een kenmerk als het kenmerk in gelijke mate voorkomt in de
steekproef als in de populatie
- Omvang of grootte van een steekproef: symbool n
Na omschrijving populatie gegevens verzamelen
Data die je nodig hebt is ergens beschikbaar
o Data archieven, publieke overheidsinfrastructuren, …
Data zelf verzamelen
o Vragenlijsten, handmatige codering, experimenten, …
Data = informatie en kenmerken gemeten bij onderzoekseenheden
kunnen uit verschillende bronnen komen:
Surveys: respondenten krijgen enkele gesloten/open vragen die demigrafische kenmerken, attitudes
en gedragen pogen te meten
Experimenten: oorzaak-gevolg verband in kaart brengen onderzoekseenheden willekeurig over
verschillende groepen te verdelen en ze aan verschillende omstandigheden/interventies blootstellen
(= manipulatie) verschillen betekent oorzakelijk verband
Big Data: volume, veranderlijkheid en verscheidenheid
Data is heel groot
Data wordt aan een sneltempo geproduceerd
Data heeft verschillende soorten en vormen
- Voorbeelden:
o Sociale media data, geodata, data uit medische dossiers, administratieve data, ..
1.2.3 METEN VAN GEGEVENS
CLASSIFICATIE VAN GEGEVENS
Na selectie steekproef uit populatie kenmerken meten bij onderzoekseenheden
Deze kenmerken zijn variabelen
- Notatie: hoofdletters X,Y,Z,…
,Uitkomstenverzameling = de verzameling van alle mogelijke uitkomsten voor een variabele
- Notatie: 𝝋
Geobserveerde waarnemingen = de uitkomsten die daadwerkelijk geobserveerd zijn in de steekproef of
populatie
Vb. uitkomstenverzameling kan 𝝋 = {man, vrouw, andere} zijn maar in de steekproef zitten uiteindelijk alleen
maar vrouwen
Aard en omvang van de uitkomsten hebben een grote invloed bij bepalen van de statistische techniek:
1) Aard = onderliggende meetniveau
Kwanititatief meetniveau
kan zowel discreet als continu zijn
o Interval
o Ratio
Kwalitatief meetniveau
altijd discreet
o Nominaal
o Ordinaal
2) Omvang
Discreet : de uitkomstenverzameling is eindig
- Notatie: 𝝋 = {m1, m2, m3, …, mk} waarbij k oneindig is
niet mogelijk om tussen tweeopeenvolgende uitkomsteen derde uitkomst te bedenken
Vb. aantal juiste antwoorden op 10, aantal kinderen
Continu: de uitkomstenverzameling is oneindig (niet telbaar) groot
- Notatie: 𝜑 = {ℝ}
steeds een derde uitkomst te bedenken tussen twee opeenvolgende uitkomsten
Vb. variabele gewicht of tijd
vaak voorgesteld als discrete gegevens: meestal afgerond blijven wel continue gegevens!
Vb. gewicht wordt weegegeven als 67kg en niet als 67,373562772kg
, MEETNIVEAU
KWALITATIEF MEETNIVEAU:
Nominaal meetniveau
- Meetprocedure: classificeren in categoriën, benoemen
o Niet te interpreteren in meer en minder
o Verschil in waarden representeert geen verschil in kwantiteit enkel een kwalitatief verschil
o Geen wiskundige bewerkingen mogelijk
o Codes: kunnen eender welk symbool aannemen: letters, cijfers, woorden
Vb. 𝜑 = {𝐵𝑒𝑙𝑔, 𝑁𝑒𝑑𝑒𝑟𝑙𝑎𝑛𝑑𝑒𝑟, 𝐵𝑟𝑖𝑡, 𝐴𝑛𝑑𝑒𝑟𝑒}, of 𝜑 = {𝐵𝐸, 𝑁𝐿,𝑈𝐾, 𝐴}, of 𝜑 = {1, 2, 3, 8} met 1 = Belg, 2
= Nederlander, 3 = Brit, 8 = Andere
- Meetschaal: eindig, exhaustief en exclusief elke observatie hoort maar thuis in één categorie en alle
mogelijke categoriën zijn gegeven in de meetschaal
o Dichotome meetschaal = wanneer de nominale meetschaal slechts twee waarden kan
aannemen (en observaties dus slechts in twee categoriën kunnen worden opgedeeld)
Ordinaal meetniveau
- Meetprocedure: elementen van de uitkomstenverzameling kunnen geordend worden
o Kunnen geïnterpreteerd worden als meer en minder, hoger of lager
Vb. politieke interesse met 𝜑 = {𝑁𝑖𝑒𝑡 𝑔𝑒ï𝑛𝑡𝑒𝑟𝑒𝑠𝑠𝑒𝑒𝑟𝑑, 𝑒𝑒𝑛 𝑏𝑒𝑒𝑡𝑗𝑒 𝑔𝑒ï𝑛𝑡𝑒𝑟𝑒𝑠𝑠𝑒𝑒𝑟𝑑,
𝑔𝑒ï𝑛𝑡𝑒𝑟𝑒𝑠𝑠𝑒𝑒𝑟𝑑, ℎ𝑒𝑒𝑙 𝑔𝑒ï𝑛𝑡𝑒𝑟𝑒𝑠𝑠𝑒𝑒𝑟𝑑}
o Geen vaste meeteenheid
o Verschillen niet in vastgelegde hoeveelheden
o Geen wiskundige bewerkingen mogelijk tenzij oerdening van de meetschaal
Vb. mediaan
- Meetschaal: eindig, exhaustief en exclusief
Likertschaal = een veelgebruikte meetschaal in sociaalwetenschappelijk onderzoek om houdingen, attitudes en
ovetuigingen te meten
- Bestaat meestal uit 5, 7 of 11 antwoordcategoriën
Vb. ‘helemaal eens’ tot ‘helemaal oneens’, ‘nooit’ tot ‘altijd’, …
- Intristiek ordinaal: de antwoordcategoriën hebben een kwalitatieve betekenis en zijn geordend, maar
ze hebben geen meeteenheid
in de praktijk vaak als kwantitatief meetniveau gebruikt waneer de schaal breedt genoeg is
KWANTITATIEF MEETNIVEAU:
- De geobserveerde gegevens sluiten dicht aan bij wat letterlijk ‘gemeten’ wordt
- Vaste, kwantificeerbare meeteenheid
- Verschil tussen geobserveerde waarden wordt uitgedrukt in hoeveelheden
- Codes: getallen met een nummerieke betekenis
- Kunnen zowel een discrete als continue uitkomstenverzameling hebben
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper inakeuppens. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €8,09. Je zit daarna nergens aan vast.