Instructies
Bronnen: Field (2013): H5
SPSS helpfunctie: frequencies, crosstabs, chi-square, recode
SPSS helpfunctie: missing values, missing value analysis
Handleiding SPSS Missing Value Analysis 7.5 (zie Brightspace)
Bijlagen bij deze opdracht:
- opdracht1a: bijlage 1 gegevens van het CBS
bijlage 2 maken van frequenties en 2-toets
- opdracht1b: bijlage 3 aanvullende instructie bij Vraag 6
Data: Databestand jongerennl1.sav
Variabelen: diverse variabelen over de waarden van jongeren (v244 t/m v262),
geslacht (v515) en urbanisatiegraad (v520).
Opdracht 1a: Representativiteit
In deze opdracht gaan jullie werken met een databestand (jongerennl1.sav) dat gegenereerd
is in een grootschalig veldonderzoek over leefstijlen van jongeren. Iemands leefstijl is een
patroon van expressieve gedragingen (Jacobs, 2000). Het databestand bevat ruim 300
variabelen en 775 respondenten, allen jongeren tussen de 15 en 24 jaar. De jongeren is
onder andere gevraagd naar hun inkomsten, leesgedrag, vrijetijdsbesteding,
waardenoriëntaties, voorkeuren voor kleding en muziek en diverse achtergrondkenmerken.
Het doel van de opdracht is om na te gaan of de getrokken steekproef representatief is ten
opzichte van de populatie. Dit gaan we doen aan de hand van de achtergrondkenmerken
geslacht en urbanisatiegraad.
PS: Om het zo eenvoudig mogelijk te houden, bevat de SPSS data set een selectie van de variabelen.
Vraag 1
Wat is representativiteit en waarom is representativiteit belangrijk?
Representativiteit betekent dat de onderzoekspopulatie overeenkomt met de gehele
populatie. Representativiteit is belangrijk, om je resultaten generaliseerbaar te maken.
Een steekproef is representatief op het moment dat dezelfde kenmerken worden
vertoond als de populatie waar de steekproef uit getrokken is. Meer concreet houdt
representativiteit in dat de verdeling van de onderzochte variabelen in de steekproef
hetzelfde is als in de populatie. Representativiteit is van groot belang voor de
generaliseerbaarheid van de onderzoeksresultaten. Als bepaalde groepen in de steekproef
onder- of oververtegenwoordigd zijn in de steekproef, dan mogen de onderzoeksresultaten
niet zonder meer van toepassing worden verklaard op de populatie. De representativiteit
van de steekproef heeft dus consequenties voor de externe validiteit van het onderzoek.
Vraag 2
Welke analysetechnieken kun je gebruiken om de representativiteit na te gaan? Maak hierbij
onderscheid tussen beschrijvende en toetsende technieken en geef aan met welke SPSS
procedures je deze technieken kunt toepassen.
Je kunt representativiteit toetsen met behulp van de chi-square toets (toetsende
techniek), welke je kunt kiezen bij SPSS, verder kun je de representatief toetsen door te
, kijken naar de frequentietabel (beschrijvende techniek), welke je bij descriptive data krijgt in
SPSS.
Om een uitspraak te kunnen doen over de representativiteit moeten we de
verdelingen van variabelen in de steekproef vergelijken met de populatieverdelingen. Dat
betekent dus dat we moeten beschikken over populatiegegevens.
Een beschrijvende en vrij basale manier om een verdeling in steekproef te bestuderen, is het
analyseren van een frequentietabel. Voor variabelen van interval en ratio meetniveau wordt
een frequentietabel snel onoverzichtelijk. Dan kan ook worden gekozen voor grafische
weergavemethoden als het histogram of een stam- en-blad diagram. De verdelingen van de
variabelen in de steekproef zijn dan ‘op het oog’ te vergelijken met de populatieverdelingen.
In SPSS is het één en ander op te vragen via Analyze Frequencies.
Als we met meer zekerheid uitspraken willen doen over de representativiteit van een
steekproef, dan moeten we specifiek toetsen op representativiteit. Die zekerheid drukken
we bij toetsing uit met α (het significantieniveau). Of een verdeling van een nominale of
ordinale variabele (bv. geslacht of urbanisatiegraad) overeenkomt met de populatieverdeling
is te toetsen met behulp van een univariate χ2-toets. Deze procedure is te benaderen via
Analyze Nonparametric Tests Legacy Dialogs Chi-Square. Voor variabelen van interval
of ratio niveau (bv. leeftijd of gewicht) kan gebruik worden gemaakt van een z- of t-toets
(AnalyzeCompare Means One Sample T-Test).
Vraag 3
In de bijlage is een aantal tabellen opgenomen uit de database Statline van het Centraal
Bureau voor de Statistiek (CBS). Neem de bijlage goed door. De tabellen bevatten
frequentieverdelingen van geslacht en urbanisatiegraad van Nederlandse jongeren. Reken
de gegevens in de tabellen om naar percentages, zodat je die gegevens kunt gebruiken in de
beschrijvende en toetsende analyses die je bij Vraag 2 hebt beschreven. Gedaan
Uitvoering
Vraag 4
Vergelijk de frequentieverdelingen van de twee variabelen in de steekproef met de
populatiegegevens door gebruik te maken van één of meer van de beschrijvende
analysetechnieken die je bij Vraag 2 hebt geïnventariseerd. Wat kun je op grond van deze
analyse zeggen over de representativiteit?
Ik neem zeer sterk stedelijk en sterk stedelijk samen, omdat de data van SPSS maar 4
categorieën geeft in plaats van 5.
Gekeken naar de frequentieverdeling van de variabelen lijkt de verhouding van
mannen en vrouwen niet helemaal te kloppen, in dit databestand zijn de vrouwen namelijk
in de meerderheid, terwijl daadwerkelijk de mannen in de meerderheid zijn. Verder lijkt de
verdeling tussen de stedelijkheid ook niet overeen te komen.
Let op: je zult merken dat niet alle variabelen uit de steekproef direct vergelijkbaar zijn met
de populatiegegevens van het CBS, omdat de variabelen in de steekproef en in de tabellen
van het CBS uit een ongelijk aantal categorieën bestaan. Los dat probleem op door middel
van een hercodering. Geef in dat geval duidelijk aan welke categorieën je samenvoegt en
waarom.
, Vraag 5
Toets met een 2-toets of de verdelingen van de twee variabelen in de steekproef significant
afwijken van de populatiegegevens. Voer de populatieproporties in twee decimalen in de
procedure in (bv. proportie mannen = .51).
Gekeken naar de chi-square toets voor geslacht zien we dat de X2 (1) = 3.685 met
p=0.055. Bij een representativiteit toets gaan we uit van een alfa van 0.30. H0: De verdeling
van de populatie in de steekproef is gelijk aan de verdeling van de populatie in de
werkelijkheid. H1: De verdeling van de populatie in de steekproef is niet gelijk aan de
verdeling van de populatie in de werkelijkheid. Aangezien de significantie lager is dan de alfa
kunnen we stellen dat de verdeling in de steekproef niet gelijk is aan de verdeling in de
populatie en dus de H0 verwerpen en H1 aannemen.
Gekeken naar de chi-square toets voor urbanisatie zien we dat X2 (3) = 164.485 met p
= <0.001. Ook hier werken we met een alfa van 0.30. H0: De verdeling van de populatie in de
steekproef is gelijk aan de verdeling van de populatie in de werkelijkheid. H1: De verdeling
van de populatie in de steekproef is niet gelijk aan de verdeling van de populatie in de
werkelijkheid. Aangezien de significantie lager is dan de alfa kunnen we stellen dat de
verdeling in de steekproef niet gelijk is aan de verdeling in de populatie en dus de H0
verwerpen en H1 aannemen.
Vraag 6
Formuleer op grond van je analyses bij Vragen 4 en 5 een antwoord op de volgende vraag:
In hoeverre is de getrokken steekproef representatief ten opzichte van de Nederlandse
bevolking wat betreft geslacht en urbanisatiegraad?
Geef hierbij duidelijk aan op welke gegevens jij je baseert en waarom op basis van die
gegevens je conclusie juist is.
Zoals ook al in de vorige antwoorden geheel staat uitgelegd is de steekproef niet
representatief ten opzichte van de Nederlandse bevolking, wat betreft geslacht en
urbanisatiegraad.
Vraag 7
Bij het uitvoeren van de toets op representativiteit die je bij Vraag 5 hebt uitgevoerd, heb je
waarschijnlijk een significantieniveau gehanteerd van 30%, zoals dat in het hoorcollege is
aangegeven. Soms wordt bij een toets op representativiteit uitgegaan van een nog hoger
significantieniveau van bv. 85%. Bij de meeste andere statistische toetsen kies je alfa zo laag
mogelijk, bv. 1% of 5%. Leg uit waarin de uitgevoerde representativiteittoets verschilt van
andere statistische toetsen en waarom een hoger significantieniveau hierbij gerechtvaardigd
is. Betrek in je antwoord het onderscheid tussen type I en type II fout.
Er wordt gekozen voor een hoge alfa, omdat er wordt gekozen voor een hoge power.
Deze power heeft te maken met de hoeveelheid onderzoekseenheden. Power betekent de
kans dat je een daadwerkelijk bestaand verschil traceert in je onderzoek, dit is bij
representativiteit dus heel belangrijk. Je wilt dus zorgen voor een hoge power, waardoor je
de alfa moet verhogen.
Een type I fout treedt op wanneer H0 wordt verworpen, terwijl H0 feitelijk waar is. De keuze
om H0 te verwerpen wordt beïnvloed door het gestelde significantieniveau (alfa). In veel
gevallen heeft deze een waarde van .05. Hoe lager de alfa waarde wordt gesteld, hoe
moeilijker het wordt om H0 te verwerpen. De kans dat H0 foutief wordt verworpen, wordt
dus kleiner wanneer de gestelde alfa zo klein mogelijk is. Een type II fout vindt plaats
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller Radbouduniversiteit3. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $5.46. You're not tied to anything after your purchase.