Statistical Methods for the Social Sciences, Global Edition
Dit is mijn samenvatting voor het vak statistische modellen 1. Het betreft het boek Statistical Methods for the Social Sciences van Agresti en Finlay. De hoofdstukken 4.4 tot en met 9 worden behandeld, inclusief college aantekeningen. Als je in Groningen studeert, bevat dit alle tentamenstof voor s...
Summary Exam 3 Research Methods & Statistics UvA Year 1
Summary Exam 4 Research Methods & Statistics UvA Year 1
Introduction to Statistics - Lecture Notes
All for this textbook (4)
Written for
Rijksuniversiteit Groningen (RuG)
Academische Pabo
Statische modellen 1
All documents for this subject (1)
28
reviews
By: sofie307 • 4 year ago
By: saraibalkenende • 4 year ago
By: veerlerosalie • 4 year ago
By: marilaynetijs • 4 year ago
By: swamie • 4 year ago
By: claudy_visscher • 5 year ago
By: willemijnbeens15 • 5 year ago
Show more reviews
Seller
Follow
Wellie340
Reviews received
Content preview
Statistical Methods for the Social Sciences
Hoofdstuk 4.4
Bij onderzoeken werken we vaak met kans. Kans geeft aan hoe vaak een bepaald gebeuren (X) voor
zou komen als we het onderzoek meerdere malen herhalen.
Een aantal belangrijke basis begrippen:
Populatie = groep waarvan onderzoeker eigenschappen wil weten
Parameter = numerieke samenvatting van eigenschap in populatie
Steekproef = subgroep uit populatie die onderzocht wordt
Statistic = numerieke samenvatting van eigenschap in steekproef
Om een kans te berekenen hoe vaak iets voorkomt in een populatie, trekken we vaak een steekproef.
Dit is een representatieve subgroep uit de populatie die wordt onderzocht. Meestal trekken we één
steekproef en baseren we onze conclusie op deze ene steekproef. We zouden echter ook meerdere
steekproeven kunnen trekken.
Als je heel vaak een steekproef trekt, krijg je meerdere uitkomsten/kansen. Deze uitkomsten
verschillen waarschijnlijk allemaal een klein beetje van elkaar. De steekproef is ten slotte nooit gelijk
en dus heb je ook met andere waarden te maken. Als we heel vaak een steekproef trekken en de
uitkomsten hiervan opschrijven, kunnen we dit weergeven in een grafiek. Dit noemen we dan een
steekproevenverdeling.
De steekproevenverdeling is een grafiek die laat zien wat je uitkomsten zijn van al je verschillende
steekproeven die je hebt getrokken. Deze steekproevenverdeling heeft een bepaald interval
waarbinnen de waarden vallen. Dit interval is bijna altijd kleiner dan het interval van je populatie.
Hoe komt dit? als je random trekt, is de kans dat je de uiterste waarden (zowel kleinste of grootste
getal) trekt, heel klein. Meestal trek je waarden die hiertussen vallen en dus is je interval automatisch
kleiner.
Als we van de steekproevenverdeling (dus alle uitkomsten van de steekproeven samen) het
gemiddelde uitrekenen komen we heel dichtbij het gemiddelde van de populatie. Dit is een
betrouwbare maat. We kunnen aannemen dat het steekproefgemiddelde hetzelfde is als het
populatiegemiddelde. Dit noemen we unbiased.
We hebben het nu de hele tijd gehad over het gemiddelde maar je kunt ook een steekproefverdeling
maken van de mediaan of de proporties. Dit werkt op dezelfde manier. Als je een steekproefverdeling
maakt van de mediaan, kun je dus uiteindelijk de mediaan van de populatie uitrekenen.
Hoofdstuk 4.5
Een steekproefverdeling is verspreid. Je hebt namelijk bij verschillende steekproeven nooit telkens
dezelfde uitkomst. Het gemiddelde van de steekproefverdeling is hetzelfde als het
populatiegemiddelde. Van een steekproevenverdeling kun je een standaarddeviatie uitrekenen. Je
rekent dan voor iedere score uit hoever het afwijkt van het gemiddelde. De standaarddeviatie van
een steekproefgemiddelde noemen we standaardfout of standard error (Engels). De standaardfout
geeft aan hoe de verschillende steekproeven variëren en dus afwijken van het gemiddelde van alle
steekproeven. We hebben een formule voor de standaardfout (verschillend voor proporties en
gemiddelden.
Gemiddelde:
σy
Proporties:
σ ȳ=
√n
, SE π^ =
√ π^ ( 1− π^ )
n
De standaardfout wordt kleiner naarmate je meer steekproeven trekt. Dit betekent dat het interval
van de steekproevenverdeling ook kleiner wordt, want de scores variëren minder. Dit betekent dus
uiteindelijk dat je een smallere grafiek krijgt. Dus hoe meer steekproeven je trekt, hoe kleiner de
standaardfout, hoe kleiner je interval en dus hoe smaller de grafiek. Dit betekent dat hoe meer
steekproeven je trekt, hoe nauwkeuriger je schatting van de populatie.
Bij random steekproeven geldt dat als je hier een steekproevenverdeling van maakt, deze altijd
(ongeveer) normaal verdeeld is. Er is alleen één voorwaarde: je steekproef moet wel voldoende groot
zijn! Dus ook al is je populatie heel erg scheef verdeeld, de steekproefverdeling van deze populatie is
ongeveer een normale verdeling, oftewel klokvormig. Dit noemen we de Centrale Limiet Theorie.
Hoe groot moet je steekproef dan zijn? Dit hangt af van hoe scheef je populatie verdeeld is. Als de
populatie zelf al normaal verdeeld is, maakt het niet uit hoeveel steekproeven je trekt, je
steekproefverdeling zal ook altijd normaal verdeeld zijn. Echter wanneer je te maken hebt met een
hele scheve populatie, moet je grotere steekproeven trekken om een normale verdeling van je
steekproeven te krijgen. Meestal is hierbij een grootte van 30 goed genoeg. Het geldt echter nog
steeds: als je een preciezere benadering wilt, moet je steekproef ook groter zijn. Hoe groter je
steekproef, hoe preciezer de schatting van je populatie. 30 is dan nog niet groot genoeg.
Nu we weten dat een steekproefverdeling altijd ongeveer normaal wordt, kunnen we ook makkelijk
het interval waarin ons gemiddelde van de steekproefverdeling valt uitrekenen. Het valt namelijk
bijna altijd binnen 3σ/√n van het gemiddelde van de populatie.
VB: Het weekinkomen van migranten is uitgerekend. Het gemiddelde van dit weekinkomen is €380.-.
De standaarddeviatie
σy is €80,-. We kunnen nu de standaardfout uitrekenen:
σ ȳ= 80/√100 = 8.
√n
We weten nu dat de standaardfout 8 is. Nu kunnen we het interval van de steekproefverdeling
uitrekenen. Dit rekenen we uit door: 3σ/√n 3 * 8 = 24. Het gemiddelde van de steekproefverdeling
wijkt dus waarschijnlijk €24,- af van het gemiddelde van de populatie.
Hoofdstuk 5.1
Er zijn twee soorten schattingen van de parameters:
Puntschatting = je schat één specifiek getal/waarde voor de paramater
Intervalschatting = je schat een interval rond de puntschatting. Dit interval is dan je
intervalschatting. Je verwacht dat de parameter binnen dit interval valt.
Margin of error = puntschatting – je geschatte interval. Stel je verwacht een gemiddelde van
5 en je bedenkt daar een interval van 2 omheen (dus van 3 – 7), dan is je margin of error 2.
Betrouwbaarheidsinterval = bij een groot aantal steekproeven, heb je in C%
(betrouwbaarheidsinterval) van de gevallen de parameter te pakken. Betrouwbaarheidsinterval =
puntschatting ± margin of error
Hoofdstuk 5.2
Soms werken we met bepaalde categorieën van uitkomsten. Bijvoorbeeld je politieke voorkeur (VVD,
PVV, CDA) of het maandelijks inkomen (2000 – 2100 en 2101 – 2200). Om hier uitspraken over te
doen werken we vaak met percentages, bijvoorbeeld 40% van de Nederlanders stemt VVD. Deze
percentages noemen we ook wel proporties.
,Het teken voor de populatie proportie is π. Dit is dus niet de pi zoals we hem kennen van wiskunde
(3.1415). π is altijd tussen de 0 en de 1, dit namelijk het bijbehorende percentage (0,3 = 30%). We
kunnen niet meer dan 100% hebben.
De formule voor de standaardafwijking (van je populatie) voor proporties is: σ = √π(1-π)
De formule voor de standaardfout van de proportie: se ^π=
√ π (1−π )
n
Ook hier geldt weer: hoe groter je steekproef (hoe groter N), hoe kleiner je standaardfout. Er geldt
hoe kleiner je standaardfout, hoe dichter de proporties van de steekproevenverdeling bij de
proporties van de populatie liggen.
Ook voor proporties geldt de centrale limiet theorie. Dit betekent dat je steekproevenverdeling van
proporties ongeveer normaal is, waarbij het midden de geschatte parameter van de populatie is.
Hiervoor is het wel noodzakelijk dat N groot is, dus dat je steekproef voldoende groot is.
VB: In Florida is onderzoek gedaan naar de vraag of het mogelijk is om abortus te verbieden. Er zijn
1200 respondenten gevraagd, waarvan 396 ja zeiden.
N = 1200 en π = 396/1200 = 0,33 33% van de respondenten zegt ja.
De standaardfout van de steekproevenverdeling is
0,0136
se ^π=
√ π (1−π )
n
√(0,33 (1-0,33)/1200) =
Nu we de standaardfout weten, kunnen we het betrouwbaarheidsinterval uitrekenen. We garanderen
hierbij een betouwbaarheidspercentage van 95%. Eerst zoek je naar de bijbehorende z-score, deze
vind je in tabel A. Een betrouwbaarheidspercentage van 95% heeft een bijbehorende z-score van 1,96.
Het bijbehorende interval is:
π ± 1,96 * (standaardfout) 0,33 ± 1,96 (0,0136) = 0,33 ± 0,03 (0,30 – 0,36)
Dit betekent dus dat in 95% van de gevallen de parameter waarschijnlijk in dit interval ligt. Alles blijft
echter waarschijnlijk, niets is zeker bij onderzoek doen.
Hoe hoger je betrouwbaarheidspercentage, hoe breder het betrouwbaarheidsinterval en hoe groter
de kans dat de populatie parameter binnen dit interval valt.
Je betrouwbaarheidsinterval hangt samen met je z-waarde. Hoe groter je betrouwbaarheidsinterval,
hoe groter de z-waarde en dus hoe groter de margin of error.
Margin of error = z-waarde * standaardfout
Waarom kiezen we nooit een betrouwbaarheidspercentage van 99,999999%? Hoe hoger je
percentage, hoe breder je betrouwbaarheidsinterval. Als je interval heel breed is, wordt het heel
lastig om te bepalen waar de populatie parameter nou precies valt. We kiezen daarom vaak voor een
95% betrouwbaarheidsinterval, omdat het interval dan kleiner is en we dan met grotere zekerheid
kunnen zeggen waar de parameter valt.
Kortom de breedte van je betrouwbaarheidsinterval:
1. Wordt groter naar mate je een hoger betrouwbaarheidspercentage kiest
2. Wordt kleiner naar mate je steekproefgrootte groter wordt (N wordt groter)
Er is natuurlijk altijd nog een zekere (kleine) kans dat je parameter niet binnen dit interval valt. Stel
we hebben een bhi van 95%, dan heb je 5% kans dat je parameter buiten het interval valt. Dit kunnen
we berekenen:
, Error probability = 1- betrouwbaarheidspercentage
Hoofdstuk 5.3
Er zijn twee typen kansverdelingen:
De standaard normaal verdeling z-verdeling je gebruikt z-scores
De normaal verdeling t-verdeling je gebruikt t-scores
Wanneer gebruiken we nou de z-waarde en wanneer gebruiken we de t-score?
De z-waarden gebruiken we bij proporties
De t-score gebruiken we bij gemiddelden
De t-verdeling lijkt heel erg op de z-verdeling, echter de t-verdeling is iets meer verdeeld dan de
standaard normale verdeling.
Kenmerken t-verdeling:
De t-verdeling is klokvormig en symmetrisch met een gemiddelde van ongeveer 0
De standaardafwijking is iets groter dan 1. De precieze waarde hiervan is afhankelijk van de
vrijheidsgraden. Voor elke waarde van deze vrijheidsgraden, is de vorm van de grafiek net
weer iets anders. Hoe groter de vrijheidsgraden, hoe meer de grafiek op een standaard
normale verdeling lijkt
Vrijheidsgraden (=df) = N -1
De t-verdeling heeft dikke staarten (gaat minder snel naar de horizontale as) en is meer
verspreid dan de standaard normale verdeling
Margin of error = t-score * standaardfout
Vrijheidsgraden (degrees of freedom) = aantal “vrij” te kiezen waarden van een groep (aangenomen
dat je gemiddelde al kent). VB: stel je hebt 4 getallen opgeschreven en je wilt er nog een getal
bijschrijven. Je weet dat het gemiddelde 3 moet zijn. Het getal wat je er bij moet schrijven is nu niet
meer vrij, maar moet per se een bepaald cijfer zijn om dat gemiddelde te kunnen halen. Het betekent
dus eigenlijk dat het laatste getal van een steekproef het gemiddelde bepaald. Dit getal is niet meer
vrij. De andere waarden/getallen van de steekproef zijn dit wel en kunnen alle waarden aannemen.
De t-scores kunnen we vinden in tabel B.
VB: Stel we doen onderzoek naar anorexia. We wegen het gewicht van 29 meisjes voor en na het
verblijf in een opvangkliniek. We hebben nu dus een overzicht van het gewichtsverschil. Een negatief
gewicht duidt op gewichtsverlies en een positief gewicht duidt op een gewichtstoename. Het
gemiddelde gewichtsverschil is 3,01. De standaardafwijking is 7,31.
De standaardfout is: s / √N = 7,31 / √29 = 1,36.
De vrijheidsgraden zijn: N – 1 = 29 – 1 = 28
We nemen een betrouwbaarheidsinterval van 95%. Hierbij moet je de bijbehorende t-score zoeken in
tabel B. De bijbehorende t-score is 2.048 bij df = 28.
Het bijbehorende betrouwbaarheidsinterval is dan: ŷ ± t 0,025 (s / √N)= 3,01 ± 2,048 (1,36) (0,2 – 0,58)
Dit betekent dus dat in 95% van de gevallen het populatiegemiddelde waarschijnlijk tussen de 0,2 en
0,58 valt.
Als het aantal vrijheidsgraden toeneemt, is de t-verdeling minder verspreid en begint het meer te
lijken op een standaard normale verdeling. Als de vrijheidsgraden oneindig zijn, kunnen we dus wel
stellen dat we te maken hebben met een standaard normale verdeling.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller Wellie340. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $5.30. You're not tied to anything after your purchase.