100% tevredenheidsgarantie Direct beschikbaar na betaling Zowel online als in PDF Je zit nergens aan vast
logo-home
Samenvatting Statistiek II (Verklaren en Voorspellen) [2.2] €15,49   In winkelwagen

Samenvatting

Samenvatting Statistiek II (Verklaren en Voorspellen) [2.2]

6 beoordelingen
 422 keer bekeken  40 keer verkocht
  • Vak
  • Instelling

Met deze samenvatting heb ik een 9.3 voor het tentamen behaald. Dit document bevat: verplichte literatuur (MMC / Passer), colleges over de verplichte literatuur, uitwerking van de thuiswerksommen, overzicht van de statistische testen (wanneer te gebruiken) en een overzicht van de assumpties/hypot...

[Meer zien]

Voorbeeld 10 van de 181  pagina's

  • 3 januari 2020
  • 181
  • 2019/2020
  • Samenvatting

6  beoordelingen

review-writer-avatar

Door: saskia-koolen • 1 jaar geleden

review-writer-avatar

Door: outmsaida • 3 jaar geleden

review-writer-avatar

Door: amyvansuijlekom • 3 jaar geleden

review-writer-avatar

Door: armandovanderbie • 3 jaar geleden

Allesomvattend en duidelijk!

review-writer-avatar

Door: kuguruyar • 1 jaar geleden

review-writer-avatar

Door: anneeeltink • 3 jaar geleden

avatar-seller
1


HC1 [2.2] Joran Jongerling

Waarom statistiek?
1. Om onderzoek te doen, moet je data kunnen analyseren.
2. Om de onderzoeksresultaten in literatuur te kunnen interpreteren.

Twee soorten statistiek
- Beschrijvende statistiek -> toegang tot de volledige groep
o Samenvatten/organiseren van kwantitatieve onderzoeksresultaten.
o Verzamelde data beschrijven.
- Inferentiële statistiek -> geen toegang tot de volledige groep
o (Statistisch) toetsen
o Trekken van conclusies over een populatie op basis van de onderzoeksresultaten afkomstig
uit een steekproef.
o Beschrijven van niet alle verzamelde data. (Bijvoorbeeld niet over de EUR-studenten, maar
alle NL-studenten, terwijl je alleen de data van de EUR-studenten heb).

Meetniveaus
- Kwalitatieve variabelen: geen getal (met waarde, het zegt niks)/grootte/hoeveelheid, maar
categorieën met bepaalde eigenschap. Bv. man/vrouw, psycholoog/arts/statisticus,
mondeling/schriftelijk.
o Nominaal (categorisch): ene categorie is niet “meer” of “minder”. Bijvoorbeeld fruit.
o Ordinaal (categorisch): wel een rangorde, maar daarmee is alles gezegd,
ongelijke afstanden tussen de waarden. Bijvoorbeeld SES (grote tussen laag
en midden is niet hetzelfde als de grote tussen midden en hoog, zelfde bij spinnen).
- Kwantitatieve variabelen: getal met echte getalbetekenis. Bv. lengte, gewicht, IQ, inkomen, score op
depressie-test enz.
o Interval (continu): afstanden tussen de waarden zijn interpreteerbaar en vergelijkbaar, maar
er is geen absoluut nulpunt. Bv. IQ (grote tussen IQ90 en IQ100 is dezelfde grote als de grote
tussen IQ100 en IQ110, echter betekent dit niet dat iemand met een IQ van 120 2x zo slim is
al iemand met een IQ van 60). Ander voorbeeld 40 graden Celsius buiten is niet 2x zoveel is
20 graden Celsius (dit kan niet, omdat er geen absoluut nulpunt is).
o Ratio (continu): voldoet aan alle voorgaande eisen, en heeft een absoluut nulpunt, waardoor
het delen van waarden ook interpreteerbaar is. Bv. gewicht, lengte of inkomen. Hier kan je
ook zeggen dat iets twee keer zo zwaar, lang of meer is dan het ander, vanwege het absolute
nulpunt.

Frequentieverdeling
- Variabelen worden samengevat in frequentieverdeling (handig bij beschrijvende
en inferentiële statistiek). Dit kan in een tabel of grafiek.
o Je kunt zien hoe vaak iets voorkomt.

Vormen van frequentieverdeling
- Deze vormen vatten informatie (zoals in een histogram) samen.
- Hiervoor heb je het centrum (gemiddelde) nodig + de spreiding.
o Gemiddelde wordt naar rechts getrokken als de frequentieverdeling (scheef
naar rechts is). -> Je gaat hier naar de positieve getallen, dus het is positief
scheef.
▪ Hierdoor kan je het beter samenvatten middels een mediaan of
een modus.
o Gemiddelde wordt naar links getrokken als de
frequentieverdeling (scheef naar links is). Je gaat
naar de negatieve getallen, dus het is negatief
scheef.
▪ Hierdoor kan je het beter samenvatten
middels een mediaan of een modus.

, 2


Centrummaten
- Modus: meest voorkomende score.
- Mediaan: middelste score.
- Gemiddelde: som van alle scores gedeeld door het aantal (zie formule hiernaast).

Spreidingsmaten
- Spreiding: zitten de waarden van een variabele dichtbij elkaar of ver van elkaar?
o StandaardDeviatie: “gemiddelde spreiding rond het gemiddelde”.
- SD wordt berekend via de variantie.




- Waarden moeten gekwadrateerd worden aangezien je bij het aftrekken van de steekproefgemiddelde
van individueel scoren negatieve waarden krijgt die bij elkaar opgeteld 0 zijn in een symmetrische
verdeling (aangezien je wat je aan de linkerkant van de verdeling van het gemiddelde af haalt, je ook
hetgeen wat aan de rechterkant van de verdeling van het gemiddelde af haalt). Kwadrateren zorgt
altijd voor positieve waarden (-2 = 4, maar 2 = ook 4). Dus beter dit dan absolute waarden te nemen.
- Waarom delen we door n-1? Je corrigeert hiermee het optellen van het aantal individuele
observaties. Hiermee krijgt je een betere, accuratere schatting van de populatie (gewoon een
wiskundig gegeven).
- Waarom trekken we wortel? De variantie heeft geen betrekking op individuele scoren, omdat we
waarden hebben gekwadrateerd. Om dit dus recht te zetten trekken we de wortel van de variantie,
waardoor we die waarde wel kunnen weerhouden tot de individuele observaties (nu heb je de sd).
M.a.w. je komt op dezelfde schaal weer als de oorspronkelijke scoren.

Standaardscoren (= z-scoren)
- Aantal Sd’s dat een score X verwijderd is van het gemiddelde.
o Hiermee kan je kijken hoeveel procent hoger scoort of tussen een bepaalde waarde valt.
- Dus gegeven het bovenstaande voorbeeld. Welk percentage scoort lager of hoger dan een 5?




- Gebruik z-tabellen voor de bovenstaande vragen en soortgelijke
voorbeelden.
- Je wilt weten wat tussen de -1 en de 1 ligt. Als je kijkt bij een z-score van
1 weet je dat .8413 aan de linkerkant ligt. Je kijkt naar de z-score van -1
en je weet dat dit .1587 is. Dit trek je dan van .8413 af (zodat je weet
wat tussen 1 en -1 ligt. Uitkomst: ongeveer 68%.

, 3


Inferentiële statistiek

Inferentiële statistiek zie je veel in artikelen om hypothesen binnen de wetenschap te toetsen.

De empirische cyclus
Voorbeeld
1. Observatie: ik kauw op kauwgum en haal een hoger cijfer.
2. Hypothese: zal kauwen op kauwgom leiden tot een hogere cijfer?
a. Nulhypothese (H0): er is GEEN verschil, beide groepen zijn gelijk.
i. Je verwacht een verschil (HA), maar je toets echter altijd H0. Reden:
HA bewijzen (in eerste instantie ) is erg lastig, heb je heel de
populatie voor nodig (iedereen specifiek volgen), condities moet
hetzelfde zijn. Aantonen dat iets niet klopt is makkelijker. Hoe vaker
je er dus achter komt dat H0 niet klopt, hoe realistischer het is dat
HA klopt. We willen verwerpen i.p.v. bewijzen.
b. Alternatieve hypothese (HA): er is WEL verschil, beide groepen zijn helemaal niet gelijk!
3. Toetsbare voorspellingen: helft van de tentamens kauw ik op kauwgom en de andere helft niet.
4. Toets: daadwerkelijk doen.
a. Hier komt de inferentiële statistiek bij kijken.
5. Evaluatie: gemiddeld hoger cijfer bij kauwgom kauwen?
6. Terug naar 1 o.b.v. de evaluatie.

Hypothese toetsen
- Steekproef pakken -> in tweeën verdelen (ene helft krijgt kauwgom, andere helft niet). Je kijkt naar de
gemiddelde score op hun tentamen (scoort de groep die kauwgom kauwt hoger dan de andere groep
of scoren ze gelijk?).
o Belangrijk dat de groepen: exact hetzelfde zijn (bv. als de ene groep slimmer is dan de andere
groep, dan kan het daardoor komen en niet door de kauwgom). Dit kan je doen a.d.h.v.
randomisatie (= kans). Dit werkt echter alleen als je groep groot genoeg is. Bij kleinere
groepen iets meer hands-on randomisatie om variabelen te beheersen, zoals gelijke
verdeling in geslacht.
- Variabelen
o De onafhankelijke variabele: kauwgom kauwen.
o De afhankelijke variabele: tentamencijfer.
- Hypothesen
o De nulhypothese gaat uit van geen verschil dus de score daarbij zou 0 zijn.
o De alternatieve hypothese gaat uit van wel een verschil dus hoger of lager dan 0.
- Wanneer concludeer je dat HA klopt?
o Wanneer de waarde die je vindt in je steekproef heel erg onaannemelijk is gegeven H0 dan
verwerp je H0. Dit bepaal jij zelf. Bijvoorbeeld bepalen dat de kans 5% is dat je zo een score
vindt en als je zoiets vindt, dan verwerp je het.
o Je doet het niet als de scoren dicht bij 0 liggen (= geen verschil).

Assumpties die je inneemt bij hypothesen toetsen
- Je frequentieverdeling is gebaseerd op je nulhypothese (vaak zijn hierbij kleine verschillen
aannemelijk en grote verschillen onaannemelijk). Je weet 100% zeker dat dit klopt.
o Grote verschillen zijn dus niet onmogelijk (ze komen tot een bepaalde hoogte, vaak relatief
weinig, voor, maar niet vaak).
- Je gaat dus akkoord met een hele kleine kans op het maken van een foute beslissing.

Fouten bij statistisch toetsen
- Type I fout: H0 verwerpen (o.b.v. een groot verschil dat je hebt gevonden, maar wellicht niet
consistent in meerdere steekproeven gevonden), terwijl H0 eigenlijk klopt.
o Om dit te voorkomen, kies je voor een zo klein mogelijke alpha-niveau (bijvoorbeeld de kans
dat je iets vindt volgens de nulhypothese is 5%). In 5% van de gevallen kan je dus een type I
fout maken.
o Zie linkerafbeelding (rode gedeelte is kans hierop).

, 4


- Type II fout: H0 niet verwerpen, terwijl je dit wel had moeten doen (HA klopt dus). Je doet dit
namelijk niet omdat de waarden die je vindt (zie gele gebied) ook goed bij de H0 past (zie groene
gebied). HA (zie blauwe gebied) is echter aannemelijker.




Toegepast voorbeeld
- Zonder kauwgom halen kinderen als jaren een gemiddelde scoren
van 6.9 met een standaarddeviatie van 2.3 (= populatie).
- In een steekproef (N= 100) van geobserveerde kinderen die
kauwgom kauwde tijdens een test werd het volgende gevonden: ̅x
van 7.5 en een s van 2.1.
o Als de nulhypothese klopt dan zou er ook een gemiddelde
van 6.9 moeten zijn gevonden.
- Hoe kan je o.b.v. deze steekproef iets concluderen over de
populatie?

Stappen van ELKE statistische toetsingsprocedure
1. Formuleren van H0 en HA (1-zijdig of 2-zijdig: let op!)
a. H0: µkauwgom en µniet-kauwgom = 6.9.
b. HA: µkauwgom ≠ 6.9.
2. Kiezen van analyseprocedure en beslisregels. Beslisregel heeft betrekking op het significantieniveau
(alpha).
a. Analyseprocedure = z-toets.
i. Dit doe je omdat de σ bekend is in je populatie! Was dit niet zo? Dan t-toets.
b. Beslisregel = significantieniveau = .05 (2-zijdig). Als kans op iets 5% of minder is wordt H0
dus in dit geval verworpen.
i. Zie afbeelding hiernaast.
3. Het trekken van de steekproef.
a. Is al getrokken. N = 100. Je wilt nu testen wat de kans is op 7.5 of groter als H0 waar is (dus
eigenlijk (6.9).
4. Bepalen van de positie van je steekproefresultaat op een referentieverdeling +
kijken naar de toetsingsgrootheid
a. Berekenen van toetsingsgrootheid uit de data.
b. Referentieverdeling: geeft aan welke waarden aannemelijk zijn volgens H0.
c. De gegevens die je nu hebt: 6.9 is het gemiddelde in de populatie en de sd is 2.3 in de
populatie. Je berekent nu de standaardfout dit is de kans op een afwijking van een
gemiddelde van een steekproef in een steekproevenverdeling wat gelijk staat aan de kans op
een afwijking van een individuele scoren in de verdeling van individuele scoren van een
populatie. (Jouw waarde van jouw steekproef moet dus ver hier buiten vallen wil je de H0
verwerpen.) De formule die wordt toegepast voor de standaardfout is: σx̅ =(σ /√n). Gegeven
de context is dit 2.3 / √100 = .23.
d. Vervolgens bereken je de kans om de waarde 7.5 in de nulhypothese te vinden! Hiervoor pas
je de one sample z-test toe. Die ziet er als volgt uit: Z = x̅ - μ / (σ /√n). Onthoud dat het
tweede deel van de formule de standaardfout impliceert wat net is berekend. Ofwel de
gegevens worden 7.5 – 6.9 / .23 wat op een waarde neerkomt van 2.61.

, 5


5. Bepalen van de p-waarde: kans op gevonden observatie of extremer ALS H0 waar is (gegeven H0).
a. Je kijkt nu naar de kans van 7.5 in de verdeling van de nulhypothese. Het gemiddelde in
verdeling van de nulhypothese is een 6.9. De waarde 7.5 (gemiddelde van de steekproef) ligt
2.61 standaardfouten van het gemiddelde vandaan. In een z-tabel staat hiervoor een waarde
van .9955. Dit weerspiegelt echter de linkerkant van de verdeling, terwijl je de rechterkant
wilt hebben. Je haalt dus .9955 van 1 af. Dit komt neer op een kans van .0045 ( = 1 zijde).
6. Beslissing verwerp H0 als de p ≤ α, anders behoud H0.
a. De gevonden kans .0045 is kleiner dan 0.025, oftewel de kans
zeer onaannemelijk in de verdeling van de nulhypothese, dus
de H0 wordt verworpen! Echter moet je dit wel iets van 100
keer doen, voordat je de nulhypothese kan verwerpen!

Wanneer verwerp je en wanneer niet?




Verschil eenzijdig en tweezijdig (eenzijdig: z 1.645 [.05], tweezijdig: z 1.96 [.025]).

, 6


HC2 [2.2] Joran Jongerling

Statistische schatting (1)
- H0: er is GEEN verschil (beide groepen gelijk). Het gemiddelde is dus 0.
o Wanneer je een steekproef trekt uit een populatie hoeft het gemiddelde echter niet 0 te zijn
aangezien je te maken hebt met steekproefvariantie. Vaak wijkt ̅x een beetje af van µ (er
wordt dus vaak een klein verschil gevonden, maar niet een groot verschil). De waarde ligt dus
dichtbij 0.
- Twee dingen die belangrijk zijn bij statistische schattingen.
1. Je gaat altijd ervanuit dat H0 waar is.
2. De verdeling van H0 is altijd gebaseerd op de parameter die je wilt weten. Onderzoek je
gemiddelden? Dan heb je een distributie met gemiddelden.
- Hoe vat je een verdeling samen?
o Met een centrummaat: dit is de waarde (het gemiddelde) wat onder je H0 is weergegeven.
o Met de mate van spreiding: dit is het verschil in steekproefgemiddelden in een verdeling van
steekproeven (= je populatie). O.b.v. 1 steekproef kan je voorspellen hoe erg dit varieert
(wat neerkomt op hoe 100 verschillende steekproeven zouden variëren van het
populatiegemiddelde). Hiervoor bereken je de standaardfout (σ/√n): de gemiddelde
afwijking van een potentiële steekproef van het populatiegemiddelde (gemiddelde van
steekproevengemiddelden).
▪ Dus stel de σ20 en je hebt een steekproef van 16 man. Dan doe je 20/√16 wat
neerkomt op een waarde van 5 (dit is dus 1 standaardfout en zegt dus dat het
gemiddelde van een steekproef – gemiddeld genomen - 5 punten kan afwijken van
het populatiegemiddelde wat 240.79 is).
- Een standaard normaal verdeling beschrijft kansen voor gestandaardiseerde z-scores in het
algemeen. Dus als je een H0 toets, stel je een grensgebied op (bv. α .05). Je zoekt hiervoor
de betreffende z-waarde verdeeld over de twee staarten bij een tweezijdige toetsing (=
.025). Als een waarde heel vaak uitkomt op een waarde dat in het alpha-niveau valt kan H0
verworpen worden.

Vandaag wordt hetzelfde behandeld, maar dan met proporties.

Soms willen we iets meer informatie dan te toetsen of het gemiddelde van een steekproef gelijk is aan het
gemiddelde van het populatiegemiddelde (= nulhypothese). Dit geeft namelijk alleen aan of de bevinding van
een gemiddelde in een steekproef verrassend of niet verrassend is vergeleken met het populatiegemiddelde
gebaseerd op een opgestelde alpha-niveau. Soms willen we weten: welke waarden zijn aannemelijk? Oftewel
welke range aan waarden voor een verschil in gemiddelde zijn aannemelijk? Onthoud bij gemiddelden was
het zo dat je een grenswaarde opstelde (bijvoorbeeld een alpha van .05) en wanneer het gemiddelde van een
steekproef buiten (verder/lager dan.05) een alpha .05 van het populatiegemiddelde viel dan werd H0
verworpen.

Proportie: bepaald verschil in gemiddelde.

Betrouwbaarheidsinterval (2)
Wat we in dit hoofdstuk doen is de redenatie rondom significantie toetsen op zijn
kop draaien. Bij gemiddelden werd er voor een steekproef gekeken wat te
onaannemelijk was, terwijl er nu wordt gekeken naar welke waarden aannemelijk
zijn! M.a.w. er wordt gekeken naar het betrouwbaarheidsinterval (BI). Onthoud dat
hoe smaller BI, hoe smaller de range aan plausibele waarden. Ofwel, wanneer je een
BI hebt van 95% dan is de range aan plausibele waarden groter dan bij een BI van
80% (je kunt namelijk met minder zekerheid iets zeggen, waardoor de range aan
plausibele waarden versmalt).
Er werd al eerder gesproken over een voorbeeld met een populatiegemiddelde van 240.79, waarbij de
standaardfout 5 was. Stel je neemt een BI van 95%, dus 2x de standaardfout aan de linker en
rechterkant komt neer op het feit dat 95% van gemiddelden van steekproeven valt binnen een range
van het populatiegemiddelde met 2 standaardfouten (ofwel 95 steekproeven van de 100 getrokken
steekproeven). Het gaat dus NIET om 95% zekerheid, maar om 95% v.d. gevallen.

, 7


Margin of error (3)
- Het grote idee: in een steekproevenverdeling van ̅x geeft een BI aan hoe waarschijnlijk een ̅x bij de µ
kan liggen.
- Zie hiernaast de formule van de margin of error: schatting ± marging of error.
o Schatting: representeert de parameter die je wilt meten (gemiddelde, proportie,
regressiecoëfficiënt et cetera).
o Marging of error (= errormarge): impliceert een bepaalde z-waarde wat wordt
vermenigvuldigt met een standaarderror.
- Voorbeeld schatting ± marging of error. Stel je wilt een BI nemen van 95% (wat ongeveer 2
standaardfouten impliceert) dan tel je dus 2x de standaardfout van de schatting af en 2x de
standaardfout op van de schatting en dit is je BI!
- Samenvattend
o Niveau C betrouwbaarheidsinterval voor de parameter bestaat uit twee delen:
▪ Interval: schatting ± marging of error.
▪ Betrouwbaarheidsniveau C, waar C de kans is dat het interval de ware parameter
waarde zal vangen in herhaalde steekproeftrekkingen. Met andere woorden, het
betrouwbaarheidsniveau is een soort mate van succes voor de methode. Dit is
meestal 95%.
o Hoe smaller je BI, hoe nauwkeuriger je aan het meten ben, hoe beter jouw
steekproefwaarde een echte idee geeft van de populatiewaarde. Oftewel hoe kleiner je m
maakt, hoe nauwkeuriger je meet.
- Je kunt spelen met de formule rondom de margin of error om de waarde n op de plek van de
uitkomstwaarde te krijgen. Zie hiernaast de formule die je dan krijgt. Wat je dan je kunt meten is
hoeveel mensen je nodig hebt om een bepaalde mate van nauwkeurigheid te hebben. Dus stel je
wilt niet dat je errormarge groter wordt dan .05 (want je wilt een BI hebben van 95%) dan kan je
met deze formule erachter komen hoeveel participanten je in een steekproef nodig hebt om dit te
krijgen.

Wat hierboven is besproken (betrouwbaarheidsintervallen, significantie toetsen en kiezen van
steekproefgrootte) wordt nu toegepast op proporties.

Hoofdstuk 8: Inferenties met proporties

Toetsing (inference) van één proportie (8.1)

Bij proporties kunnen dezelfde referentieverdelingen worden gebruikt als bij gemiddelden, namelijk een
normaal verdeling. Dit is echter wel zo bij benadering dat het normaal wordt verdeeld (ofwel bij grote
steekproeven).
2
Verschillen vergeleken met gemiddelden
1. Het middenpunt bij je parameter representeert niet meer het gemiddelde waarde, maar een
gemiddelde proportie.
2. De formule is anders (zie hierboven de formule van de schatting ± foutmarge en zie hiernaast de
formule voor proporties).
a. Als je de variantie wilt uitrekenen in een verdeling van individuele proporties. Dan blijkt dat
dit gelijk is aan p̂ *(1-p̂ )/n. Eigenlijk staat er hier dus σ2 van je proportieverdeling. En als je
hier de wortel van trekt heb je de standaarddeviatie.
b. Samenvattend staat er net als bij gemiddelde pak de
standaarddeviatie en deel dit door wortel n.

Betrouwbaarheidsinterval voor een proportie (is eigenlijk ook hetzelfde) (1)
Wat in de dia hiernaast duidelijk naar voren komt is dat bij de formule van
gemiddelde de foutmarge (σ/√n) nu wordt vervangen door p̂ (1-p̂ )n en daar
trek je de wortel van. Eigenlijk is dit dus hetzelfde! Onthoud hiernaast dat p̂
de statistiek is die we gebruiken om de parameter p te schatten!
Samenvattend is de formule hiernaast dus de standaardfout van het
gemiddelde van een bepaalde proportie.

, 8


Nogmaals: dus de schatting is nu een proportie i.p.v. een gemiddelde en de standaardfout (= beide kanten
zonder kritieke waarde) heeft nu een andere formule in dezelfde formule om een foutmarge (= beide kanten
met kritieke waarde) te meten.

Zie hieronder hoe je z-waarden opzoekt in z-tabel (exact de stapjes die je moet ondernemen).




- Als je eenmaal de kritieke waarde hebt (= z*) hebt gevonden dan vul je dat in de op de plek van de
formule van een foutmarge voor proporties (wat er – zoals eerder benoemd – net wat anders
uitziet, maar op hetzelfde neerkomt).
- Gebruikt dit interval alleen als de aantal successen en niet-successen in de steekproef beide minimaal
10 zijn. Om een normaal verdeling te krijgen!

Voorbeeld
Stel een statistiekdocent geeft aan dat 50% van de kralen in een bak rood zijn. Vervolgens vindt er een
willekeurige steekproef plaats van 251 kralen waaruit blijkt dat 107 kralen rood zijn. Wat je nu moet doen is
het berekenen en interpreteren van een 90% BI voor de proportie van rode kralen in een bakje. Je gebruikt dit
interval om iets te zeggen over de claim van je statistiekdocent.

Wat je eerst doe is de steekproefproportie uitrekennen. Dit is 107/251 = .426 (voorheen zou dit het
gemiddelde zijn), ofwel dit is je schatting. Onthoud om een interval te gebruiken moet het aantal successen en
het aantal niet-successen groter zijn dan 10. Gegeven het voorbeeld
worden de 107 rode kralen gezien als successen en de 144 overige
kralen als niet successen. Dit betekent dat de steekproef groot
genoeg is!

Vervolgens zoek je de kritieke waarde (= z*) voor een BI van 90%. Dit
is 1.645 (representeert 5% aan de linkerkant en 5% aan de
rechterkant).

Hierna bereken je de standaardfout van je proportieverdeling. Ofwel
.426*(1-.426)/251 en hier trek je de wortel van. Vervolgens kan de
rest van de formule worden afgemaakt de kritieke waarde (z)
vermenigvuldig je met de standaardfout dit eindantwoord tel je bij p̂
op en trek je ervan af, waardoor je het interval hebt.

De aannemelijkheid van wat de statistiekdocent (50%) zei kan worden verworpen aangezien dit buiten het
interval valt, zie voorbeeld hiernaast! Er kan dus iets worden gezegd over H0 o.b.v. BI, ofwel hypothese
toetsen.

, 9


Plus-Vier Betrouwbaarheidsinterval voor proportie
Plus-vier methode: 4 denkbeeldige observaties toe voegen, zoals 2-successen en 2-niet-successen als je niet
een minimale n hebt van 10 in beide groepen.

Wat hierbij verandert in de formule is eigenlijk niet zo veel. Alleen de p̂ verandert. Je
doet het aantal successen + 2 delen door n + 4 om op je p̂ uit te komen (bijvoorbeeld
rode kralen). Als je dus 8 roden kralen hebt en 8 niet rode kralen, voeg je 2 kralen bij de 8
kralen toe, deelt dat door n+4 (ofwel 16+4) en nu heb je, je p̂ . Tevens is het bij de formule voor je BI zo dat je
de standaardfout deelt door n + 4. Er moet dus wel een eerlijke verdeling zijn over de groepen (successen
en niet-successen).

Onthoud BI’s zijn altijd tweezijdig, nooit eenzijdig. Dit kan alleen bij statistisch toetsen.

Significantie toetsen voor een proportie (2)
Werkt exact hetzelfde als bij gemiddelden. Allereerst teken je een verdeling
volgens de H0 en geef je aan welke hypothese aannemelijk en welke hypothese
minder aannemelijk zijn. Hiervoor stel je eveneens weer een grensgebied af met
bijvoorbeeld een alpha van .05 (= 5%). Als de kans op de proportie 5% of minder
is, wordt H0 verworpen. Let op het verschil bij eenzijdig en tweezijdig toetsen.

Je berekent de steekproefproportie en kijkt waar deze waarde valt in de
referentieverdeling. Dit zet je om in een z-score (zodat je precies weet waar de
score valt). De tweede p (zonder dakje) is de proportie die je specificeert onder H0
en dit deel je door de standaarderror van de steekproevenverdeling. Controleer of
de z-waarde buiten je kritieke waarde (alpha-level) valt of niet. Nu wordt er dus weer gekeken welke
waarden onaannemelijk zijn in plaats van aannemelijk bij een BI.


Voorbeeld
Chips producent krijgt aardappelen. Bij meer dan 8% aan rotte aardappelen krijg je nieuwe aardappelen. Uit
een aselecte steekproef van 500 aardappelen blijkt dat 47 hiervan rot zijn. Voer een significantie test uit op
het α = significantie niveau. Wat moet de producent concluderen?

We willen een toets uitvoeren met een α = .10 significantie niveau van. H0: p = .08 en Ha = p. > .08. Hierbij is
de p de proportie rotte aardappelen in de lading.

Als aan de condities is voldaan, zouden we een one-sample z test moeten doen voor de populatieproportie p.
- Random: de supervisor trok een willekeurige steekproef van 500 aardappelen uit deze lading.
- Normaal: veronderstel dat h0: p =.08 waar is, dan is het verwachte aantal rotte aardappelen gelijk
aan np0 = 500 (.08) = 40 en het verwachte niet-rotte aardappelen is dan gelijk aan n (1-p0) = 500(.92(
- 460. Beide > 10, dus we kunnen veilig berekeningen doen op de normaal verdeling.

Onthoud: we gaan altijd uit van het feit dat H0 waar is, dus die gegevens gebruiken we!

Je berekent eerst de steekproefproportie (p met het dakje). Hiervoor
deel je 47 door het totaal, namelijk 500. Wat neer komt op een p̂ van
.094. Hierna voel je de test statistiek uit (= one sample z-test).
Hiervoor haal je de proportie af van de proportie volgens je
nulhypothese en deel je door de standaarderror volgens je
nulhypothese (kans op spreiding). Dit komt neer op een z-waarde van
1.15. Hierna maak je gebruik van een z-tabel en zie je dat de kans op
een z-waarde van 1.15 of groter (= de kans op ene
steekproefproportie van .094) is gelijk aan de kans op .1251 (=
12.51% kans op de kans van .094). Aangezien de waarde groter is dan
het alpha-level wordt de H0 niet verworpen.

, 10


Maximale margin of error (foutenmarge) bepalen (maximale steekproefgrote t.b.v. de nauwkeurigheid) (3)
Waar heb je invloed op?
- Z-waarde (je kunt zelf BI bepalen), bv. 1.96).
- M heb je ook invloed op (aangezien dit samenhangt met je BI).

Waar heb je geen invloed op?
- Sd, dit hangt af van de proportie.
- Je hebt geen invloed op de proportie.

Zie hiernaast de formule die aangeeft wat voor n je nodig hebt t.b.v. de steekproef.
Omdat de margin of error de steekproefgrootte p̂ bevat, moeten we de p̂ schatten
als we n bepalen. Er zijn 2 manieren waarop dit kan.
1. Gebruik een gok voor p̂ gebaseerd op eerdere ervaring of een pilot onderzoek.
a. Bijvoorbeeld een inschatting maken van p̂ o.b.v. EUR-studenten.
b. Nadeel: groep is niet altijd representatief voor de populatie.
2. Gebruik p̂ - .5 als gok. De foutmarge is op zijn grootste als p̂ = .5.
a. Dit is de mees onnauwkeurige proportie.

Voorbeeld
Stel dat je wil bepalen welk percentage stemmers voor een bepaalde kandidaat is.
Bepaalde steekproefgrootte om p te schatten met een marge van hooguit .03 met
95% betrouwbaarheid.

- De kritiek waarde voor 95% betrouwbaarheid is z* - 1.96.
- Aangezien de directeur een marge (marging of error) wil van niet meer
dan .03 gaan we de volgende vergelijking oplossen.

Je gebruikt in de formule de minst gunstige situatie (p = .5), want als je hiermee
de n vindt die je moet hebben dan vindt je het zeker met andere p’s. zie hiernaast
het antwoord.

We hebben nu drie dingen gedaan voor een proportie, namelijk: het opstellen van een BI, hypothese getoetst
en we hebben gemeten hoeveel mensen we nodig hebben voor een bepaalde mate van nauwkeurigheid. Maar
wat nou als we niet meer geïnteresseerd zijn in één proportie (mensen die een toets halen), maar in
verschillen tussen twee proporties?

Vergelijken van twee proporties (8.2)

Om te rekenen met twee proporties geleden weer alle mogelijkheden die je had bij het rekenen met één
proportie en bij het rekenen met gemiddelde, namelijk:
- Benaderend (“large-sample”) betrouwbaarheidsintervallen berekenen voor een verschil in proporties.
- Plus-vier betrouwbaarheidsintervallen voor een verschil in proporties toepassen.
- Significantie-testen uitvoeren voor een verschil (D) in proportieis.
- Het relatieve risico berekenen voor een verschil in proporties. Dit gaat weer om hoeveel mensen je
nodig hebt om met een bepaalde mate van nauwkeurigheid te meten.

Twee groepen proporties vergelijken
Het is niet zo dat je twee totaal verschillende groepen nodig
hebt (bijvoorbeeld mensen uit Nederland met mensen uit
België vergelijken), maar het kan ook zo zijn dat je alleen
kijkt naar dezelfde groep (bijvoorbeeld mensen uit Nederland die wel een behandeling krijgen versus mensen
uit Nederland die geen behandeling krijgen). Samenvattend:
- Methode 1 -> totaal verschillende groepen/populaties
o Vergelijken van porporties van individuen met een bepaalde eigenschap in bevolking 1 en
bevolking 2: p1 en p2.
o Random steekproeven uit elke populatie trekken en dan de steekproefproporties vergelijken
op dat kenmerk.

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

√  	Verzekerd van kwaliteit door reviews

√ Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper ashrayjagernath. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €15,49. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 77764 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen
€15,49  40x  verkocht
  • (6)
  Kopen