Statistiek samenvatting Course 5
Hoofdstuk 4: Normaalverdeling
Een voorbeeld of onze studentenpopulatie een normaalverdeling heeft:
- Iedere student noemt zijn/haar lengte
- Met een R script wordt de berekening gedaan
- De “break” variabele was nog aangepast naar een grootte van 40 [?].
- De grafiek bleek niet een normaalverdeling te hebben. Je zag 2 pieken, waarschijnlijk
1 voor de wat kortere meisjes, en 1 voor de langere jongens
Groote standaarddeviatie: groot verschil tussen lengte van studenten
Kleine standaarddeviatie: klein verschil tussen lengte van studenten
Standaarddeviatie was de letter sigma σ
Meetfout: je kunt heel vaak hetzelfde meten, maar het kan goed zijn dat je nooit nog een
keer dezelfde waarden als uitkomst krijgt. Je krijgt dan waarden die ongeveer gelijk zijn.
Normaalverdeling:
Grootere standaarddeviatie betekent vaak groter curve.
,Z-verdeling:
- Het getal Z betekent het aantal standaarddeviaties vanaf het gemiddelde (kan zowel
positief als negatief zijn, bijvoorbeeld één SD naar rechts betekent een Z van +1.0).
- Y is het getal waar het over gaat
- µ is het gemiddelde
- σ is de standaarddeviatie
- Bijvoorbeeld 4.3.3 a):
o Y= 1500, want dat is het getal waar het over gaat
o µ = 1400
o σ = 100
o De som voor Z wordt dan:
o De Z-score voor 1.0 (tabel 3 in je boek) is 0.8413, en dat is je antwoord.
- Met de Z-score bereken je het deel van de grafiek dat zich links van je Y bevindt.
Maar soms kan het ook zijn dat je juist het rechter deel wilt weten, bijvoorbeeld
wanneer je wilt wil weten welke vissen er allemaal groter zijn dan een bepaalde
waarde (dus rechts van de grafiek), bijvoorbeeld example 4.3.3. b):
,- Het kan ook zijn dat je een gedeelte tussen twee waarden wilt vinden, bijvoorbeeld
vraag d) van example 4.3.1:
,Je kunt de gevonden percentages ook naar kansen omzetten (zie blz 140 bovenaan):
Ook kan het zijn dat je andersom moet werken, dus vanuit de grafiek naar een bepaalde
lengte vis. Je leest tabel 3 dan eigenlijk achterstevoren af. Zie example 4.3.2 en opdracht
4.S.6. Bijvoorbeeld example 4.3.2 b):
- Je moet een Z-score uit tabel 3 kiezen, die het dichtstbij de percentiel waarde zit.
o Let hier bij op in welke tabel 3 je kijkt (de positieve of de negatieve). Wanneer
je percentiel waarde links van het gemiddelde zit, dan kijk je in de negatieve
tabel 3. Zit je percentiel rechts van het gemiddelde, dan kijk je in de positieve
tabel.
- Vervolgens ga je aan de hand van de Z formule, de onbekende grootheid (Y)
berekenen (yaaaas wiskunde -_-).
- Heb je dat gedaan, dan heb je de lengte vis die op dat percentiel ligt.
,De Z-score (tabel 3 achter in het boek):
Je moet de tabel al volgt lezen:
- Je kiest bijvoorbeeld een Z-score van -2,32. In de meest linker kolom zoek je dan de -
2,3 op. Omdat het -2,32 is, kijk je in de derde kolom (het is dan .0102). De getallen
boven in de tabel stellen zegmaar de decimalen van de Z-score voor.
- In het boek zijn er twee tabel 3 tabellen. De linker is voor de positieve Z-waarden, de
rechter voor de negatieve Z-waarden.
De oppervlakte onder de z-curve is dan je score ofzo:
- De oppervlakte van de curve is altijd 1, heb je dus één bekende waarde, dan weet je
de andere ook.
,Opgaven:
Het is toegestaan om de opgaven in R te maken, maar het is ook goed om het met de hand
te oefenen. In de les wordt toegelicht hoe dat zou kunnen, en ook komen er antwoorden
online.
4.3.3:
a) Z heeft 1.0 als uitkomst. Tabel 3 → Z-score van 0.8413 → 84,13%
b) Z van 1325 heeft -0,75 als uitkomst. Tabel 3 → Z-score van 0,2266. Alles onder 1500
was 0.8413; alles onder 1325 is 0.2266. Alles wat er tussen zit is dan 0.8413 –
0.2266 = 0.6147 = 61,47%
c) Het getal voor alles onder de 1325 was 0.2266. Alles wat er dus boven de 1325 zit is
1-0.2266 = 0.7734 = 77.34%
d) Z-score is 0.7734. Je wilt weten wat er allemaal boven ligt, dus 1-0.7734 = 0.2266 =
22.66%
e) Z-score van 1600 is 0.9972. Alles onder 1.475 was 0.7734. Alles ertussen is 0.9972 –
0.7734 = 0.2038 = 20,38%.
f) 20.38%
4.3.4:
a) De kans van een gewicht van kleiner of gelijk aan 1325 is 0.2266 (22,66%) (berekent
bij 4.3.3 b))
b) De kans van een gewicht tussen 1475 en 1600 is 0.2038 (20,38%) (berekent bij
4.3.3. e))
4.3.12:
a)
b)
c) Geen idee… Ook niet echt tijdens de les behandeld.
,4.S.4:
4.S.5: als eerst de Z waarde berekent van 80cm. Z waarde heeft als uitkomst -2.95 → tabel 3
→ 0.0016. Ik dacht dat je dan 0.00164 moest doen, maar dit is fout. Volgens de docent moet
je 0.0016 x 4 doen, wat 0.0064 geeft als kans. Volgens het boek is het antwoord 0.0559, dus
geen idee wat nou het echte antwoord is.
,4.S.6:
- Achterin het boek staat er een iets ander getal, maar dat is waarschijnlijk een verschil
in afronding (tijdens de les kwam de docent wel op 173,4 uit, dus het klopt wel).
,Hoofdstuk 5: Sampling Distributions
Vandaag:
- gaan we kijken naar de steekproef verdeeling.
- Wat de grote van de steekproef van invloed is op de gemiddelde van de sample
- Central Limit Theorem
We gaan ongeveer kijken hoe representatief steekproeven zijn.
- Bij een normale study neem je maar één steekproef. Deze steekproef is vaak
representatief genoeg voor de hele populatie.
- Bij een meta-study kijk je hoe verschillende steekproeven van elkaar verschillen. Van
elke steekproef zul je andere getallen krijgen als uitkomst (want er worden elke keer
andere observaties onderzocht). Je kunt van elke steekproef de SD en het
gemiddelde bereken, en daarvan weer het gemiddelde nemen om een representatief
getal te krijgen. Meta-study worden niet vaak gebruikt, omdat het duurder is, en het
kost meer tijd.
, - Je hebt drie verschillende opties bij het vervangen van knieën. Je hebt drie vrouwen.
Wat is de kans dat geen één van de vrouwen hun knieën laat vervangen: ¼ x ¼ x ¼
= 1/64.
- Je kunt dan alle mogelijkheden uitrekenen (hoeft niet op toets):
- Sample total zijn de totale kosten van alle drie vrouwen in een sample.