Statistiek II Voor De Bedrijfseconomische Wetenschappen (1009724BNR)
Summary
Volledige samenvatting Statistiek II (TEW en HI)
71 views 4 purchases
Course
Statistiek II Voor De Bedrijfseconomische Wetenschappen (1009724BNR)
Institution
Vrije Universiteit Brussel (VUB)
Volledige samenvatting van Statistiek II (TEW en HI) gegeven door professor Ineke van Gremberghe bevat de slides, het boek (Business statistics), de HOC's en eigen verduidelijking. Alles wat te kennen valt voor het examen staat erin!
Tip: het herbekijken van Statistiek I kan zeker helpen, maar is...
𝑝∗𝑞
Normaal model is een grafiek waarin p het center is en met een standaard deviatie van √( ) het is een goed
𝑛
model voor een verzameling van random proporties van veel random steekproeven met een steekproefgrootte
n van een populatie met een kans op succes p.
2.1 Verdeling van steekproefproporties
Populatie: over wie/wat wil je een uitspraak doen?
Steekproef: indien niet haalbaar om de volledige populatie te bevragen/bemonsteren → we nemen
een deel van de populatie
Parameter: proportie p in de populatie (’werkelijke’ waarde)
Statistiek: proportie ^p in de steekproef
Steekproevenverdeling (Sampling Distribution) (wordt weergegeven op een grafiek): Wat is de
variabiliteit in de steekproefproportie ^p? Stel je theoretisch voor hoe de steekproefproportie kan
variëren over alle mogelijke steekproeven.
Proportie = fractie
Steekproefproportie wordt berekend op basis van één enkele steekproef uit een volledige populatie.
Variabiliteit: hoe zou de steekproefproportie variëren over alle mogelijke steekproeven?
Voorbeeld: Indien 20% van de klanten hun uitgaven met een kredietkaart verhogen, zal de
marketingcampagne geslaagd zijn. In een steekproef van 1000 klanten, verhoogden 211 klanten hun
uitgaven. Is dit voldoende om de campagne te lanceren?
De verdeling van de proporties (^p) over veel onafhankelijke steekproeven van de populatie noemen
we de steekproevenverdeling van de proporties.
Voor verdelingen die klokvormig zijn en gecentreerd rond de reële proportie p, kunnen we de
steekproefgrootte n gebruiken om de standaardafwijking van de steekproevenverdeling te vinden:
1
,Statistiek II
De verschil tussen steekproefproporties noemen we
steekproevenfout (dit is echter geen echt fout, misschien beter:
steekproevenvariabiliteit).
Steekproevenverdelingsmodel voor de steekproefproportie:
𝑝∗𝑞
N(p, √( ) ) → N staat voor Normaal verdeeld
𝑛
Hoe groter n hoe meer het een Normale verdeling (zie statistiek I)
benaderd.
Dit zal niet gelden in alle situaties, maar wel voor de meeste situaties in de praktijk.
Bedrijfsbeslissingen gebaseerd op 1 steekproef:
We kunnen de variabiliteit tussen steekproeven niet controleren. In de praktijk hebben we
(meestal) maar 1 steekproef getrokken. We kunnen aan de hand van deze ene steekproef wel
voorspellen hoe de verschillende steekproefproporties zullen variëren van steekproef tot
steekproef (indien aan bepaalde voorwaarden voldaan is). Dankzij deze gekende variatie
kunnen we toch een (bedrijfs)beslissing nemen a.d.h.v. 1 enkele steekproef. Hoe dit concreet
in zijn werk gaat vormt een belangrijk onderdeel van deze cursus.
z-scores:
Vermits we met het Normaalmodel werken kunnen we z-scores berekenen voor gekende
^𝑝−𝑝
populatieproportie p en vooropgestelde ^p: z = . Via deze z-scores kunnen we dan de
𝑆𝐸(^𝑝)
probabiliteit berekenen om een proportie te bekomen groter dan de vooropgestelde ^p. Zo
kunnen we bij het maken van een bedrijfsbeslissing inschatten hoe uitzonderlijk het bekomen van
een proportie groter dan de vooropgestelde ^p is.
Aannames en condities:
- Aanname van onafhankelijkheid: de steekproefwaarden moet onafhankelijk zijn van elkaar.
- Aanname over steekproefgrootte: De steekproefgrootte n moet voldoende groot zijn (Normaal
steekproevenverdelingsmodel van ^p).
- Conditie van aselecte keuze: Indien de data komt van een experiment, moet de toekenning
van de deelnemers aan de groepen aselect (random) gebeurd zijn. Voor een enquête heeft
men een enkelvoudige aselecte steekproef uit de populatie nodig. Indien een ander opzet
wordt gebruikt, moet men zeker zijn dat de steekproef niet vertekend is en dat de data
representatief zijn voor de populatie.
- 10% conditie: Indien de steekproef niet met teruglegging wordt getrokken, mag de
steekproefgrootte n niet groter zijn dan 10% van de populatie.
- Succes/Mislukking voorwaarde: De steekproefgrootte moet groot genoeg zijn zodat zowel het
aantal successen np als het aantal mislukkingen nq verwacht wordt minstens 10 te zijn.
2.2 Betrouwbaarheidsinterval voor een proportie
Standaardfout: is de geschatte SD van de steekproevenverdeling. Dit gebruiken als we p niet kennen
(wat meestal zo is in het praktijk).
Verschil met de SD is dat er ^p wordt gebruikt in plaats van p.
Betrouwbaarheidsinterval:
2
,Statistiek II
➔ Bij een Normale verdeling kunnen we verwachten dat (bv.) 95% van alle
steekproven een steekproefproportie zal hebben binnen (ongeveer) 2 SE van p.
➔ Dus we kunnen zeggen dat we 95% zeker zijn dat ^p (van een steekproef) binnen de
2 SE ligt van de werkelijke p waarde.
Wat betekent die 95% echt?
Stel we trekken 100 steekproeven, 95 van de 100 steekproeven zullen een interval hebben
waarin de werkelijke populatieproportie inzit.
Aannames en condities:
- Aanname van onafhankelijkheid:
o Controleer de conditie van aselecte keuze (randomization)– de data moet
volgens aselecte keuze getrokken zijn.
o Controleer de 10% conditie – indien minder dan 10% van de populatie werd
getrokken, is het veilig om verder te gaan.
- Aanname over steekproefgrootte:
o Controleer de succes/mislukking conditie via de steekproefproportie (vermits we
de populatieproportie niet kennen) - we moeten dus minstens 10 successen en
10 mislukkingen hebben in de steekproef (npˆ en nqˆ ≥ 10).
2.3 Foutenmarge: Zekerheid versus Precisie
Uitdrukking 95% betrouwbaarheidsinterval voor de populatieproportie p: ^p ± 1.96*SE(^p)
De reikwijdte van het interval aan elke kant van ^p wordt de foutenmarge (ME, margin of error)
genoemd. Het betrouwbaarheidsinterval kan algemeen uitgedrukt worden in termen van ME:
schatting ± ME met ^p hier als de schatting (estimate) van p en ME = 1.96*SE(^p).
Algemene uitdrukking van de foutenmarge (margin of error): ME = z* *SE(^p)
De foutenmarge van een betrouwbaarheidsinterval geeft informatie over de precisie van de schatting.
z* bepaalt de zekerheid (betrouwbaarheid, vb. 95%) dat het interval de werkelijke populatieproportie
bevat. Wil je meer zekerheid dan kun je z* verhogen (het interval wordt breder), maar dan zal de
precisie verlagen.
!Spoiler: Je kunt de precisie ook verhogen zonder de zekerheid te verlagen door de SE te verlagen. Dit
kan in de praktijk door de steekproefgrootte n te verhogen vermits
Zekerheid wordt dus verhoogd door een hoger betrouwbaarheidspercentage te nemen dit geeft weer
dat er dus meer steekproefproporties in onze interval liggen maar dat zal onze interval niet accurater
maken, het zal een groter interval geven en dus zal het minder preciezer zijn en dus minder dicht bij
onze werkelijke proportie. De foutenmarge hier aan tegen weerspiegelt de precisie en hiermee wordt
er dus bedoelt hoe accuraat onze interval is, hoe preciezer. Dus een hogere foutenmarge zal een
bredere interval hebben dan een kleinere foutenmarge (preciezer).
De formele benaming van de betrouwbaarheidsinterval voor 1 proportie noemt men z-interval voor 1
proportie (one proportion z-interval), hier schatten we slecht 1 proportie in 1 steekproef. Later zullen
we verschillende BI zien voor bv. gemiddeldes.
One proportion z-test is een test over 1 proportie (1 steekproef) gebaseerd op de Normaal model.
3
,Statistiek II
2.4 De steekproefgrootte kiezen
Om de steekproefgrootte te bepalen bij een gegeven foutenmarge en BI merken we dat we twee
onbekenden hebben namelijk ^p en n. We veronderstellen dan het slechtst mogelijke scenario voor
^p. We gissen dat ^p = 0.50 omdat dit de standaardfout (SE) (en dus ook n) het grootst maakt.
Doorgaans is een foutenmarge van 5% of minder aanvaardbaar. Voor een lager proportie is een lager
foutenmarge beter.
Echter, om de foutenmarge te halveren moet men de steekproefgrootte verviervoudigen.
2.5 Samenvatting
- Steekproevenverdeling: modelleert variatie in de steekproefstatistiek tussen de steekproeven
- Meestal is het gemiddelde van de steekproevenverdeling de waarde van de
populatieparameter.
- Construeer een betrouwbaarheidsinterval voor een proportie, p, als de statistiek, ^p, plus of
min de foutenmarge.
Begrijp het belang van steekproefgrootte, zekerheid (betrouwbaarheidsniveau) en precisie
(foutenmarge):
Voor dezelfde steekproefgrootte en proportie: meer zekerheid betekent minder precisie en
meer precisie betekent minder zekerheid. De precisie kun je verbeteren (zonder zekerheid te
verlagen) door de steekproefgrootte te verhogen.
Een proportie meer ’in het midden tussen 0 en 1’ (cfr. 0.5) betekent een hogere
standaardfout dan een proportie dicht bij 0 of 1 (bij eenzelfde steekproefgrootte). Echter, let
op bij zeer lage of hoge proporties dat aan de voorwaarden voldaan is voor het gebruik van
het Normaalmodel.
Verwar de steekproevenverdeling niet met de verdeling van de steekproef!
- Verdeling van de steekproef: wanneer 1 steekproef genomen wordt kun je de verdeling
van de bekomen waarden visualiseren a.d.h.v. een histogram en een samenvattende
statistiek berekenen (vb. proportie of gemiddelde). Dit wordt ook wel ’beschrijvende
statistiek’ genoemd.
- Steekproevenverdeling: dit is een theoretische verdeling van de waarden van een
statistiek (vb. proportie of gemiddelde) van alle random steekproeven die je uit een
populatie kunt nemen. Deze theoretische steekproevenverdeling wordt gebruikt om
conclusies te trekken over hoe de statistiek varieert (spreiding).
Interpreteer een betrouwbaarheidsinterval correct!
- Gebruikt de juiste bewoording: met C% zekerheid ligt de werkelijke populatieproportie in
dit interval.
- De populatieproportie is een vaste, werkelijke & ongekende waarde die niet varieert! Het
is het betrouwbaarheidsinterval dat varieert van steekproef tot steekproef.
- Een betrouwbaarheidsinterval geeft informatie over de ongekende populatieproportie
(en niet over de steekproefproportie want die waarde kennen we).
4
, Statistiek II
Module 3 Betrouwbaarheidsintervallen (BI) voor gemiddeldes
(Hs.11)
Steekproevenverdelingen en betrouwbaarheidsintervallen voor proporties:
Introductie van inferentiële statistiek: vanuit 1 steekproef een uitspraak doen over een
populatieparameter (proportie).
De bekomen waarde van de proportie zal variëren van steekproef tot steekproef. Deze variabiliteit aan
bekomen proporties uit vele verschillende steekproeven kunnen we theoretisch voorstellen via de
steekproevenverdeling.
Indien aan de voorwaarden voldaan is kan de steekproevenverdeling van proporties benaderd worden
door een Normaalmodel. Van dit theoretisch model kennen we het gemiddelde (= populatieproportie)
en de standaarddeviatie.
Uit de gegevens van de steekproevenverdeling kunnen we een betrouwbaarheidsinterval construeren
voor de populatieproportie.
In het voorgaande hoofdstuk deden we uitspraken over proporties van categorische, dichotome (0/1)
variabelen. In dit hoofdstuk gaan we over tot kwantitatieve variabelen (soms ook continue variabelen
genoemd). We gaan uitspraken doen over de gemiddeldes van deze kwantitatieve variabelen.
We weten dat wanneer we willekeurig een steekproef nemen en vanuit een dichotome variabele de proportie
van het aantal successen berekenen, deze proportie van steekproef tot steekproef zal variëren. Het
Normaalmodel is opmerkelijk goed in het samenvatten van al die variatie.
Het blijkt dat gemiddeldes (berekend vanuit kwantitatieve variabelen) ook een steekproevenverdeling hebben
die we kunnen modelleren met een Normaalmodel.
3.1 De Centrale Limietstelling
Central Limit Theorem (CLT): De steekproevenverdeling (sampling distribution) van elk gemiddelde
wordt Normaal verdeeld naarmate de steekproefgrootte (sample size) toeneemt. Dit geldt ongeacht
de vorm van de populatieverdeling! Als de populatieverdeling echter erg scheef is, kan er een
steekproefgrootte van tientallen of zelfs honderden waarnemingen nodig zijn voordat het
Normaalmodel goed werkt. Een hoger n verminderd de variabiliteit van de gemiddeldes.
Een hoger aantal steekproeven met klein aantal steekproefgroottes heeft minder effect om de
steekproevenverdeling Normaal te laten lijken. Het is best om een groot steekproefgrootte te hebben.
Let op! Er zijn verschillende ’types’ verdelingen: de reële verdeling van de (enige) steekproef en de
theoretische steekproevenverdeling van de statistiek (het gemiddelde van verschillende
steekproeven). Daarnaast ook de verdeling van de populatie.
Hoe groter de steekproef, hoe meer de verdeling van de steekproef overeenstemt met de (werkelijke)
verdeling van de populatie.
De Centrale Limietstelling heeft het niet over de verdeling van de gegevens zelf, maar over de
steekproefgemiddeldes van veel verschillende willekeurige steekproeven uit dezelfde populatie. Dit is
een theoretische verdeling die we niet observeren (wel kunnen simuleren).
Link met proporties:
CLT werkt beter indien de distributie van de gegevens zelf (= de kwantitatieve variabele) een
Normale verdeling volgt in de populatie en indien de steekproefgrootte voldoende groot is.
5
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller Max1m. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $6.96. You're not tied to anything after your purchase.