Samenvatting Sampling and
Regression Analysis (SRA)
Nyenrode Business Universiteit
BSc in Accountancy, studiejaar 4, semester 7
Delano Tolhuisen | Najaar 2020
,Inhoudsopgave
Inhoudsopgave ...................................................................................................................................2
1. Wiskundige en statistische terminologie .........................................................................................4
2. Schattingsmethoden .......................................................................................................................7
2.1 Hoe werkt een schattingsinterval? ............................................................................................7
2.2 Schattingsmethoden .................................................................................................................8
2.2.1 Directe schatter: Mean per unit (MPU) ...............................................................................8
2.2.2 Verschilschatter ................................................................................................................ 10
2.2.3 Quotiëntschatter .............................................................................................................. 13
2.2.4 Regressieschatter ............................................................................................................. 16
3. Stratificatie ................................................................................................................................... 19
3.1 Uitbreiden van de steekproef .................................................................................................. 19
3.1.1 Berekening uitbreiding van de steekproef......................................................................... 19
3.1.2 Voorbeeld van uitbreiding van de steekproef ................................................................... 19
3.2 Stratificeren ............................................................................................................................ 20
3.2.1 Stap 1: methoden voor het verdelen van de populatie in strata ........................................ 20
3.2.2 Stap 2: allocatie van de steekproef ................................................................................... 21
3.2.3 Stap 3: stratificatieschatting ............................................................................................. 24
4. Enkelvoudige regressieanalyse ...................................................................................................... 27
4.1 Inleiding van de regressieanalyse ............................................................................................ 27
4.1.1 Verklarende variabele en de te verklaren variabele .......................................................... 27
4.1.2 Verbanden: lineair en meervoudig .................................................................................... 28
4.1.3 Cross-sectieanalyse vs. tijdreeksanalyse ........................................................................... 28
4.1.4 Regressielijn ..................................................................................................................... 29
4.1.5 Regressiemodel en de regressielijn ................................................................................... 29
4.1.6 Basisperiode en controleperiode ...................................................................................... 31
4.1.7 Correlatie en storingsterm ................................................................................................ 31
4.2 Variantieanalyse ...................................................................................................................... 32
4.2.1 Introductie van de variantieanalyse .................................................................................. 32
4.2.2 Hypothese formuleren...................................................................................................... 34
4.2.3 Coëfficiëntentabel ............................................................................................................ 34
4.2.4 ANOVA-tabel .................................................................................................................... 35
4.3 Toetsing van de hypothese ...................................................................................................... 36
4.3.1 Toetsen met de t-waarde ................................................................................................. 36
4.3.2 Toetsen met de 𝑭-waarde ................................................................................................ 37
2
, 4.4 Analyses op de regressieanalyse .............................................................................................. 38
4.4.1 Soorten analyses .............................................................................................................. 38
4.4.2 Samengevoegde groepen ................................................................................................. 38
4.4.3 Tijdsvertraging .................................................................................................................. 39
4.4.4 Uitbijters in 𝒚: Standardized residual ................................................................................ 40
4.4.5 Uitbijters in 𝒙: Mahalanobis distance ................................................................................ 42
4.4.6 Gevolg uitbijters in 𝒙 en/of 𝒚 ............................................................................................ 43
4.4.7 Invloedrijke punten: Cook’s distance ................................................................................ 44
4.4.8 Gevolg invloedrijke punten ............................................................................................... 46
4.4.9 Normaliteit van de residuen ............................................................................................. 46
4.4.10 Scedasticiteit .................................................................................................................. 47
4.4.11 Gevolg normaliteit en de scedasticiteit ........................................................................... 49
4.4.12 Autocorrelatie ................................................................................................................ 49
4.5 Voorspellen met enkelvoudige regressieanalyse...................................................................... 50
5. Meervoudige regressieanalyse ...................................................................................................... 52
5.1 Introductie van de meervoudige regressieanalyse ................................................................... 52
5.2 Analyses op de meervoudige regressieanalyse ........................................................................ 54
5.2.1 Multicollineariteit ............................................................................................................. 54
5.3 Transformaties ........................................................................................................................ 54
5.3.1 Introductie van transformaties ......................................................................................... 55
5.3.2 Modelbouw ...................................................................................................................... 55
5.3.3 Transformeren ................................................................................................................. 56
5.3.4 Resultaten meervoudige regressieanalyse ........................................................................ 57
5.4 Voorspellen met meervoudige regressieanalyse ...................................................................... 59
3
,1. Wiskundige en statistische terminologie
In de diverse formules welke gehanteerd worden voor SRA kan het soms één grote brei zijn wat het
nou allemaal betekent. Dit terwijl deze basis juist nodig is om überhaupt de formules te begrijpen en
in te kunnen vullen. Zodoende volgt hieronder een opsomming van alle in deze samenvatting
terugkomende tekens en termen en de bijbehorende betekenissen en toelichtingen. Hopende hiermee
een hoop onduidelijkheid uit het vak te kunnen ontnemen.
Daarnaast komt in de loop van de samenvatting onder elke uitgewerkte formule nader aan de orde
wat de betekenis is van de gehanteerde tekens in de betreffende formules. Daar staan ze dus nogmaals
opgesomd.
Hoofdletters en Griekse letters worden gebruikt voor populaties.
Kleine letters en Europese letter worden gebruikt voor steekproeven.
N = Omvang van de totale populatie (uitspraak als “Nu”)
𝜇 = Populatiegemiddelde (uitspraak als “Mu”)
𝜎 = Standaarddeviatie van de populatie (uitspraak als “Sigma”)
K = Aantal fouten in de populatie (uitspraak als “Kappa”)
n = Omvang van de steekproef
𝑥̅ = Steekproefgemiddelde
s = Standaarddeviatie van de steekproef
k = Aantal fouten in de steekproef
Opgemerkt kan worden dat over het algemeen de grote letter betrekking heeft op de totale populatie
(zoals N = de omvang van de totale populatie) en de kleine gelijkwaardige letter betrekking heeft op
de steekproef (zoals n = de omvang van de steekproef).
1-α = Betrouwbaarheid
α = Betreft het risico (uitspraak als “Alfa”)
E = Onnauwkeurigheid (ofwel de Error)
Voor de betrouwbaarheid wordt meestal een percentage á 95%, 99%, 99,9% et cetera gehanteerd.
Deze kan verschillen per statistische berekening. Het restpercentage is derhalve de alfa. Dus bij een
betrouwbaarheid van 95% is er sprake van een alfa (onbetrouwbaarheid) van 5%. Als je de
betrouwbaarheid wil verhogen zul je de steekproef moeten uitbreiden.
𝑡𝛼 = Dit betreft de t-waarde uit de tabel Student t-verdeling bij de vereiste betrouwbaarheid (α =
onbetrouwbaarheid) en de gehanteerde steekproefomvang (afronden naar beneden)
Bij een statistische steekproef met twee zijdes geldt voor α dat deze door twee gedeeld moet worden
(dus 𝑡𝛼/2 ). In de tabel moet dan dus gekeken worden bij de overschrijvingskans α/2. Dus wanneer met
een betrouwbaarheid van 95% wordt gewerkt en er sprake is van een steekproef met twee zijdes, dan
dient in de tabel gekeken te worden bij de overschrijvingskans 0,025 ((1-0,95)/2). Wanneer sprake is
van enkel één zijde, dan geldt de deling van alfa door twee niet.
B = Totale boekwaarde van de populatie
4
,∑ = Het sommatieteken (de totale som van …)
∑𝑏𝑖 = Som van de boekwaarden in de steekproef
∑𝑤𝑖 = Som van de werkelijke waarden in de steekproef
∑𝑤𝑖2 = Som van de gekwadrateerde werkelijke waarden in de steekproef
∑𝑒𝑖2 = Som van de gekwadrateerde fouten in de steekproef
̂ = De puntschatter
𝑊
∑𝑤
𝑤
̅ = Gemiddelde werkelijke waarde, deze is uit te rekenen door 𝑛
𝑤 2 = Gekwadrateerde werkelijke waarden
𝑠𝑏 = Variantie van de boekwaarde
𝑠𝑤 = Variantie van de werkelijke waarde
𝑠 = Steekproefstandaardafwijking
𝑒̅ = Gemiddelde fout (de error)
𝑞 = Goedratio van de quotiëntschatter
𝑅𝐵𝑊 = Correlatiecoëfficiënt (het verband tussen de boekwaarde en de werkelijke waarde)
𝑏1 = Richtingscoëfficiënt van het lineaire verband
∑ 𝑤 = Som van de werkelijke waarden
∑ 𝑏 = Som van de boekwaarden
Een streepje boven het wiskundig symbool, zoals eerder te zien was bij het steekproefgemiddelde (𝑥̅ )
̅) wordt opgemerkt, betekent “het gemiddelde van”.
en nu ook bij de gemiddelde werkelijke waarde (𝑤
In de formules is vaak een onderschrift te lezen bij onder andere de puntschatter (𝑊 ̂ ) en de
̂ ̂ ̂
steekproefstandaardafwijking (𝑠) in de vorm van: 𝑊𝑀𝑃𝑈 , 𝑊𝑞 , 𝑊𝑀𝑃𝑈 , 𝑠𝑀𝑃𝑈 , 𝑠𝑅 etc. Verwar dit niet met
elkaar: in principe betekent dit gewoon de puntschatter en respectievelijk de
steekproefstandaardafwijking. Echter staan de letters in het onderschrift voor de schatter waarop deze
betrekking hebben. Zo heeft 𝑊 ̂ 𝑀𝑃𝑈 betrekking op de puntschatter van de MPU-schatter (een
̂
schattingsmethode) en staat 𝑊𝑞 voor de puntschatter van de Quotiëntschatter. In theorie kun je het
onderschrift in deze gevallen dus ‘weg denken’.
De standaardafwijking (𝑠), welke soms ook wel de standaarddeviatie wordt genoemd, is een maat voor
de spreiding van een verdeling of populatie. De standaardafwijking betreft de wortel uit de variantie.
Hierdoor worden de termen vaak door elkaar gebruikt.
Voor de stratificatie van de steekproef kennen we nog aanvullend op voorgenoemde afkortingen de
volgende symbolen.
𝑁𝑖 = Populatiegrootte per stratum
𝑛𝑖 = Steekproefgrootte per stratum
𝑊̂ 𝑡𝑜𝑡 = De puntschatting van het populatietotaal van de werkelijke waarde
𝑁𝑖 = Populatiegrootte per stratum
𝑤
̅𝑖 = Steekproefgemiddelde per stratum
𝑠𝑤2 = Variantie van de werkelijke waarde in de steekproef
𝑉𝐴𝑅𝑖 = Steekproefvariantie van het stratum
Voor de (meervoudige) regressieanalyse, de analyse van de Mahalanobis distance en de Cook’s
distance kennen we met name de volgende afkortingen en symbolen.
5
,𝜀 = Epsilon, de stortingsterm, het deel dat je niet kan verklaren
𝑦̂ = Schatting van 𝑦
𝑏0 = Snijpunt met de y-as (intercept)
𝑏1 = Richtingscoëfficiënt
𝑑𝑓 = Degrees of freedom, het aantal vrijheidsgraden
𝑟 = Correlatiecoëfficiënt,
𝑟 2 = Determinatiecoëfficënt, de verklaring van de spreiding in 𝑦
𝑇𝑜𝑡𝑎𝑙𝑆𝑆 = de totale kwadratensom, de totale spreiding van de 𝑦-variabelen
𝑆𝑆𝑅 = het verklaarde deel van de 𝑇𝑜𝑡𝑎𝑙𝑆𝑆 door de 𝑥-variabele
𝑆𝑆𝐸 = het niet verklaarde deel van de 𝑇𝑜𝑡𝑎𝑙𝑆𝑆 door de 𝑥-variabele
𝑒𝑖 = De afwijking tot de regressielijn van de waarneming
𝑒̅ = Gemiddelde residu (is nul)
𝑠𝑒 = Standaardafwijking van het residu
𝑥𝑖 = 𝑥-waarde in de regressieanalyse
𝑥̅ = Gemiddelde 𝑥-waarde
𝑠𝑥 = Standaardafwijking van het residu
𝑀𝐷𝑘𝑟 = Kritieke grens van de Mahalanobis distance
̅̅̅̅̅
𝑀𝐷 = Gemiddelde waarde van de Mahalanobis distance
𝑠𝑀𝐷 = Standaardafwijking van de Mahalanobis distance
𝐶𝐷𝑘𝑟 = Kritieke grens van de Cook’s distance
̅̅̅̅
𝐶𝐷 = Gemiddelde waarde van de Cook’s distance
𝑠𝐶𝐷 = Standaardafwijking van de Cook’s distance
𝑏𝑘 = Richtingscoëfficiënt van de variabele
𝑥𝑘 = 𝑥-waarde van de variabele
Het dakje boven enkele symbolen, zoals we eerder zagen voor de puntschatter (𝑊 ̂ ) en nu dus ook zien
voor 𝑦̂, betekent dat het een schatting betreft. De regressielijn is namelijk ten slotte een schatting.
Ingeval van 𝑦̂ is er sprake van een schatting van de waarde van 𝑦 op de 𝑥-as (ofwel de regressielijn).
De kleine 𝑘 onder een aantal symbolen staat voor de variabele. Er kan namelijk sprake zijn van
verschillende variabelen, zoals wanneer er gebruik wordt gemaakt van een meervoudige
regressieanalyse.
6
,2. Schattingsmethoden
In dit hoofdstuk gaan we nader in op de verschillende schattingsmethoden en hoe deze toe te passen.
Deze zijn eveneens reeds aan bod gekomen bij de colleges van SET.
2.1 Hoe werkt een schattingsinterval?
Als we weinig fouten verwachten in de steekproef dan passen we een hypothesetoetsing toe met als
doel de populatie te kunnen goedkeuren.
Wanneer er veel fouten worden verwacht in de steekproef dan kan er beter een schattingsinterval
worden berekend.
Zo’n schattingsinterval ziet er als volgt uit:
Bij een schattingsinterval wil je een interval berekenen waarbinnen jij, met het op voorhand bepaalde
betrouwbaarheidspercentage, verwacht dat een waarneming in dat interval valt. Veelal wordt als
betrouwbaarheidspercentage 95% gehanteerd, maar eveneens zijn 90%, 99% etc. evengoed mogelijk.
Dit betrouwbaarheidspercentage zegt met hoeveel procent zekerheid de kans bestaat dat de
waarneming in dit interval valt. Hoe hoger de betrouwbaarheid, hoe lager de onbetrouwbaarheid.
Daarnaast geldt ook: hoe hoger de betrouwbaarheid, hoe breder het schattingsinterval. Hoe groter de
steekproefomvang, hoe nauwkeuriger het schattingsinterval.
Het veld tussen de twee groene lijnen (de gele pijl) betreft het schattingsinterval. De twee velden aan
weerszijden daarbuiten (de grijze lijnen) betreffen de onbetrouwbaarheid. Deze twee velden noemen
we in de statistiek het kritieke gebied.
De onbetrouwbaarheid wordt in de statistiek de Alfa genoemd. Hiervoor kennen we het symbool 𝑎.
Precies in het midden van het schattingsinterval vind je de puntschatter. In de statistiek kennen we
hiervoor het symbool 𝑊 ̂ . Het dakje geeft aan dat het een schatting betreft.
Tot slot kennen we nog de standaardafwijking, of standaarddeviatie genoemd. Deze geeft de mate van
spreiding van een variabele aan rond het gemiddelde (de puntschatter). Voor de standaardafwijking
kennen we het symbool sigma (𝜎).
7
, Hieronder is bovengenoemde nogmaals weergegeven:
2.2 Schattingsmethoden
We kennen een aantal verschillende schattingsmethoden om een schattingsinterval te kunnen
berekenen, te weten:
- Directe schatter (ook wel de Mean per Unit (MPU));
- Verschilschatter;
- Quotiëntschatter;
- Regressieschatter.
In de navolgende paragraven komen deze schattingsmethoden één voor één aan de beurt.
Voor al deze schattingen wordt uitgegaan van de volgende informatie:
De totale omvang (𝑁) bedraagt 28.946 en de steekproef (𝑛) die hieruit getrokken wordt bedraagt
1.000.
Van de populatie hebben we de volgende informatie:
- Totale boekwaarde (𝐵): € 99.459.446.
Van de steekproef hebben we de volgende informatie:
- Som van de boekwaarden (∑ 𝑏𝑖 ): € 3.635.034,20
- Som van de werkelijke waarden (∑ 𝑤𝑖 ): € 3.618.017,38
- Som van de gekwadrateerde werkelijke waarden (∑ 𝑤𝑖2 ): € 624,8954 ∗ 109
- Som van de gekwadrateerde fouten (∑ 𝑒𝑖2 ): € 32.393.029
2.2.1 Directe schatter: Mean per unit (MPU)
Voor het schattingsinterval van de MPU-schatter kennen we de volgende formule:
̂ 𝑀𝑃𝑈 ± 𝑡𝑎/2 ∗ 𝑆𝑀𝑃𝑈
𝑊
Hierbij geldt voor:
̂ 𝑀𝑃𝑈 = Puntschatter van de MPU-schatter
𝑊
8