Uitwerking Data Science In Auditing (DSA) Nyenrode 9+
165 views 10 purchases
Course
Data Science (ACMDSA10)
Institution
Nyenrode Business Universiteit (Nyenrode)
Met deze paper heb ik een 9+ gehaald voor Data Science in Auditing. In het paper is onderzocht hoe de marktwaarde van occasions voorspeld kan worden middels een lineaire regressie.
De code die geschreven moet worden is in de bijlage stapsgewijs opgenomen en met comments onderbouwd. Op de manier...
,Bijlage 3. Beoordelen dataset...........................................................................................................28
Bijlage 4. Beschrijvende statistiek – finale dataset...........................................................................31
4.1 Code........................................................................................................................................31
4.2 Beschrijvende statistiek (Freq tabellen)..................................................................................33
Bijlage 5. Trainen van het model......................................................................................................36
5.1 Diagnostische plot: eerste model...........................................................................................36
5.2 Diagnostische plot: Aangepast model.....................................................................................36
5.3 Code........................................................................................................................................36
Bijlage 6. Testen van het model........................................................................................................39
2
,1.1 Inleiding
Ooit wel eens afgevraagd hoe de verkoopprijs van een occasion tot stand komt? Waarschijnlijk niet.
Nu denk je waarschijnlijk: “Dat is toch logisch? Het merk, het model, de kilometerstand en het
bouwjaar spelen een grote rol”. Dat is zeker juist, maar dan resteert nog de vraag wat de invloed
daarvan is op de prijs. Oldtimers en de zogenaamde “classic”cars lijken bijvoorbeeld met de tijd
alleen maar meer waard te worden, terwijl de verwachting is dat deze in prijs zouden dalen, omdat
de kilometerstand en de leeftijd toeneemt. Dieselauto’s waren van oudsher waardevast, maar
ondertussen gaat ook die vlieger ook meer op, vanwege de introductie van de elektrische auto’s en
het weren van diesels in de binnensteden. Er zijn dus veel facetten die (onbewust) gemoeid zijn met
de hoogte van de verkoopprijs, waardoor het (onbewust) een complexe berekening wordt.
Vanuit het perspectief van de accountant bekeken is het zodoende een lastige puzzel om de
volledigheid van de opbrengstverantwoording van occasions te controleren. Veel meer dan een
goederenbeweging en een marge-analyse op basis van subjectieve inkoopprijzen, wordt er in de
praktijk niet gedaan aan gegevensgerichte werkzaamheden.
In dit paper proberen we derhalve te achterhalen of, voor de accountant, data-analyse een bruikbaar
stuk gereedschap is dat ingezet kan worden als werkzaamheid.
1.2 Auditcontext
De wens is om middels data-analyse een model op te zetten om de marktwaarde van occasions te
proberen te voorspellen op basis van de bij de Rijksdienst voor het Wegverkeer (RDW) bekende
gegevens. In dit paper wordt bij de definitie van de marktwaarde aangesloten op de gegeven
definitie in het Besluit Actuele Waarde en deze luidt: “Het bedrag waarvoor een actief kan worden
verhandeld tussen ter zake goed geïnformeerde partijen, die tot een transactie bereid en
onafhankelijk van elkaar zijn.”
De voorspelling vanuit het model kan afgezet worden tegen de werkelijke gehanteerde
verkoopprijzen om de volledigheid van de opbrengstverantwoording van occasions te beoordelen.
Overigens, indien er sprake is van een flatterende tendentie kan het model tevens gehanteerd
worden om de juistheid van de omzet te beoordelen.
Aanvullend is de wens om zo min mogelijk variabelen te hanteren in het model vanwege de
uitlegbaarheid naar de klant toe en de efficiency. Op basis van deze doelstellingen zijn de volgende
twee auditvragen geformuleerd:
“Is het mogelijk de marktprijs van een occasion te controleren op basis van gegevens zoals bekend bij
de RDW?”
&
“Is het mogelijk de marktprijs van een occasion te controleren op basis van alleen de
kilometerstand?”
3
,1.3 Relevantie binnen de audit
Het beoogde model zal, zoals reeds vermeld, gehanteerd worden om te verkoopprijzen van
occasions te voorspellen. Middels de voorspelde verkoopprijzen kan de accountant een verwachting
opstellen over de omzet uit hoofde van de occasions. Vervolgens wordt deze verwachting
geconfronteerd met de werkelijke omzet, zoals die gepresenteerd is in de jaarrekening van de
onderneming, en worden eventuele verschillen besproken met de klant.
Deze evaluatie van de financiële informatie (de gepresenteerde omzet) met de analyse van
plausibele relaties (verwachting van de accountant) valt binnen het toepassingsgebied van NV COS
520 “Cijferanalyses” (Accountants, 2021).
Wil de accountant zekerheid ontlenen uit deze cijferanalyse en de analyse gebruiken als controle-
informatie, geeft NV COS 520 eisen mee waaraan de analyse moet voldoen. Deze aanvullende eisen
zijn beschreven in paragraaf vijf en luiden (Accountants, 2021):
Indien de cijferanalyse is opgesteld volgens de gestelde eisen is er controle-informatie verkregen
door de accountant. Echter, de mate van zekerheid die ontleend mag worden aan deze controle-
informatie hangt af van de betrouwbaarheid en van de nauwkeurigheid van de opgestelde
verwachting. Hierbij geldt dat: Hoe betrouwbaarder de bron en hoe nauwkeuriger de verwachting,
des te meer zekerheid ontleent mag worden aan de cijferanalyse.
Op te merken valt dat het uitvoeren van een cijferanalyse de “steekproefrisico” verkleint die een
accountant loopt, doordat een cijferanalyse de gehele populatie controleert in plaats van een deel
van deze populatie, zoals bij een kritische deelwaarneming of een steekproef wel het geval is.
Dit principe brengt de accountant efficiencyvoordelen omdat bij een hoge ontleende
controlezekerheid vanuit de cijferanalyse, minder controlezekerheid verkregen hoeft te worden uit
detailcontroles.
4
,2. Theorie
In dit hoofdstuk wordt de theorie achter het model beschreven.
2.1 Het beoogde model
In de auditcontext (§1.2) is beschreven wat de doelstelling is van het beoogde model. Hieruit zijn de
twee onderzoeksvragen naar voren gekomen, te weten:
“Is het mogelijk de marktprijs van een occasion te controleren op basis van gegevens zoals bekend bij
de RDW?”
&
“Is het mogelijk de marktprijs van een occasion te controleren op basis van alleen de
kilometerstand?”
Teneinde hierop een antwoord te vinden zal er eerst een algoritme ontwikkeld worden, dat de
marktprijs van een occasion betrouwbaar (95% r²) kan voorspellen op basis van de, bij de RDW,
bekende gegevens. Hiertoe is zodoende een model benodigd dat een mogelijke relatie tussen de Y-
variabele (in dit geval de prijs) en de X - variabele (de overige bekende gegevens) kan analyseren. Dit
type algoritme valt binnen het domein van “supervised learning”, daar het onderzoeksdoel het
voorspellen van de prijs is aan de hand van reeds geclassificeerde variabelen (“labeled data”).
In het domein van “supervised learning” onderkennen we twee typen statistische analyses. Te weten:
classificatie en regressie. Een classificatieanalyse is erop gericht gegevens te classificeren om het
zodoende in een vooraf gedefinieerde categorie te plaatsen. Een regressie is een analyse dat
toegespitst is om een waarde te voorspellen. Het is evident dat derhalve het gehanteerde model een
“regressie” zal zijn.
Om de onderzoeksvragen te beantwoorden wordt er zodoende een regressie opgesteld. Daar de
wens is om de marktprijs te voorspellen aan de hand van alleen de kilometerstand volgt de volgende
formule:
Marktprijs = kilometerstand + error
Vanwege de eenvoud van dit model betreft dit het vertrekpunt. Indien blijkt dat de formule niet
adequaat is, zullen meer variabelen betrokken worden in het model. Zie §4.1 voor de daadwerkelijke
implementatie van het model.
2.2 Gartner Analytic Ascendancy Model
(Hostmann (Gartner), 2012) heeft een model ontwikkeld waarbij analyses ingedeeld worden naar de
moeilijkheidsgraad en de waarde die ontleent kan worden aan de analyse. Zij maken hierbij
onderscheid tussen “Decriptive”, “Diagnostic”, “Predictive” en “Prescriptive” analyses. Elke stap in
het model borduurt voort op de vorige analyse en wordt daardoor ingewikkelder; zie ook figuur 1.
5
,2.2.1 Descriptive Analytics
Descriptives analyses geven een
beschrijving van gegevens uit het
verleden en geven dus gebeurtenissen uit
het verleden weer. Een descriptive
analyse kan zodoende antwoord geven op
de vraag: “Wat is er gebeurt?”.
Voorbeelden van descriptives analyses
die zijn uitgevoerd in het kader van deze
paper zijn opgenomen in §3.3.
2.2.2 Diagnostic Analytics Figuur 1: (Hostmann (Gartner), 2012)
Een diagnostic analyse borduurt voort op de descriptive analyse en probeert te verklaren waarom
een gebeurtenis heeft plaatsgevonden.
Een diagnostic analyse die in het kader van deze paper is uitgevoerd is opgenomen in §4.1. Bij deze
analyse voorspelt de opgestelde regressie de marktprijs van een occasion, terwijl de werkelijke prijs
al bekend was. Hierdoor is het mogelijk deze gebeurtenis (afwijking) te verklaren en te achterhalen
waarom deze gebeurtenis zich heeft voorgedaan en ligt zodoende in lijn met het model van
(Hostmann (Gartner), 2012).
2.2.3 Predictive Analytics
De predictive analyse borduurt weer voort op de diagnostic analyse en voorspelt een (toekomstige)
gebeurtenis op basis van gegevens uit het verleden. Zoals beschreven in §2.1 zal het te ontwikkelen
model een (multi)lineaire regressie zijn en waarbij het doel is de marktprijs van occasions te
voorspellen aan de hand van diverse variabelen. Deze (multi)lineaire regressie valt onder de
predictive analytics, omdat de marktprijs voorspelt wordt op basis van gegevens uit het verleden
(Hostmann (Gartner), 2012).
Een predictive analyse die in het kader van deze paper is uitgevoerd is opgenomen in §4.2.
2.2.4 Prescriptive Analytics
De prescriptive analyse borduurt weer voort op de predictive analyse en is de laatste stap in het
model. Een prescriptive analyse suggereert op basis van de gedane voorspellingen welke acties er
ondernomen moeten worden om tot een bepaalde uitkomst te komen (Hostmann (Gartner), 2012).
Daar het te ontwikkelen model valt onder de noemer predictive analyses zal aan deze stap in het
model geen verdere aandacht worden besteed.
2.3 Wisdom Pyramid
Analyses kunnen voortkomen uit
twee type redenaties, namelijk een
inductieve of een deductieve
redenatie. Bij inductieve redenatie
wordt er vanuit de bekende gegevens,
Deductief Inductief
informatie en de vergaarde kennis
een theorie bedacht. Deductieve
6
,redenatie is precies omgekeerd, hierbij wordt een theorie bevestigd of ontkracht door de vergaarde
kennis, informatie en bekende gegevens.
In de Wisdom Pyramid (figuur 2) is dit visueel samengevat.
De gehanteerde analyse in dit Figuur 2: Wisom Pyramid
onderzoek is aan te merken als een deductieve redenatie. Er is namelijk al een theorie bedacht,
namelijk dat de marktprijs van occasions afhangt van diverse variabelen, en deze theorie wordt
getest in dit paper.
2.4 V’s van Bigdata
De dataset die gehanteerd gaat worden om de regressie op uit te voeren zal overduidelijk betrekking
hebben op tweedehandsauto’s. Echter, om te oordelen of de dataset betrouwbaar is alvorens deze
in gebruik wordt genomen om de regressie te trainen, wordt deze beoordeeld aan de hand van de
vijf V’s van bigdata: Value, Volume, Variety, Veloctiy en Veracity (BBVA, 2020).
Value
Value staat voor de waarde van de dataset. In hoeverre is deze dataset te om te zetten in een valide
businessmodel.
De waarde van de gehanteerde dataset is het ondersteunen van de accountant bij zijn
werkzaamheden omtrent de marktprijzen van occasions. In §4.3 is beschreven in hoeverre de
dataset waarde heeft voor de accountant.
Volume
Volume staat voor de hoeveelheid unieke regels, grootte in bits (MB, GB) etc. Hierbij is de stelregel
dat hoe groter de data qua omvang des te betrouwbaarder de dataset is om te analyseren. In een
grotere dataset zijn er meer waarnemingen waar de regressie (prescriptive analyse) op getraind kan
worden, wat leidt tot een nauwkeuriger model.
De originele dataset voor dit onderzoek bestaat uit 426.680 unieke regels en is 1.4GB groot. De
dataset is daardoor ruim geschikt om hierin verbanden te kunnen herkennen door de regressie.
Variety
Variety staat voor de variatie aan variabelen in de dataset en de hoeveelheid bronnen waaruit de
dataset wordt gevoed. Als de dataset wordt gevoed vanuit veel uiteenlopende bronnen, is het
mogelijk dat de betrouwbaarheid van de dataset afneemt. De accountant dient hierop
werkzaamheden te uitvoeren om de betrouwbaarheid van het lijstwerk vast te stellen.
De gehanteerde dataset voor dit onderzoek is afkomstig van één bron: (Reese, 2021) en de originele
dataset bestaat uit 26 variabelen.
Velocity
Velocity staat voor de frequentie waarop nieuwe gegevens worden toegevoegd aan de dataset.
Velocity is voor de bedrijfsvoering van belang zodat er sneller, beargumenteerde, beleidsbepalende
keuzes gemaakt kunnen worden. Als accountant, en tevens voor dit onderzoek, is velocity minder
belangrijk, daar de eindejaarscontrole plaatsvindt nadat het boekjaar is afgesloten en vrijwel alle
gegevens bekend zijn.
7
,Voor de gehanteerde dataset bedraagt de velocity één maand. Elke maand wordt deze namelijk
bijgewerkt.
Veracity
Veracity staat voor de kwaliteit van de dataset. Enkele vragen om dit vast te stellen zijn:
1. Is deze dataset bruikbaar?
2. Is de dataset nauwkeurig, juist, volledig en schoon van fouten?
3. Kunnen wij met deze dataset onze doelstelling vervullen?
Voor de gehanteerde dataset is deze allereerst beoordeeld op de overige vier punten. Hieruit kwam
naar voren dat de dataset bruikbaar was, maar dat deze wel opgeschoond diende te worden 1,
alvorens deze werd gebruikt.
2.5 Push left-principe
Het push left-principe (de Swart, Majoor, & Wille, 2013) is een vervolg op het Audit Risk Model. Het
push left-principe heeft als toevoeging aan het klassieke model dat de zekerheid die wordt verkregen
tijdens het controleproces, terug wordt gekoppeld aan het management. Met deze informatie kan
het management in de vervolgjaren het risico op een materiële fout zelfstandig mitigeren door het
invoeren van interne beheersingsmaatregelen of door het uitvoeren van cijferanalyses.
Het risico op een materiële fout in de jaarrekening bestaat uit de vier risico’s zoals beschreven in
figuur 3. Indien het management of de accountant cijferanalyses uitvoert verkleint dit de
controlewerkzaamheden van de accountant, doordat een groter deel van het totale risico op een
materiële fout wordt ondervangen door de cijferanalyse en derhalve het steekproefrisico afneemt.
In §1.2 en §1.3 is
reeds beschreven
dat het opstellen
van een
voorspellend model
een cijferanalyse
behelst conform NV
COS 520
(Accountants, 2021).
Deze specifieke
cijferanalyse betreft
een onderdeel van Figuur 3: Push left-principe
de gegevensgerichte (eindejaars)controle. Daar het een cijferanalyse betreft, valt de regressie onder
de noemer “cijferanalyserisico” in het push left-principe.
1
In hoofdstuk 3. Praktijk en dataset wordt beschreven hoe en waarom de dataset is opgeschoond.
8
, 2.6 Audit Comfort Cycle
De audit comfort cycle beschrijft hoe het management zelf in “control” is door middel van interne
beheersing en hoe de accountant hier controlezekerheid uit kan halen om met comfort een
controleverklaring af te kunnen geven. De audit comfort cycle bestaat uit de volgende elementen:
1. Scoping: In welke jaarrekeningposten zitten risico’s op een afwijking van materieel belang?
En door welke processen worden deze jaarrekeningposten gevoed?
2. Understanding: Hoe verlopen de processen c.q. interne beheersing die toezien op de
geconstateerde risico’s?
3. Evaluating: Vind ik als accountant de opzet van de processen toereikend om de risico’s te
mitigeren?
4. Validating: Werkt het proces ook zoals ik, als accountant, heb begrepen in de understanding
fase?
De audit comfort cycle is terug te vinden, in paragraaf 3, van NV COS 315: “Risico's op een afwijking
van materieel belang identificeren en inschatten door inzicht te verwerven in de entiteit en haar
omgeving” (Accountants, 2021). De analyse die in dit onderzoek wordt opgesteld, zal deel uit maken
van de gegevensgerichte controle en valt derhalve buiten de audit comfort cycle.
9
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller NoggeenRA. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $5.42. You're not tied to anything after your purchase.