DATA SCIENCE IN AUDITING
Voorspellen van de opbrengst door middel van data-analyse
Anne van Asten | 000476787
21-06-2022
Aantal woorden: 5.579
,Inhoudsopgave
Inleiding ......................................................................................................................................................... 2
Hoofdstuk 1: Praktische deel...................................................................................................................... 3
1.1 Relevantie van de dataset binnen de audit context ................................................................. 3
1.2 Ingelezen dataset .......................................................................................................................... 4
1.3 Beschrijving van de opgeleverde data ....................................................................................... 5
1.4 Analyse gehanteerde data ........................................................................................................... 7
Hoofdstuk 2: Theoretische deel ............................................................................................................... 10
2.1 Relevantie van dataset en analyse binnen de audit context ................................................. 10
2.2 Beschrijving van uitgevoerde analyse...................................................................................... 11
2.3 De V’s van Big Data binnen de analyse ................................................................................. 12
2.4 Gartner ........................................................................................................................................ 14
2.5 Wisdom Pyramid ....................................................................................................................... 15
2.6 Audit Comfort Cycle ................................................................................................................. 16
2.7 Push-left principle...................................................................................................................... 16
2.8 Evaluatie van het regressiemodel ............................................................................................ 17
2.9 Risico’s van de statistische analyse .......................................................................................... 19
2.10 Toelichting resultaten van de analyse ..................................................................................... 19
Hoofdstuk 3: Conclusie ............................................................................................................................. 22
Bibliografie .................................................................................................................................................. 23
Bijlage 1: Histogram van de verschillende continue variabelen........................................................... 24
Bijlage 2: Plots relatie tussen onafhankelijke variabelen en afhankelijke variabele ........................... 26
Bijlage 3: Logaritmische modellen van de variabelen x, y en z ............................................................ 28
Bijlage 4: Scatter plot met relatie tussen voorspelde- en werkelijke prijs ........................................... 29
Bijlage 5: Output multivariabele regressie van de continue variabelen .............................................. 30
Bijlage 6: Correlatiecoëfficiënten van het multivariabele regressiemodel .......................................... 31
Appendix A: Code R.................................................................................................................................. 32
1
,Inleiding
Data-analyse is een zeer actueel onderwerp binnen de accountancybranche, de sector zet steeds
meer stappen om de effectiviteit en efficiency binnen het controleproces te vergroten. Daarnaast
worden controles ook steeds relevanter door in te spelen op inzichtelijkheid voor klanten (De Bos
en Lkassem, 2022).
In deze paper wordt, voor het vak Data Science in Auditing, middels een data-analyse in R-studio
onderzocht of het mogelijk is de verkoopprijs te bepalen van een diamant aan de hand van ver-
schillende kenmerken van een diamant. In hoofdstuk 1 wordt nader ingegaan op de dataset en de
uitgevoerde analyse in R-studio. Vervolgens wordt in hoofdstuk 2 het theoretische gedeelte van
deze paper behandeld. Hierin worden diverse theorieën gekoppeld aan het opgestelde model en
wordt het model geëvalueerd, door onder andere in te zoomen op de eventuele risico’s. Tot slot
wordt er in hoofdstuk 3 een conclusie gevormd op de in het eerste hoofdstuk beschreven onder-
zoeksvraag.
2
, Hoofdstuk 1: Praktische deel
1.1 Relevantie van de dataset binnen de audit context
Voor deze paper is de dataset ‘Diamonds’ gehanteerd. Deze dataset is afkomstig van de website
https://www.kaggle.com. De dataset bevat informatie over specifieke kenmerken van bijna 54.000
diamanten. Deze variabelen zullen nader worden toegelicht in hoofdstuk 1.3. Een belangrijke va-
riabele binnen de dataset betreft de prijs van elke diamant. Het unieke aan diamanten, is dat deze
geen eenheidsprijs hebben (bntdiamonds, 2022). De prijs van een diamant wordt bepaald aan de
hand van verschillende variabelen, waaronder het gewicht, de kwaliteit en de omvang. Daar de prijs
van een diamant wordt bepaald op basis van deze verschillende factoren, is het voor een accountant
lastig te verifiëren of de juiste verkoopprijs gehanteerd is. In deze paper wordt onderzocht of de
prijs van een diamant voorspeld kan worden aan de hand deze verschillende factoren door het
gebruik van data-analyse.
Binnen deze paper staat de volgende onderzoeksvraag centraal:
‘In hoeverre is een accountant in staat om aan de hand van kenmerken van een diamant de ver-
koopprijs te bepalen?’
3
Voorspellen van de opbrengst door middel van data-analyse
Anne van Asten | 000476787
21-06-2022
Aantal woorden: 5.579
,Inhoudsopgave
Inleiding ......................................................................................................................................................... 2
Hoofdstuk 1: Praktische deel...................................................................................................................... 3
1.1 Relevantie van de dataset binnen de audit context ................................................................. 3
1.2 Ingelezen dataset .......................................................................................................................... 4
1.3 Beschrijving van de opgeleverde data ....................................................................................... 5
1.4 Analyse gehanteerde data ........................................................................................................... 7
Hoofdstuk 2: Theoretische deel ............................................................................................................... 10
2.1 Relevantie van dataset en analyse binnen de audit context ................................................. 10
2.2 Beschrijving van uitgevoerde analyse...................................................................................... 11
2.3 De V’s van Big Data binnen de analyse ................................................................................. 12
2.4 Gartner ........................................................................................................................................ 14
2.5 Wisdom Pyramid ....................................................................................................................... 15
2.6 Audit Comfort Cycle ................................................................................................................. 16
2.7 Push-left principle...................................................................................................................... 16
2.8 Evaluatie van het regressiemodel ............................................................................................ 17
2.9 Risico’s van de statistische analyse .......................................................................................... 19
2.10 Toelichting resultaten van de analyse ..................................................................................... 19
Hoofdstuk 3: Conclusie ............................................................................................................................. 22
Bibliografie .................................................................................................................................................. 23
Bijlage 1: Histogram van de verschillende continue variabelen........................................................... 24
Bijlage 2: Plots relatie tussen onafhankelijke variabelen en afhankelijke variabele ........................... 26
Bijlage 3: Logaritmische modellen van de variabelen x, y en z ............................................................ 28
Bijlage 4: Scatter plot met relatie tussen voorspelde- en werkelijke prijs ........................................... 29
Bijlage 5: Output multivariabele regressie van de continue variabelen .............................................. 30
Bijlage 6: Correlatiecoëfficiënten van het multivariabele regressiemodel .......................................... 31
Appendix A: Code R.................................................................................................................................. 32
1
,Inleiding
Data-analyse is een zeer actueel onderwerp binnen de accountancybranche, de sector zet steeds
meer stappen om de effectiviteit en efficiency binnen het controleproces te vergroten. Daarnaast
worden controles ook steeds relevanter door in te spelen op inzichtelijkheid voor klanten (De Bos
en Lkassem, 2022).
In deze paper wordt, voor het vak Data Science in Auditing, middels een data-analyse in R-studio
onderzocht of het mogelijk is de verkoopprijs te bepalen van een diamant aan de hand van ver-
schillende kenmerken van een diamant. In hoofdstuk 1 wordt nader ingegaan op de dataset en de
uitgevoerde analyse in R-studio. Vervolgens wordt in hoofdstuk 2 het theoretische gedeelte van
deze paper behandeld. Hierin worden diverse theorieën gekoppeld aan het opgestelde model en
wordt het model geëvalueerd, door onder andere in te zoomen op de eventuele risico’s. Tot slot
wordt er in hoofdstuk 3 een conclusie gevormd op de in het eerste hoofdstuk beschreven onder-
zoeksvraag.
2
, Hoofdstuk 1: Praktische deel
1.1 Relevantie van de dataset binnen de audit context
Voor deze paper is de dataset ‘Diamonds’ gehanteerd. Deze dataset is afkomstig van de website
https://www.kaggle.com. De dataset bevat informatie over specifieke kenmerken van bijna 54.000
diamanten. Deze variabelen zullen nader worden toegelicht in hoofdstuk 1.3. Een belangrijke va-
riabele binnen de dataset betreft de prijs van elke diamant. Het unieke aan diamanten, is dat deze
geen eenheidsprijs hebben (bntdiamonds, 2022). De prijs van een diamant wordt bepaald aan de
hand van verschillende variabelen, waaronder het gewicht, de kwaliteit en de omvang. Daar de prijs
van een diamant wordt bepaald op basis van deze verschillende factoren, is het voor een accountant
lastig te verifiëren of de juiste verkoopprijs gehanteerd is. In deze paper wordt onderzocht of de
prijs van een diamant voorspeld kan worden aan de hand deze verschillende factoren door het
gebruik van data-analyse.
Binnen deze paper staat de volgende onderzoeksvraag centraal:
‘In hoeverre is een accountant in staat om aan de hand van kenmerken van een diamant de ver-
koopprijs te bepalen?’
3