In deze paper staat een regressieanalyse centraal. Het doel van deze paper is het ontwikkelen van een model die het mogelijk maakt om de omzet van een taxionderneming te voorspellen.
In de paper werk ik onder andere het volgende uit: De V's van Big data, het model van Gartner, de Wisdom Pyramid, d...
NY Taxi omzet
voorspellen
Data-analyse in de audit praktijk
Student: Tim van der Weiden
Studentnummer: 000476290
Universiteit: Nyenrode Business Universiteit
Vak: Data Science in Auditing
Datum: 17-06-2022
Aantal woorden: 4.985
2. Dataset ............................................................................................................................................................ 4
2.1 Inlezen dataset ....................................................................................................................................... 4
2.2 Beschrijving van de variabelen ............................................................................................................. 4
2.3 Descriptives ........................................................................................................................................... 4
2.4 Analyse in R ........................................................................................................................................... 5
3. Theorie ........................................................................................................................................................... 6
3.1 Relevantie in de audit context ................................................................................................................ 6
3.2 Aard analyse .......................................................................................................................................... 6
3.3 De V’s van big data ............................................................................................................................... 7
3.4 Gartner .................................................................................................................................................. 8
3.5 Inductief vs. deductief ............................................................................................................................ 9
3.6 Audit comfort cycle ................................................................................................................................ 9
3.7 ‘Push left’-principe .............................................................................................................................. 10
3.8 Bias-Variance trade-off ....................................................................................................................... 10
4. Data-analyse................................................................................................................................................. 12
4.1 Kenmerken van de analyse .................................................................................................................. 12
4.2 Resultaten van de analyse.................................................................................................................... 13
4.3 Risico’s van de analyse........................................................................................................................ 15
4.4 Conclusie ............................................................................................................................................. 16
Appendix A ............................................................................................................................................................ 18
Appendix B ............................................................................................................................................................ 24
Appendix C ............................................................................................................................................................ 37
2
, 1. Inleiding
1.1 Inleiding
Deze paper is geschreven ter afsluiting van het vak Data Science in Auditing dat deel
uitmaakt van de Master of Science in Accountancy aan Nyenrode Business Universiteit. Het
doel van dit vak is om stil te staan bij de recente ontwikkelingen op het gebied van data-
analyse in de audit praktijk. Data-analyse krijgt bij de grotere kantoren in Nederland steeds
meer aandacht. Speciale afdelingen zijn opgericht ten einde tools te ontwikkelen die gebruikt
kunnen worden bij de controle van jaarrekeningen. Enerzijds kan Data-analyse gebruikt
worden om een beter begrip te krijgen van de cliënt, haar processen en haar omgeving.
Anderzijds kan data-analyse bijdragen aan het verkrijgen van zekerheid bij bepaalde
werkzaamheden (NBA, 2019). Hieruit blijkt dat data-analyse in meerdere stadia van de
controle toepasbaar is.
1.2 Onderzoeksvraag
In deze paper staat een data-analyse centraal. De data-analyse wordt gebruikt om een
vraagstuk vanuit de audit praktijk te beantwoorden. De dataset die is gebruikt bevat de
gegevens van taxiritten in New York uit de periode 2008 tot en met 2021. Aan de hand van
deze dataset zal een regressiemodel worden opgesteld waarmee de prijs van een taxirit
geschat/voorspeld kan worden. In de controlepraktijk kan dit model worden gebruikt om de
omzet van een uitbater van taxi’s in New York te voorspellen en dit te vergelijken met de
omzet zoals gepresenteerd in de jaarrekening.
De onderzoeksvraag die centraal staat luidt als volgt:
“In hoeverre is de prijs van een taxirit te voorspellen op basis van kenmerken van een taxirit?”
3
, 2. Dataset
2.1 Inlezen dataset
De reeds genoemde dataset is verkregen via Kaggle.com. Kaggle is een community voor en
van datawetenschappers waarin onder andere datasets worden gepubliceerd/gedeeld. De
verkregen dataset is ingelezen in R. In Appendix A is het script dat gebruikt is ten behoeve
van deze paper opgenomen. In het script is te zien welke packages zijn gedownload en
opgehaald (via Library) en hoe de dataset is ingelezen. Vervolgens zijn de werkzaamheden en
analyses die in deze paper zijn uitgevoerd zichtbaar in het script. Om redundantie te
voorkomen zijn gehanteerde codes niet in de hoofdtekst van deze paper opgenomen.
Daarnaast is het belangrijk om op te merken dat de totale dataset uit 83.691 observaties
bestaat. Gezien het doel en omvang van deze paper is dit te omvangrijk. Derhalve is besloten
om de eerste 30.000 regels te hanteren. Deze verkorte versie betreft de basis voor deze paper.
2.2 Beschrijving van de variabelen
In R blijkt dat de originele dataset 20 variabelen bevat. Na het runnen van de code om “NA”
waardes te detecteren bleek dat de variabele “ehail_fee” voornamelijk bestond uit dergelijke
waardes. Derhalve is besloten om deze variabele te elimineren uit de dataset. Hiertoe is een
nieuwe dataset aangemaakt. Zie in Appendix B een overzicht van de variabelen die zijn
opgenomen in de dataset. Vanuit de tabel blijkt dat variabelen zijn toegevoegd ten einde een
inschaling van een dag en nacht rit te bewerkstelligen. De code hiervoor is terug te lezen in
Appendix A. Deze toegevoegde variabelen zijn verder niet relevant voor de analyse.
In de regressieanalyse zijn niet alle variabelen betrokken. Of variabelen zijn betrokken is
aangegeven in de rechter kolom van de tabel. Allereerst zijn pick up time en drop off time
vereenvoudigd tot een dag/nacht variabele op basis van de pick up time. Vervolgens is van de
waardes “dag” en “nacht” een dummy variabele gemaakt. De gecreëerde dummy variabele is
eenvoudiger te hanteren in een regressiemodel. Daarnaast kan men vraagtekens zetten bij de
mate van segmentatie van pick up times in het kader van relevantie. Of een taxirit om 8:00 of
08:05 is gestart is minder relevant dan of de taxirit overdag of ’s nachts heeft plaatsgevonden.
De hoge mate van segmentatie schiet het doel van de regressie voorbij, daarom is besloten
niet verder te segmenteren dan dag/nacht.
Voor een nadere toelichting omtrent het elimineren van de overige variabelen wordt verwezen
naar hoofdstuk 4.
2.3 Descriptives
In Appendix B is een overzicht opgenomen met daarin de descriptives van variabelen die als
continue data classificeren. Het begrip continue data houdt in dat de variabelen in principe
elke waarde kunnen aannemen. In deze paper betreffen voorbeelden hiervan de ritafstand en
de totale kosten/prijs van een rit. De overige variabelen betreffen nominale data. Voor deze
variabelen zijn frequentietabellen in Appendix B opgenomen. Dit betreffen variabelen waarbij
slechts enkele waardes mogelijk zijn, bijvoorbeeld het aantal passagiers.
Vanwege de opbouw van de gegevens in de kolommen pick up time en drop off time zijn
geen descriptives opgenomen. Voor elke rit zijn namelijk het jaartal, de maand, de dag, de
uren, de minuten en de secondes opgenomen. Dit is te gesegmenteerd voor een overzichtelijk
descriptive. Tevens is in deze overweging meegenomen dat ten behoeve van de regressie deze
variabelen zijn vereenvoudigd tot een dummy variabele waarvan een frequentietabel is
opgenomen. Tevens zijn de frequentietabellen of descriptives van de variabelen time, hours
4
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper Weid01. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €8,49. Je zit daarna nergens aan vast.