Essay

DSA-paper regressie analayse

2 purchases

Course
Data Science In Auditing

Institution
Nyenrode Business Universiteit (Nyenrode)

In deze paper staat een regressieanalyse centraal. Het doel van deze paper is het ontwikkelen van een model die het mogelijk maakt om de omzet van een taxionderneming te voorspellen. In de paper werk ik onder andere het volgende uit: De V's van Big data, het model van Gartner, de Wisdom Pyramid, d...

[Show more]

Preview 4 out of 37 pages

View example

Uploaded on October 15, 2022
Number of pages 37
Written in 2021/2022
Type Essay
Professor(s) Unknown
Grade 8-9

regressie anlayse
taxi

Institution
Nyenrode Business Universiteit (Nyenrode)
Education
Accountancy
Course
Data Science In Auditing

Weid01

Member since 7 year 10 documents sold

$9.17

Also available in package deal from $16.73

Add to cart

Add to wishlist

100% satisfaction guarantee
Immediately available after payment
Both online and in PDF
No strings attached

Also available in package deal (1)

Semester 1 Master

$ 19.96 $ 16.73 2 items

1. Essay - Dsa-paper regressie analayse
2. Class notes - College aantekeningen ev
Show more

NY Taxi omzet
voorspellen
Data-analyse in de audit praktijk

Student: Tim van der Weiden
Studentnummer: 000476290
Universiteit: Nyenrode Business Universiteit
Vak: Data Science in Auditing
Datum: 17-06-2022
Aantal woorden: 4.985

,Inhoudsopgave
1. Inleiding ......................................................................................................................................................... 3
1.1 Inleiding ................................................................................................................................................. 3
1.2 Onderzoeksvraag ................................................................................................................................... 3

2. Dataset ............................................................................................................................................................ 4
2.1 Inlezen dataset ....................................................................................................................................... 4
2.2 Beschrijving van de variabelen ............................................................................................................. 4
2.3 Descriptives ........................................................................................................................................... 4
2.4 Analyse in R ........................................................................................................................................... 5

3. Theorie ........................................................................................................................................................... 6
3.1 Relevantie in de audit context ................................................................................................................ 6
3.2 Aard analyse .......................................................................................................................................... 6
3.3 De V’s van big data ............................................................................................................................... 7
3.4 Gartner .................................................................................................................................................. 8
3.5 Inductief vs. deductief ............................................................................................................................ 9
3.6 Audit comfort cycle ................................................................................................................................ 9
3.7 ‘Push left’-principe .............................................................................................................................. 10
3.8 Bias-Variance trade-off ....................................................................................................................... 10

4. Data-analyse................................................................................................................................................. 12
4.1 Kenmerken van de analyse .................................................................................................................. 12
4.2 Resultaten van de analyse.................................................................................................................... 13
4.3 Risico’s van de analyse........................................................................................................................ 15
4.4 Conclusie ............................................................................................................................................. 16

Bibliografie ............................................................................................................................................................ 17

Appendix A ............................................................................................................................................................ 18

Appendix B ............................................................................................................................................................ 24

Appendix C ............................................................................................................................................................ 37

2

, 1. Inleiding
1.1 Inleiding
Deze paper is geschreven ter afsluiting van het vak Data Science in Auditing dat deel
uitmaakt van de Master of Science in Accountancy aan Nyenrode Business Universiteit. Het
doel van dit vak is om stil te staan bij de recente ontwikkelingen op het gebied van data-
analyse in de audit praktijk. Data-analyse krijgt bij de grotere kantoren in Nederland steeds
meer aandacht. Speciale afdelingen zijn opgericht ten einde tools te ontwikkelen die gebruikt
kunnen worden bij de controle van jaarrekeningen. Enerzijds kan Data-analyse gebruikt
worden om een beter begrip te krijgen van de cliënt, haar processen en haar omgeving.
Anderzijds kan data-analyse bijdragen aan het verkrijgen van zekerheid bij bepaalde
werkzaamheden (NBA, 2019). Hieruit blijkt dat data-analyse in meerdere stadia van de
controle toepasbaar is.

1.2 Onderzoeksvraag
In deze paper staat een data-analyse centraal. De data-analyse wordt gebruikt om een
vraagstuk vanuit de audit praktijk te beantwoorden. De dataset die is gebruikt bevat de
gegevens van taxiritten in New York uit de periode 2008 tot en met 2021. Aan de hand van
deze dataset zal een regressiemodel worden opgesteld waarmee de prijs van een taxirit
geschat/voorspeld kan worden. In de controlepraktijk kan dit model worden gebruikt om de
omzet van een uitbater van taxi’s in New York te voorspellen en dit te vergelijken met de
omzet zoals gepresenteerd in de jaarrekening.

De onderzoeksvraag die centraal staat luidt als volgt:
“In hoeverre is de prijs van een taxirit te voorspellen op basis van kenmerken van een taxirit?”

3

, 2. Dataset
2.1 Inlezen dataset
De reeds genoemde dataset is verkregen via Kaggle.com. Kaggle is een community voor en
van datawetenschappers waarin onder andere datasets worden gepubliceerd/gedeeld. De
verkregen dataset is ingelezen in R. In Appendix A is het script dat gebruikt is ten behoeve
van deze paper opgenomen. In het script is te zien welke packages zijn gedownload en
opgehaald (via Library) en hoe de dataset is ingelezen. Vervolgens zijn de werkzaamheden en
analyses die in deze paper zijn uitgevoerd zichtbaar in het script. Om redundantie te
voorkomen zijn gehanteerde codes niet in de hoofdtekst van deze paper opgenomen.
Daarnaast is het belangrijk om op te merken dat de totale dataset uit 83.691 observaties
bestaat. Gezien het doel en omvang van deze paper is dit te omvangrijk. Derhalve is besloten
om de eerste 30.000 regels te hanteren. Deze verkorte versie betreft de basis voor deze paper.

2.2 Beschrijving van de variabelen
In R blijkt dat de originele dataset 20 variabelen bevat. Na het runnen van de code om “NA”
waardes te detecteren bleek dat de variabele “ehail_fee” voornamelijk bestond uit dergelijke
waardes. Derhalve is besloten om deze variabele te elimineren uit de dataset. Hiertoe is een
nieuwe dataset aangemaakt. Zie in Appendix B een overzicht van de variabelen die zijn
opgenomen in de dataset. Vanuit de tabel blijkt dat variabelen zijn toegevoegd ten einde een
inschaling van een dag en nacht rit te bewerkstelligen. De code hiervoor is terug te lezen in
Appendix A. Deze toegevoegde variabelen zijn verder niet relevant voor de analyse.

In de regressieanalyse zijn niet alle variabelen betrokken. Of variabelen zijn betrokken is
aangegeven in de rechter kolom van de tabel. Allereerst zijn pick up time en drop off time
vereenvoudigd tot een dag/nacht variabele op basis van de pick up time. Vervolgens is van de
waardes “dag” en “nacht” een dummy variabele gemaakt. De gecreëerde dummy variabele is
eenvoudiger te hanteren in een regressiemodel. Daarnaast kan men vraagtekens zetten bij de
mate van segmentatie van pick up times in het kader van relevantie. Of een taxirit om 8:00 of
08:05 is gestart is minder relevant dan of de taxirit overdag of ’s nachts heeft plaatsgevonden.
De hoge mate van segmentatie schiet het doel van de regressie voorbij, daarom is besloten
niet verder te segmenteren dan dag/nacht.
Voor een nadere toelichting omtrent het elimineren van de overige variabelen wordt verwezen
naar hoofdstuk 4.

2.3 Descriptives
In Appendix B is een overzicht opgenomen met daarin de descriptives van variabelen die als
continue data classificeren. Het begrip continue data houdt in dat de variabelen in principe
elke waarde kunnen aannemen. In deze paper betreffen voorbeelden hiervan de ritafstand en
de totale kosten/prijs van een rit. De overige variabelen betreffen nominale data. Voor deze
variabelen zijn frequentietabellen in Appendix B opgenomen. Dit betreffen variabelen waarbij
slechts enkele waardes mogelijk zijn, bijvoorbeeld het aantal passagiers.
Vanwege de opbouw van de gegevens in de kolommen pick up time en drop off time zijn
geen descriptives opgenomen. Voor elke rit zijn namelijk het jaartal, de maand, de dag, de
uren, de minuten en de secondes opgenomen. Dit is te gesegmenteerd voor een overzichtelijk
descriptive. Tevens is in deze overweging meegenomen dat ten behoeve van de regressie deze
variabelen zijn vereenvoudigd tot een dummy variabele waarvan een frequentietabel is
opgenomen. Tevens zijn de frequentietabellen of descriptives van de variabelen time, hours

4

The benefits of buying summaries with Stuvia:

Guaranteed quality through customer reviews

Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.

Quick and easy check-out

You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.

Focus on what matters

Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller Weid01. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $9.17. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews)

66781 documents were sold in the last 30 days

Founded in 2010, the go-to place to buy study notes for 15 years now

Start selling

Popular Universities in the United States

Popular books

Find notes and summaries for these qualifications

Seller